Cassandra Cassandraの大規模データをApache Sparkの分散処理で分析する! Apache Sparkは、HDFS、Cassandra、HBase、S3など、様々なデータソースを元に分析を実行することができます。 CassandraのデータをApache Sparkで分析したい 以前、Cassandraについてブログ... 2015.01.10 CassandraSpark
Mesos Apache Mesosで構築したクラスタ上で、Apache Sparkの分散処理を実行する。 「クラスタマネージャーApache Mesosを使って、Amazon EC2にクラスタを構築。」で構築したクラスタを使って、Sparkの分散処理を実行してみます。 Apache SparkをAmazon EC2にインスール 今回は、Spar... 2015.01.08 MesosSpark
Spark 高速な分散処理エンジンApache Sparkの操作を対話シェルで試してみる! 最近、規模の大きなデータを、高速に処理する方法を調べています。 Apache Sparkは高速な分散処理エンジン 「高速に」といっても、「スループットが高い」という意味と、「レスポンスが早い」という意味があります。 「スループットが高い」と... 2015.01.03 Spark
Presto 分散SQLクエリエンジンPrestoをMac OS Xにインストール Webサービスの運用にデータを活用する場合、まず改善のための仮説を立てます。そして、その仮説が正しいか検証するために、データベースから関連するデータを抽出します。 このデータを抽出する作業は、解析内容が複雑になるほど、そしてデータが多いほど... 2014.11.08 Presto
Cassandra 分散データベースApache CassandraをMac OS Xにインストール 最近、Cassandaに興味をもって、試しています。 Cassandraとは? 改めて、Cassandraとは、なんでしょうか? The Apache Cassandra Project Cassandraは、分散データベースのひとつです... 2014.04.05 Cassandra
Linux UUIDはなぜ、分散環境で好き勝手に生成しても衝突しないのか。RFC4122規格とUUIDの性質。 UUIDとは、Universally Unique Identifierの略で、単純にいえば世界でひとつのIDです。よくUUIDって言うけど、その正体は何なのか。調べてみました。 PHPのuniqid関数でユニークIDを生成する。 ... 2014.03.28 Linux