ビッグデータの取り扱い方法 (Hadoop)

index
こんにちは。 今回は、最近世間で注目されている ビッグデータ の取り扱い方について考えてみたいと思います。   ビッグデータとは ビッグデータは以下のように定義されています。(もっと詳しく知りたい方は こちら をご覧ください) 市販されているデータベース管理ツールや従来のデータ処理アプリケーションで処理することが困難なほど巨大で複雑な データ集合の集積物を表す用語である。 「巨大」というのが1エクサバイトなのか1ペタバイトなのかは意見が分かれる所ですが、つまりは「今までのやり方じゃ処理出来ないくらい大きなデータの集まり」と言えるでしょう。 今までは、処理しきれないから捨ててしまっていた巨大なデータを、もう一度見直して利益につなげていこうじゃないか!!という動きが活発になったので、ビッグデータが注目されています。それは「大手ECサイトの全アクセスログ」であったり、「日本全国の高速道路交通量」であったりと実に多種多様。 そんなビッグデータを取り扱うための仕組みとして、一番認知されているのが今回取り上げます「Hadoop」です。   Hadoopとは Hadoopは、「大規模分散計算フレームワーク」と呼ばれています。 特徴としては、分散ファイルシステム(HDFS)と並列処理フレームワーク(MapReduce)があります。 ...
More