どこにでも現れるキーワード「ビッグデータ」とは?

はじめに

「ビッグデータ」という言葉、皆さんも聞いたことがあると思います。夜のニュースでは、その日のTwitterのつぶやきデータを解析し、多くつぶやかれたキーワードから今日起こった事を振り返ったりしていますし、ビッグデータを利用したビジネス支援サービスのテレビCMが放送されていたりと、もはやビッグデータは身近なものになりつつあるのです。いいえ、寧ろ、既になっている、が正確かもしれません。しかし、「具体的にビッグデータが何であるかを知っていますか?」と、聞かれたらどうでしょう。どう答えますか。この質問に答えるのは少し、難しいかもしれません。今回は、ビッグデータとはそもそも何なのか、どう利用されているのか、について簡単に解説したいと思います。

ビッグデータとは?

さて、改めて質問します。「具体的にビッグデータが何であるかを知っていますか?」おそらく、真っ先に思い浮かぶのが、ビッグデータとは「大量のデータ」であるという答えではないでしょうか。その答えは、間違いではありません。しかし、それだけが「ビッグデータの定義」ではないのです。では、ビッグデータとは何かというと、難しい話を抜きにして言えば、それは、「非常に扱いにくいデータ」となるかと思います。では、何故扱いにくいのか、それを次にもう少し具体的に説明します。

一般的に、ビッグデータの特徴は、量(Volume)、多様性(Variety)、速度(Velocity)で説明できると言われています[1]。これらの特徴は、Volume、Variety、Velocityの頭文字「V」から、ビッグデータの3Vと呼ばれることもあります。特徴の一つである「量」は、先ほど述べた「大量のデータ」に相当するものです。実際、数億人分のデータ、数十億件のデータを分析する事もあるわけですから、これは言うまでもなく、「非常に扱いにくいデータ」ですよね。

次の特徴である「多様性」、これは、データの種類、データ形式に関するビッグデータの特徴になります。
例えば、ある分析を行う際には、画像データ、音声データ、文字データを総合的に扱う必要があるかもしれません。この様な多種多様なデータを、ある結論を得るために総合的に処理・分析しなくてはならないわけですから、これもまた、「非常に扱いにくい」わけです。データ形式の多様性に関しては、少し分かりにくいのですが、想像してみてください。当然ですが、世の中のデータは、私達が分析しやすいものばかりではありません。分析しやすいように開発されたXMLのようなマークアップ言語などが例外としてあげられはします。しかし、私達が話す会話内容を思い出してください。私達は話している最中、言い淀みもすれば、文法的に不正確な表現、造語も使います。また方言を使うこともあるかもしれません。このような口語もまた、「非常に扱いにくいデータ」の一種と考える事ができます。(Twitter中の文章なども口語と同様の性質があると言えるかもしれません。)

最後の特徴である「速度」は、データ更新の速度、データ量の増加速度に関わるものです。
例えば、micro-blogの一種であるTwitterを思い浮かべてください。Twitterでは、1日に数億のつぶやきが投稿されていると言われています(1日平均で何億件つぶやかれるかは、年々変わってきています)。それらを分析するのは、「量」的な面から見ても困難ではありますが、「速度」の面においても非常に困難であると言えます。何しろ、今この瞬間にもつぶやきデータは増え続け、しかも、そのつぶやきの傾向自体も変化してゆく可能性があるわけですから。何が「現在のTwitterのつぶやき傾向」なのかを説明しにくいわけです。しかし、それが逆に興味深く、その進捗性を逆に利用し、「中長期的なつぶやきの傾向の変化」を分析し有意義な知見を得ることも可能になるわけです。
この様に扱いにくくはあるのですが、その分、得るものも大きいのがビッグデータなのですね。

これらビッグデータの特徴3V全てを兼ね備えたデータであれば、言うまでもなく、ビッグデータと呼ぶことができます。しかし、仮に「量」的にはそれほど多くなくとも、「多様性」や「速度」の特徴を持っていれば、ビッグデータと見なすことができます。例えば、ある特定のキーワード、ハッシュタグで検索したTwitterのつぶやきデータは、「量」的には、それ程多くの数に上らないことがしばしばあります。しかし、それでも依然として、「多様性」と「速度」の特徴を備えたデータであると言えます。故に、この「量」的には多くの数にのぼらないTwitterのつぶやきデータも、「ビッグデータの定義」に適うものと言えるでしょう。

これまでのビッグデータの活用の試み

では次に、ビッグデータがどのような分野で、どのように活用されているかを解説したいと思います。
ビッグデータという言葉がよく用いられるようになったのは、2011年以降であると言われています。では、その年に何故ビッグデータが注目されるようになったのでしょうか。きっかけの一つは東日本大震災であると思います。この時期、多くの人々に2011年3月11日付近に何が起こったのかを知り、今後も起こり得る東日本大震災級の災害のため、できるだけ多くの知見を得なくてならないという危機感が生まれたと思います。その解決策の一つとして、ビッグデータが注目されたと言えるかもしれません。例えば、マグニチュード9.0の地震発生時のGPSや加速度計データを基に時系列的に地震の状況をシミュレーションで再現した研究や[2]、震災発生から15ヶ月間の160万人の被災者の移動状況を、携帯電話のGPSデータから分析した研究[3]などが数多く発表されました。また、これら複数の計測器から得られたビッグデータを総合的に分析することで、震災の全体像がより詳細に見えてくることも、多くの人の知るところとなったと思います。

現在、ビッグデータは様々な分野での活用が試みられています。ビジネスでビッグデータの活用が盛んであることは、聞いたことがあるかもしれません。例えば、利益を生む新技術開発のためのヒントを、ビッグデータを活用することで得ようという試みもなされています[4]。また、近年は、農業や漁業でもビッグデータを活用し、効率よく生産量、漁獲量を増やす試みがなされています。例えば、最近、総務省が宮城県東松島市、東北大学、KDDI研究所、地元企業からなる産学官連携グループと委託研究契約を結んだことが報告されました(日本経済新聞、2016年7月30日、夕刊、1面記事「漁業さらば勘頼み」) 。この試みは、水中の画像、水温、潮流などの複合データを総合的に分析し、捕れる魚の種類、漁獲量を推定するもので、成功すれば新たな漁法の確立に繋がるでしょう。これらの他にも、医療など様々な分野で、ビッグデータの活用が始まっています。どの様な分野で、どの様にビッグデータが活用されているかを自分で調べてみるのも、面白いかもしれませんね。

ビッグデータ活用の可能性

これまでに述べたように、ビッグデータは既に様々な分野で活用されています。今後も、データマイニング技術、機械学習、人工知能、シミュレーションなど様々な技術を用いてビッグデータを活用する試みが続けられるでしょう。しかし、最も大切なことは、技術のみならず、ビッグデータをどう活かし得るか、どのような問題を解決し得るか、それを判断する、各分野の専門知識、経験です。高校生の皆さんは、これから、大学で多くの事を学び、何らかの専門家として社会で活躍してゆくことでしょう。その頃には、皆さんが活躍する分野でビッグデータを活かし問題解決を行う事が、今日以上に常識になっているかもしれませんね。

【参考文献】

[1]高橋範光, 道具としてのビッグデータ,日本実業出版社, 2015年.
[2]Yehuda BOCK, Diego MELGAR, Brendan W. CROWELL, Dominga SANCHEZ and José RESTREPO, “REPLAY OF THE 2011 MW 9.0 GREAT EAST JAPAN EARTHQUAKE IN SIMULATED REAL-TIME MODE WITH INTEGRATED 1 HZ GPS AND 100 HZ ACCELEROMETER DATA FOR RAPID SOURCE CHARACTERIZATION, EARTHQUAKE RESPONSE SPECTRA AND TSUNAMI PREDICTION, ” Proceedings of the International Symposium on Engineering Lessons Learned from the 2011 Great East Japan Earthquake, March 1-4, 2012, Tokyo, Japan.
[3]宋軒, 関本義秀, “160万人の長期GPS移動データに基づく災害避難行動の分析とシミュレーションモデル構築に関する研究, ” 平成24年度国土政策関係研究支援事業研究成果報告書, 2012.
[4]菰田文男 (編集), 那須川哲哉 (編集), ビッグデータを活かす技術戦略としてのテキストマイニング, 中央経済社, 2014.

解説者紹介

[政策情報学部専任講師]
酒井元気 SAKAI, Motoki
[専攻]
情報工学

戻る