ビッグデータと人工知能 p32〜47 要約

-全件処理は万能か-

3Vつまり、量の大きさ(Volume)、多様なこと(Variety)、生成速度のはやさ(Velocity)がビッグデータの特徴である。だが、そういう扱いづらいデータを一体どのように処理、分析するのか?いま注目されているビッグデータ分析処理は、従来のやり方とは異なる特徴がある。主な特徴としては次の三点があげられる。

一つ目の特徴は、「全件処理」である。従来はたくさんのデータから限られた少数のサンプルを抜き取りそれらを分析してデータ全体の傾向を推し量るという方法が取られてきた。ところが、ビッグデータはこういったアプローチに反旗をひるがえす。サンプルではなくともかく全件のデータを調べようというのだ。

ここで第二の特徴である「質より量」があらわれる。例えば、世論の動向を調べるときに従来ならアンケート項目を用意し無作為抽出した人に対して尋ねるといった方法が取られたが、ビッグデータでは大量のツイッター発言を丸ごと分析し、集団的なおよその特性を探りだそうとするのである。ここでは、データの質が多少悪くても大量処理によって正確性が増すという強い信念がある。とはいえ、データの質が悪くてもともかく量をこなせば正確な分析ができるというのは少々乱暴すぎる。だからビッグデータの全件処理と言っても厳密にはただサンプル数が増加しただけではないかという冷めた議論があらわれる。

第三の特徴は「因果から相関」である。ビッグデータの分析の魅力は常識を超えた相関関係を発見することで有効な行動をとれるということである。例えば、「咳止め」や「解熱剤」と言ったキーワードによるウェブ検索頻度を調べるとどんな地域でインフルエンザが流行っているのか特定できる。グーグル社では実際にこのデータの相関関係分析しインフルエンザの流行を分析した。しかし、相関関係だけわかればよく、結果がわかれば理由はいらないというキャッチフレーズには違和感を覚える。

-インダクションとアブダクション-

演繹(デダクション)と帰納(インダクション)の他に、「仮説推量(アブダクション)がある。仮説推量は一般ルールと個別事実とから個別条件を導くものである。「人間は死ぬ」「ソクラテスは死ぬ」から「ソクラテスは人間だ」と推量するわけだが、死んだのはソクラテスという名前の犬であるのかもしれないため、仮説推量は必ずしも成り立つとは言えない。このように自然現象にせよ社会現象にせよ我々の周囲で起こる物事を推測して対処しても外れることは少なくない。だがそういう中で諸条件を検討考慮し、なんとか適切な対処をするために人間が作り上げてきたのが因果関係モデルであるのではないか。ただし、3Vの特徴を持つビッグデータにおいてはのんびり時間をかけて因果関係を検討している余裕はない。近頃話題を集めている「人工知能」を用いれば、ビッグデータに関する諸問題は解決されるのだろうか?

カテゴリー: 未分類   パーマリンク

コメントを残す