イグ・ノーベル・ドクター新見正則の日常
yomiDr.記事アーカイブ
ビッグデータでインフルエンザを知る
インフルエンザが
指定された医療機関(定点医療機関)を受診したインフルエンザ患者数が報告される仕組みです。日本では定点医療機関数は約5000です。医療機関に行って、そしてインフルエンザの検査をされて、そして確定診断が付いたら、報告される仕組みにて、迅速で間違いないですね。
検索語で早めに流行予測
さて、2009年に一流科学雑誌であるNatureにCDCよりも早くインフルエンザの流行を予測し、把握する方法が掲載されました。なんと検索業界の巨人、インターネットの覇者のひとつであるグーグルのチームからの報告です。そのグーグルチームは検索語上位5000万語から 季節性インフルエンザの流行に関するCDCのデータとの相関性を調べました。そして45の検索語と、ある数式モデルを用いると、リアルタイムに流行がわかると発表したのです。CDCの発表より1~2週間早くわかるのです。
つまりインフルエンザぽくなると、人々は検索エンジンでインフルエンザに関する情報を集めます。そこに注目したのです。過去のインフルエンザの感染情報はCDCから得られます。そしてその感染情報、つまり感染者数に比例する検索語を5000万語から探し出し、45に絞り、かつ数式を加えることで、ほぼ完璧にCDCと同じ感染者のグラフを作成できました。つまりこの45の語句と数式でほぼ予想できるようになったのです。
「インフルトレンド」で検索してみて
いままでの方法との違いは、なんといってもその迅速性です。もちろん病院に行って、インフルエンザ感染をキットで確かめて、そしてCDCに報告して、集計するのですから、これ以上の迅速性は有り得ないと思われていました。ところが、グーグルは検索語句から流行を予測できるので、病院に行く前から世の中の変化をほぼ確定的に推測可能となりました。すごいですね。でもちょっと恐ろしいですね。「インフルトレンド」と検索すると世界中の流行情報がわかりますよ。
一見意味がないようにも思われるたくさんのデータ(ビッグデータ)を解析して役に立つ成果を出すことは、コンピューターが進歩し、デジタル情報の蓄積が安価に簡単にできるようになったからです。そうすると因果関係はかすんできます。原因の詮索は不要です。だってデータ量が膨大になると相関関係が確実に導かれます。つまりインフルトレンドでは、インフルエンザの検査、つまり因果関係の確定診断は行っていません。因果関係は無視して、相関関係の結論を得ているのです。それで十分に役に立つのですね。
データの力、映画でも注目
映画「マネーボール」はブラッド・ピットがアメリカの野球チームであるオークランド・アスレチックスのジェネラルマネージャーであるビリー・ビーンを演じて、経験よりもデータで勝負し、年俸が安い選手を有効活用して、良い成績を残すというノンフィクションストーリーです。ビッグデータ有効活用の始まりですね。
同じくハリウッド映画の「マイノリティ・リポート」はトム・クルーズが主役で、2054年のワシントンDCを描いたものです。ビッグデータによる犯罪予知システムにより、実際に犯罪を犯す前に、その犯行が予測できるようになったのです。すごいですね。でもちょっと恐ろしいですね。
ビッグデータからはたくさんの相関性が見いだせます。それをどう利用するか。そして個人情報をどう守るかは大切な問題ですね。
人それぞれが、少しでも幸せになれますように。
【関連記事】