宮脇敦士「医療ビッグデータから見えてくるもの」
医療・健康・介護のコラム
ビッグデータは何が「ビッグ」なの? どんどん溜まっていく 圧倒的なサイズ感の持つ強みとは
インターネットのアクセス記録やクレジットカードの利用履歴も
第1回、第2回と、「ビッグデータ」を用いた新型コロナウイルス感染症と医療の話をしてきました。
「ビッグデータ」という言葉は今でこそ、私たち研究者も、マスメディアも当たり前のように使っています。「データとか全然興味ないよ」という人でも、言葉だけは聞いたことがあるかもしれません。
言葉としてはシンプルです。「ビッグ」な「データ」なのですから、何らかの「大きい」データであることはわかります。では何が「大きい」のでしょうか?
そもそも、「ビッグデータ」の統一した定義はありません。なんらかの(1)データ量が大きく、(2)どんどん溜(た)まっていって、(3)構造が複雑なデータ、のことをビッグデータと呼んでいます。
例えば、日々のインターネットのアクセス記録や、クレジットカードの利用履歴などをイメージしてもらえればよいと思います。これらは日々の利用によって、勝手にどんどん溜まっていきます。しかし、多くは情報が単に羅列されているだけになっており、そのままではとても、意味のある結果を見いだすには程遠いです。
量、速度、種類、正確性、有用性。かぎを握る五つの「V」
この(1)~(3)の三つの特徴はそれぞれ、量(volume)、速度(velocity)、種類(variety)として言い換えられ、しばしばビッグデータの「三つのV」という特徴として表されます。さらに最近は、(4)正確性(veracity)と(5)有用性(value)を加えた「五つのV」が、ビッグデータの重要な要素と言われています。
不正確なデータや、ほとんど意味を見いだせない数字の羅列は、たとえ「ビッグ」であっても、価値あるビッグデータとは言えない、ということだと思います。
このようなデータは昔から存在してはいました。しかし、技術上の問題のために、なかなか分析可能な形で容易に扱うことが難しかったのです。しかし、2000年代後半くらいから、技術の進歩により、比較的簡単に分析できるようになってきました。
1 / 3
【関連記事】
※コメントは承認制で、リアルタイムでは掲載されません。
※個人情報は書き込まないでください。