宮脇敦士「医療ビッグデータから見えてくるもの」
医療・健康・介護のコラム
ビッグデータは何が「ビッグ」なの? どんどん溜まっていく 圧倒的なサイズ感の持つ強みとは
統計学的な差が得られなかったアビガンの臨床試験
では、ビッグデータを利用する利点は一体何なのでしょうか?
まず何と言っても、そのデータのサイズです。日常的に収集されるデータであるため、何百万、時には何億、何兆にも上ります。このサイズ感は、ビッグデータの圧倒的な武器になります。
データのサイズ感が重要である例を一つあげましょう。
昨年、新型コロナウイルスが流行し始めた頃、期待を集めた日本産の薬がありました。ファビピラビル(商品名:アビガン)です。
2020年3月上旬から5月中旬までの間に、医師主導による臨床試験が行われました。この臨床試験に関しては色々と議論がありますが、とりあえず、結果は69人(投与した群36人 vs [最初は]投与しなかった群33人)を比較して、6日目までのウイルス消失率が66.7% vs 56.1%だったとのことでした(https://www.fujita-hu.ac.jp/news/j93sdv0000006eya.html)。
一見すると、投与した群の方が、ウイルス消失率が高く、効果があるように見えます。しかし、この研究では残念ながら、統計学的に意味のある差(有意差)は認められませんでした。
もし10倍の人数を集められていれば……
ここでいう統計学的な差を表す数字がP値(Pはprobability=確率のPです)というもので、この臨床試験ではP値=0.27でした。
これは、仮にアビガンの効果がまったくなかったとしても、同じような試験を繰り返しやったら、今回みたいな10ポイント近くの差が、4回に1回くらいは出てしまう、ということを意味しています。
こういった偶然に起きてしまう確率が、20回に1回未満(P値<0.05)になってくると、その差は統計学的に「ありそうな」差、とみなされます。
事後的にはなってしまうので、本当はやってはいけない計算なのですが、もしこの臨床試験が、10倍の600人ほど集められていれば、かなりの確率で、統計学的に意味のある差を見いだすことができたと推計されます(厳密にはP値<0.05となる確率が80%以上という意味です)。
このように、サンプル数が少ないというだけで、「効果があるのか、ないのか、何とも言い難い」という結果になってしまうことがよくあります。
大きなサンプルサイズだからこそ証明できること
ここに、数百万単位のデータを用いた分析の意義があります。
もちろん臨床試験とビッグデータを用いた研究を同列に扱うべきではないのですが、それでも、意味のある差であれば、大きなサンプル数を用意して、その差を統計学的に証明することができます(逆に言えば、それでも差が証明できなければ、本当に差がないということになります)。
また、コストの点もビッグデータの利点です。ビッグデータは、ほうっておくとどんどん「勝手に」溜まっていきます。そのため、わざわざ自分からデータを集めにかかる必要がなく、その手間やかかる費用が圧倒的に安くすみます。
上記のアビガンを始めとする厳格な「臨床試験」はお金も時間も人手もかかります。それが、対象者数を十分に集められなかった大きな原因であり、このような問題は世界中で起こっています。そのため、ビッグデータを用いてまず関連がありそうかを検討し、それをクリアすれば臨床試験に進む、という流れも一部にあります。
2 / 3
【関連記事】
※コメントは承認制で、リアルタイムでは掲載されません。
※個人情報は書き込まないでください。