宮脇敦士「医療ビッグデータから見えてくるもの」
医療・健康・介護のコラム
偏ったデータが偏った結論を生み出す!? データの「質」に注目
犯罪発生を予測→警察資源を投入→検挙率上昇→犯罪発生率……のスパイラル
私たちがビッグデータを扱う時に忘れがちなのは、その「質」です。
ビッグデータは、ここ10~20年、社会のIT化によって簡単に集められるようになってきました。一方で、そのデータが、本当に社会の真実を反映しているのか、とどまって考えてみなければならないことがあります。
一つ、例えを挙げましょう。米国の警察司法制度の中では、少なくとも一部の地域で、予測プログラムが使用されています。例えば、様々な過去のデータを利用して犯罪の起きやすい地域を割り出し、限られた警察の資源を投入することで、公共の安全に役立てる、ということを目指しています。
警察にかけられるお金が有限である以上、この試みは正当化されそうに思えます。しかし、その基となるデータの信頼性はどうでしょう?
実際に、犯罪発生率を下げるために意図的にデータを改ざんしたり、被害者に苦情を言わないように依頼したり、ノルマに応じて不正に検挙を挙げるなど、そもそものデータが「汚染」されている可能性が指摘されています。
さらにこのような不正がなくとも、米国の警察が、黒人やヒスパニックなどのマイノリティーを、より多く検挙する傾向があるために、出てくるデータはマイノリティーの多い地域が「不利」になっている可能性があります。仮にマイノリティーの多い地域に実際に犯罪が多いとしても、マイノリティーの少ない地域との差が実際よりも大きく出てしまう、ということです。
1 / 3
【関連記事】
※コメントは承認制で、リアルタイムでは掲載されません。
※個人情報は書き込まないでください。