字幕表 動画を再生する
Statistics are persuasive.
統計には説得力があります
So much so that people, organizations, and whole countries
それはそれは強力なので 人々や組織 そして国が
base some of their most important decisions on organized data.
最も重要な決定を下すときには データを参考にします
But there's a problem with that.
でもここに ある問題があります
Any set of statistics might have something lurking inside it,
どんな統計でも その中に潜んでいるものが
something that can turn the results completely upside down.
結果を全く逆に してしまうことがあるのです
For example, imagine you need to choose between two hospitals
例えば 年をとった親戚の手術のため
for an elderly relative's surgery.
2つの病院から1つを 選ばねばならないとしましょう
Out of each hospital's last 1000 patient's,
各病院の直近1000人の患者のうち
900 survived at Hospital A,
A病院では900人が生存していましたが
while only 800 survived at Hospital B.
B病院では800人だけでした
So it looks like Hospital A is the better choice.
するとA病院を選ぶのが 良いように見えます
But before you make your decision,
でも決断する前に
remember that not all patients arrive at the hospital
思い出してください 来院する患者の健康度は
with the same level of health.
全員が同一ではありません
And if we divide each hospital's last 1000 patients
各病院の直近1000人の患者を
into those who arrived in good health and those who arrived in poor health,
健康状態が良い者と 悪い者とに分けてみると
the picture starts to look very different.
見えてくる状況は 大きく変わってきます
Hospital A had only 100 patients who arrived in poor health,
A病院では 健康状態が悪い患者は たった100人しか来ておらず
of which 30 survived.
そのうち30人が生存していますが
But Hospital B had 400, and they were able to save 210.
B病院には状態の悪い患者が400人来て 210人を救うことができました
So Hospital B is the better choice
だから健康状態が悪い患者の場合は
for patients who arrive at hospital in poor health,
B病院を選ぶ方が良いんです
with a survival rate of 52.5%.
生存率は52.5%です
And what if your relative's health is good when she arrives at the hospital?
ではその親戚の健康状態が 受診時に良好だったとしたら?
Strangely enough, Hospital B is still the better choice,
不思議なことに B病院の方が やはり良い選択なんです
with a survival rate of over 98%.
生存率は98%です
So how can Hospital A have a better overall survival rate
ではどちらのグループの生存率も B病院が勝っているのに
if Hospital B has better survival rates for patients in each of the two groups?
どうしてA病院の生存率の方が 総計では上になるのでしょう?
What we've stumbled upon is a case of Simpson's paradox,
私たちが陥っているのは 「シンプソンのパラドックス」です
where the same set of data can appear to show opposite trends
同一のデータでも グループの分け方によって
depending on how it's grouped.
逆の傾向を示すことがあるんです
This often occurs when aggregated data hides a conditional variable,
これがよく起きるのは 集められたデータが ある条件変数を隠し持っているときです
sometimes known as a lurking variable,
それはときに 潜伏変数と言われるもので
which is a hidden additional factor that significantly influences results.
結果に重要な影響を与えるような 隠れた別の要因のことです
Here, the hidden factor is the relative proportion of patients
ここでの隠れた要因とは 訪れる患者の健康状態に関する
who arrive in good or poor health.
相対的な比率です
Simpson's paradox isn't just a hypothetical scenario.
シンプトンのパラドックスは 単なる仮説ではありません
It pops up from time to time in the real world,
現実の世界にときどき 現れているんです
sometimes in important contexts.
重要な場面でも起こっています
One study in the UK appeared to show
英国でのある研究では
that smokers had a higher survival rate than nonsmokers
喫煙者が非喫煙者よりも
over a twenty-year time period.
20年間にわたり 高い生存率を示しました
That is, until dividing the participants by age group
しかし対象者を 年齢で区分してみると
showed that the nonsmokers were significantly older on average,
非喫煙者の平均年齢が 明らかに高いことが分かりました
and thus, more likely to die during the trial period,
したがって 研究期間中に 死亡する確率がより高いわけです
precisely because they were living longer in general.
そもそも長く生きていますからね
Here, the age groups are the lurking variable,
ここでは年齢が潜伏変数であり
and are vital to correctly interpret the data.
それに基づくグループ分けは 正確なデータ解釈に不可欠です
In another example,
別の例は
an analysis of Florida's death penalty cases
フロリダの死刑に関する分析です
seemed to reveal no racial disparity in sentencing
殺人で有罪となった被告が 黒人か白人かで
between black and white defendants convicted of murder.
死刑宣告について人種の偏りは 全く見られませんでした
But dividing the cases by the race of the victim told a different story.
しかし被害者の人種でグループ分けすると 別の結果が見えてきました
In either situation,
被害者がどちらの場合でも
black defendants were more likely to be sentenced to death.
黒人の被告の方が 死刑宣告の確率が高かったのです
The slightly higher overall sentencing rate for white defendants
白人被告の死刑宣告率が 総計するとわずかに高かったのは
was due to the fact that cases with white victims
被害者が白人の場合
were more likely to elicit a death sentence
被害者が黒人の場合よりも
than cases where the victim was black,
死刑判決が下されやすく
and most murders occurred between people of the same race.
大半の殺人は同じ人種間で 起きていたからです
So how do we avoid falling for the paradox?
ではこのパラドックスに陥るのを どうすれば避けられるでしょう?
Unfortunately, there's no one-size-fits-all answer.
あいにく万能の答えはありません
Data can be grouped and divided in any number of ways,
データはどのようにも グループ化 または分割できるうえ
and overall numbers may sometimes give a more accurate picture
誤解を招く あるいは恣意的な形で カテゴリ化されたデータより
than data divided into misleading or arbitrary categories.
総計の方が正確である場合もあります
All we can do is carefully study the actual situations the statistics describe
私たちにできることは その統計が示す現実の状況を慎重に調べ
and consider whether lurking variables may be present.
潜伏変数が存在する可能性を 検討することです
Otherwise, we leave ourselves vulnerable to those who would use data
そうでないとデータで他人を操って
to manipulate others and promote their own agendas.
自分の方針を通そうとする人たちに対し 私たちは無防備になってしまいます