字幕表 動画を再生する
In 2011, a group of researchers conducted a scientific study to find an impossible result: that listening to certain songs can make you younger.
2011年、ある研究グループが科学的な調査を行ったところ、「ある曲を聴くと若返る」という、ありえない結果が出ました。
Their study involved real people, truthfully reported data, and commonplace statistical analyses.
彼らの研究は、実在の人物、正直に報告されたデータ、そして当たり前の統計分析が行われています。
So, how did they do it?
では、どのようにしたのでしょうか。
The answer lies in a statistical method scientists often use to try to figure out whether their results mean something or if they're random noise.
その答えは、科学者がよく使う統計的手法で、結果が何か意味を持つのか、それともランダムなノイズなのかを見極めることにあります。
In fact, the whole point of the music study was to point out ways this method can be misused.
実は、この音楽研究のポイントは、この手法が誤用される可能性を指摘することにありました。
A famous thought experiment explains the method.
有名な思考実験がその方法を説明しています。8つの紅茶のカップがあり、ミルクを先に入れたものが4つ、紅茶を先に入れたものが4つあります。参加者は、味覚によってどれがどれだか判断しなければなりません。
There are eight cups of tea, four with the milk added first and four with the tea added first.
A participant must determine which are which according to taste.
There are 70 different ways the cups can be sorted into two groups of four and only one is correct.
カップは70通りあり、4つのグループに分けられますが、正しいのは1つだけです。さて、彼女はその違いを味わうことができるのでしょうか?それが私たちの研究課題です。
So, can she taste the difference?
That's our research question.
To analyze her choices, we define what's called a null hypothesis, that she can't distinguish the teas.
彼女の選択を分析するために、「彼女はお茶を見分けることができない」という帰無仮説を定義します。
If she can't distinguish the teas, she'll still get the right answer 1 in 70 times by chance.
もし彼女がお茶を区別できなくても、70回に1回は偶然に正しい答えが出るでしょう。70回に1回というのは、およそ0.014です。この数値はp値と呼ばれます。
1 in 70 is roughly .014⏤that single number is called a p-value.
In many fields, a p-value of .05 or below is considered statistically significant, meaning there's enough evidence to reject the null hypothesis.
多くの分野では、p値が0.05以下であれば統計的に有意、つまり帰無仮説を棄却するのに十分な証拠があるとみなされます。
Based on a p-value of .014, they'd rule out the null hypothesis that she can't distinguish the teas.
p値が0.014であることから、「お茶を見分けることができない」という帰無仮説を棄却することになります。
Though p-values are commonly used by both researchers and journals to evaluate scientific results, they're really confusing, even for many scientists.
p値は、研究者や学術誌が科学的な結果を評価するために一般的に使用されていますが、多くの科学者にとってさえ、実に分かりにくい値なのです。
That's partly because all a p-value actually tells us is the probability of getting a certain result, assuming the null hypothesis is true.
それは、p値が実際に教えてくれるのは、帰無仮説が正しいと仮定したときに、ある結果が得られる確率だけだからです。
So if she correctly sorts the teas, the p-value is the probability of her doing so assuming she can't tell the difference.
つまり、彼女がお茶を正しく分類した場合、彼女が違いを見分けられないと仮定して、そうなる確率がp値です。
But the reverse isn't true: the p-value doesn't tell us the probability that she can taste the difference, which is what we're trying to find out.
しかし、その逆は真ではありません。p値では、彼女がその違いを味わうことができる確率を知ることはできないのです。
So if a p-value doesn't answer the research question, why does the scientific community use it?
では、p値が研究課題に答えないのであれば、なぜ科学界はそれを使うのでしょうか?
Well, because even though a p-value doesn't directly state the probability that the results are due to random chance, it usually gives a pretty reliable indication.
なぜなら、p値は、結果が偶然によるものである確率を直接示すものではありませんが、通常はかなり信頼性の高い指標を示すからです。
At least, it does when used correctly. And that's where many researchers, and even whole fields, have run into trouble.
少なくとも、正しく使えばそうなります。しかし、多くの研究者、さらには分野全体が、ここで問題に直面しています。
Most real studies are more complex than the tea experiment. Scientists can test their research question in multiple ways, and some of these tests might produce a statistically significant result, while others don't.
実際の研究のほとんどは、お茶の実験よりも複雑です。科学者は研究課題を複数の方法で検証することができ、これらのテストの中には統計的に有意な結果をもたらすものもあれば、そうでないものもあります。
It might seem like a good idea to test every possibility. But it's not, because with each additional test, the chance of a false positive increases.
あらゆる可能性をテストするのは良い考えだと思われるかもしれません。しかし、そうではありません。検査を追加するたびに、偽陽性の可能性が高くなるからです。
Searching for a low p-value, and then presenting only that analysis, is often called p-hacking.
低い p値を探して、その分析値だけを提示することを、しばしば p-hacking と呼びます。
It's like throwing darts until you hit a bullseye and then saying you only threw the dart that hit the bull's eye. This is exactly what the music researchers did.
ダーツを投げて牛の目に当たるまで投げて、その牛の目に当たったダーツだけを投げたと言うようなものです。これこそ、音楽研究者がやったことです。
They played three groups of participants each a different song and collected lots of information about them.
3つのグループに分かれた参加者にそれぞれ違う曲を聞かせ、たくさんの情報を集めました。
The analysis they published included only two out of the three groups.
彼らが発表した分析結果は、3つのグループのうち2つしか含まれていません。
Of all the information they collected, their analysis only used participants' fathers' age— to "control for variation in baseline age across participants".
その際、「参加者間のベースライン年齢のばらつきをコントロールする」ために、父親の年齢のみを使用したのです。
They also paused their experiment after every ten participants, and continued if the p-value was above .05, but stopped when it dipped below .05.
また、10人参加するごとに実験を一時停止し、p値が0.05を上回れば継続し、0.05を下回れば停止するようにしたそうです。
They found that participants who heard one song were 1.5 years younger than those who heard the other song, with a p-value of .04.
その結果、一方の曲を聴いた参加者は、もう一方の曲を聴いた参加者よりも1.5歳若く、そのp値は0.04であることがわかりました。
Usually it's much tougher to spot p-hacking, because we don't know the results are impossible: the whole point of doing experiments is to learn something new.
通常、P-hackingを見破るのはもっと難しいです。なぜなら、その結果があり得ないものであることを知らないからでsy。実験をすることの意義は、新しいことを学ぶことにあります。
Fortunately, there's a simple way to make p-values more reliable: pre-registering a detailed plan for the experiment and analysis beforehand that others can check, so researchers can't keep trying different analyses until they find a significant result.
幸い、p値の信頼性を高める簡単な方法があります。実験と解析の詳細な計画をあらかじめ登録し、他の人がチェックできるようにしておけば、研究者は有意な結果を見つけるまでさまざまな解析を試し続けることができなくなるのです。
And, in the true spirit of scientific inquiry, there's even a new field that's basically science doing science on itself: studying scientific practices in order to improve them.
また、科学的探求の精神に基づき、科学的実践を研究し、それを改善するという、基本的に科学が自分自身を科学する新しい分野さえあります。
This new field has emerged in response to a crisis in science, and p-hacking is just one part of that crisis. So, what's going on? And can we fix it? Learn more with this video.
この新しい分野は、科学の危機に対応して登場したもので、P-Hacking はその危機の一端に過ぎません。では、何が起きているのでしょうか?そして、私たちはそれを解決することができるのでしょうか?このビデオで詳しくご紹介します。