字幕表 動画を再生する
Transcriber: Leslie Gauthier Reviewer: Joanna Pietrulewicz
書き手: Leslie Gauthierレビュアー: Leslie Gauthier レビュアー。ジョアンナ・ピエトルウィッツ
AI could add 16 trillion dollars to the global economy
AIは世界経済に16兆ドルを加える可能性がある
in the next 10 years.
10年後には
This economy is not going to be built by billions of people
この経済は数十億人では成り立たない
or millions of factories,
または数百万の工場。
but by computers and algorithms.
しかし、コンピュータやアルゴリズムによって
We have already seen amazing benefits of AI
AIの驚くべき効果をすでに見てきた
in simplifying tasks,
タスクを簡素化することで
bringing efficiencies
効率化
and improving our lives.
と生活を改善していきます。
However, when it comes to fair and equitable policy decision-making,
しかし、公正で公平な政策決定となると
AI has not lived up to its promise.
AIはその期待に応えていない。
AI is becoming a gatekeeper to the economy,
AIが経済の門番になりつつある。
deciding who gets a job
しょくにんを決める
and who gets an access to a loan.
と誰がローンへのアクセスを得る。
AI is only reinforcing and accelerating our bias
AIはバイアスを強化して加速させるだけ
at speed and scale
速さとスケールで
with societal implications.
社会的な意味合いを持つ。
So, is AI failing us?
では、AIは私たちを失望させているのでしょうか?
Are we designing these algorithms to deliver biased and wrong decisions?
これらのアルゴリズムを設計しているのは、偏った間違った判断をするためなのでしょうか?
As a data scientist, I'm here to tell you,
データサイエンティストとしてお伝えしたいことがあります。
it's not the algorithm,
それはアルゴリズムではありません。
but the biased data
しかし、偏ったデータ
that's responsible for these decisions.
これらの判断に責任がある
To make AI possible for humanity and society,
人類や社会のためにAIを可能にするために
we need an urgent reset.
緊急のリセットが必要だ
Instead of algorithms,
アルゴリズムの代わりに
we need to focus on the data.
データに集中する必要がある
We're spending time and money to scale AI
AIのスケールアップに時間とお金をかけている
at the expense of designing and collecting high-quality and contextual data.
高品質で文脈に沿ったデータを設計・収集することを犠牲にして
We need to stop the data, or the biased data that we already have,
すでにあるデータや偏ったデータを止めないといけない。
and focus on three things:
と3つのことに集中してください。
data infrastructure,
データインフラストラクチャ。
data quality
データ品質
and data literacy.
とデータリテラシー。
In June of this year,
今年の6月に
we saw embarrassing bias in the Duke University AI model
デューク大学のAIモデルに恥ずかしいバイアスを見た
called PULSE,
と呼ばれています。
which enhanced a blurry image
ぼやけた画像を強調した
into a recognizable photograph of a person.
を認識できる写真に変換します。
This algorithm incorrectly enhanced a nonwhite image into a Caucasian image.
このアルゴリズムは、白人ではない画像を誤って白人の画像に強化してしまいました。
African-American images were underrepresented in the training set,
アフリカ系アメリカ人の画像は、トレーニングセットの中では過小評価されていました。
leading to wrong decisions and predictions.
間違った判断や予測につながる
Probably this is not the first time
おそらく、これは初めてではないでしょう。
you have seen an AI misidentify a Black person's image.
AIが黒人の画像を誤認しているのを見たことがありますね。
Despite an improved AI methodology,
AIの手法が改善されたにもかかわらず
the underrepresentation of racial and ethnic populations
人種・民族の不平等
still left us with biased results.
それでも偏った結果が残っています。
This research is academic,
この研究は学術的なものです。
however, not all data biases are academic.
しかし、すべてのデータバイアスが学術的なものであるわけではありません。
Biases have real consequences.
偏見は現実の結果をもたらします。
Take the 2020 US Census.
2020年のアメリカ国勢調査を受けて
The census is the foundation
国勢調査が基本
for many social and economic policy decisions,
多くの社会的・経済的な政策決定のために
therefore the census is required to count 100 percent of the population
然るが故に国勢調査は人口の100%を数えなければならない
in the United States.
アメリカで
However, with the pandemic
しかし、パンデミックで
and the politics of the citizenship question,
と市民権問題の政治を
undercounting of minorities is a real possibility.
マイノリティの過少申告は現実のものとなっています。
I expect significant undercounting of minority groups
少数派の大幅な過少申告を期待しています。
who are hard to locate, contact, persuade and interview for the census.
国勢調査のために場所を特定したり、連絡を取ったり、説得したり、面接したりするのが難しい人。
Undercounting will introduce bias
アンダーカウントはバイアスを導入する
and erode the quality of our data infrastructure.
とデータインフラの品質を侵食してしまいます。
Let's look at undercounts in the 2010 census.
2010年の国勢調査での過少申告を見てみましょう。
16 million people were omitted in the final counts.
最終的なカウントでは1600万人が省略されています。
This is as large as the total population
これは総人口と同じくらいの大きさ
of Arizona, Arkansas, Oklahoma and Iowa put together for that year.
アリゾナ州、アーカンソー州、オクラホマ州、アイオワ州はその年のためにまとめた。
We have also seen about a million kids under the age of five undercounted
また、5歳未満の子供が100万人未満というのも見たことがあります。
in the 2010 Census.
2010年の国勢調査では
Now, undercounting of minorities
今、マイノリティの過少申告
is common in other national censuses,
は他の国のセンサスにも共通しています。
as minorities can be harder to reach,
マイノリティには手が届きにくいので
they're mistrustful towards the government
政府不信
or they live in an area under political unrest.
または政情不安の地域に住んでいる。
For example,
例えば
the Australian Census in 2016
2016年オーストラリア国勢調査
undercounted Aboriginals and Torres Strait populations
アボリジニとトレス海峡の人口減少
by about 17.5 percent.
約17.
We estimate undercounting in 2020
2020年には過少計上を見積もっています。
to be much higher than 2010,
は2010年よりもはるかに高くなる。
and the implications of this bias can be massive.
と、このバイアスの意味合いは大規模なものになる可能性があります。
Let's look at the implications of the census data.
国勢調査データの意味合いを見てみましょう。
Census is the most trusted, open and publicly available rich data
国勢調査は、最も信頼性が高く、オープンで一般に公開されているリッチデータです。
on population composition and characteristics.
人口構成と特徴について
While businesses have proprietary information
企業が独自の情報を持っているのに対し
on consumers,
消費者に
the Census Bureau reports definitive, public counts
国勢調査局が発表した確定的な公示数
on age, gender, ethnicity,
年齢、性別、民族性
race, employment, family status,
人種、雇用、家族構成
as well as geographic distribution,
地理的な分布も含めて。
which are the foundation of the population data infrastructure.
人口データインフラストラクチャの基盤となる
When minorities are undercounted,
マイノリティが過小評価されると
AI models supporting public transportation,
公共交通機関を支えるAIモデル。
housing, health care,
住宅、医療。
insurance
保険
are likely to overlook the communities that require these services the most.
は、これらのサービスを最も必要とするコミュニティを見落としがちです。
First step to improving results
成果を上げるための第一歩
is to make that database representative
は、そのデータベースを代表的なものにすることです。
of age, gender, ethnicity and race
年齢、性別、民族、人種の
per census data.
国勢調査のデータごとに
Since census is so important,
国勢調査が重要なので
we have to make every effort to count 100 percent.
100%を数える努力をしなければなりません。
Investing in this data quality and accuracy
このデータの品質と正確性に投資
is essential to making AI possible,
は、AIを可能にするために必要不可欠なものです。
not for only few and privileged,
少数の特権階級のためのものではありません。
but for everyone in the society.
が、社会のすべての人のために。
Most AI systems use the data that's already available
ほとんどのAIシステムでは、すでにあるデータを利用している
or collected for some other purposes
または他の目的のために収集された
because it's convenient and cheap.
便利で安いから。
Yet data quality is a discipline that requires commitment --
しかし、データの品質は、コミットメントを必要とする規律です。
real commitment.
本当の意味でのコミットメント。
This attention to the definition,
この定義への注意。
data collection and measurement of the bias,
データの収集とバイアスの測定。
is not only underappreciated --
は過小評価されているだけでなく
in the world of speed, scale and convenience,
スピード、スケール、利便性の世界では
it's often ignored.
無視されることが多いです。
As part of Nielsen data science team,
ニールセンのデータサイエンスチームの一員として。
I went to field visits to collect data,
データ収集のために現地視察に行ってきました。
visiting retail stores outside Shanghai and Bangalore.
上海とバンガロール以外の小売店を訪問。
The goal of that visit was to measure retail sales from those stores.
その訪問の目的は、それらの店舗の小売売上を測定することでした。
We drove miles outside the city,
街の外まで車で移動した
found these small stores --
これらの小さな店を見つけた
informal, hard to reach.
インフォーマルで手が届きにくい
And you may be wondering --
疑問に思うかもしれませんが...
why are we interested in these specific stores?
なぜ、これらの特定の店舗に興味を持つのか?
We could have selected a store in the city
市内の店舗を選ぶことができました
where the electronic data could be easily integrated into a data pipeline --
電子データをデータパイプラインに簡単に統合できるところ --。
cheap, convenient and easy.
安くて便利で簡単。
Why are we so obsessed with the quality
なぜ品質にこだわるのか
and accuracy of the data from these stores?
と、これらの店舗のデータの正確性?
The answer is simple:
答えは簡単です。
because the data from these rural stores matter.
なぜなら、これらの地方の店舗のデータが重要だからです。
According to the International Labour Organization,
国際労働機関によると
40 percent Chinese
しちゅうごく
and 65 percent of Indians live in rural areas.
と、インド人の65%が農村部に住んでいます。
Imagine the bias in decision
意思決定の偏りを想像する
when 65 percent of consumption in India is excluded in models,
インドの消費の65%をモデルで除外すると
meaning the decision will favor the urban over the rural.
地方よりも都市部が有利になることを意味しています。
Without this rural-urban context
この地方と都市の文脈がなければ
and signals on livelihood, lifestyle, economy and values,
生活・生活・経済・価値観に関するシグナルを発信しています。
retail brands will make wrong investments on pricing, advertising and marketing.
小売ブランドは、価格設定、広告、マーケティングに間違った投資をしてしまいます。
Or the urban bias will lead to wrong rural policy decisions
あるいは都市部の偏りが地方の誤った政策決定につながる
with regards to health and other investments.
健康やその他の投資について
Wrong decisions are not the problem with the AI algorithm.
間違った判断はAIアルゴリズムの問題ではありません。
It's a problem of the data
データの問題です
that excludes areas intended to be measured in the first place.
そもそも測定されることを意図した領域を除外したもの。
The data in the context is a priority,
コンテキスト内のデータが優先されます。
not the algorithms.
アルゴリズムではなく
Let's look at another example.
別の例を見てみましょう。
I visited these remote, trailer park homes in Oregon state
オレゴン州にあるトレーラーパークの家に行ってきました。
and New York City apartments
とニューヨークのアパート
to invite these homes to participate in Nielsen panels.
これらの家庭にニールセンのパネルへの参加を呼びかけます。
Panels are statistically representative samples of homes
パネルは統計的に代表的な住宅のサンプル
that we invite to participate in the measurement
測定に参加していただく
over a period of time.
期間をかけて
Our mission to include everybody in the measurement
私たちの使命は、すべての人を測定に参加させることです。
led us to collect data from these Hispanic and African homes
これらのヒスパニック系とアフリカ系の家庭からデータを収集することになりました。
who use over-the-air TV reception to an antenna.
アンテナにテレビの電波受信を利用している方。
Per Nielsen data,
ニールセンのデータによる。
these homes constitute 15 percent of US households,
これらの住宅は米国の世帯の15%を占めています。
which is about 45 million people.
その数は約4500万人。
Commitment and focus on quality means we made every effort
品質へのこだわりと集中は、私たちが努力したことを意味します。
to collect information
情報を収集するために
from these 15 percent, hard-to-reach groups.
この15%の難関グループから
Why does it matter?
なぜそれが重要なのか?
This is a sizeable group
これは大規模なグループ
that's very, very important to the marketers, brands,
それは、マーケッターやブランドにとって、とても重要なことです。
as well as the media companies.
メディア各社だけでなく
Without the data,
データがなければ
the marketers and brands and their models
マーケターとブランドとそのモデル
would not be able to reach these folks,
これらの人々には届かないだろう。
as well as show ads to these very, very important minority