Placeholder Image

字幕表 動画を再生する

AI 自動生成字幕
  • Transcriber: Leslie Gauthier Reviewer: Joanna Pietrulewicz

    書き手: Leslie Gauthierレビュアー: Leslie Gauthier レビュアー。ジョアンナ・ピエトルウィッツ

  • AI could add 16 trillion dollars to the global economy

    AIは世界経済に16兆ドルを加える可能性がある

  • in the next 10 years.

    10年後には

  • This economy is not going to be built by billions of people

    この経済は数十億人では成り立たない

  • or millions of factories,

    または数百万の工場。

  • but by computers and algorithms.

    しかし、コンピュータやアルゴリズムによって

  • We have already seen amazing benefits of AI

    AIの驚くべき効果をすでに見てきた

  • in simplifying tasks,

    タスクを簡素化することで

  • bringing efficiencies

    効率化

  • and improving our lives.

    と生活を改善していきます。

  • However, when it comes to fair and equitable policy decision-making,

    しかし、公正で公平な政策決定となると

  • AI has not lived up to its promise.

    AIはその期待に応えていない。

  • AI is becoming a gatekeeper to the economy,

    AIが経済の門番になりつつある。

  • deciding who gets a job

    しょくにんを決める

  • and who gets an access to a loan.

    と誰がローンへのアクセスを得る。

  • AI is only reinforcing and accelerating our bias

    AIはバイアスを強化して加速させるだけ

  • at speed and scale

    速さとスケールで

  • with societal implications.

    社会的な意味合いを持つ。

  • So, is AI failing us?

    では、AIは私たちを失望させているのでしょうか?

  • Are we designing these algorithms to deliver biased and wrong decisions?

    これらのアルゴリズムを設計しているのは、偏った間違った判断をするためなのでしょうか?

  • As a data scientist, I'm here to tell you,

    データサイエンティストとしてお伝えしたいことがあります。

  • it's not the algorithm,

    それはアルゴリズムではありません。

  • but the biased data

    しかし、偏ったデータ

  • that's responsible for these decisions.

    これらの判断に責任がある

  • To make AI possible for humanity and society,

    人類や社会のためにAIを可能にするために

  • we need an urgent reset.

    緊急のリセットが必要だ

  • Instead of algorithms,

    アルゴリズムの代わりに

  • we need to focus on the data.

    データに集中する必要がある

  • We're spending time and money to scale AI

    AIのスケールアップに時間とお金をかけている

  • at the expense of designing and collecting high-quality and contextual data.

    高品質で文脈に沿ったデータを設計・収集することを犠牲にして

  • We need to stop the data, or the biased data that we already have,

    すでにあるデータや偏ったデータを止めないといけない。

  • and focus on three things:

    と3つのことに集中してください。

  • data infrastructure,

    データインフラストラクチャ。

  • data quality

    データ品質

  • and data literacy.

    とデータリテラシー。

  • In June of this year,

    今年の6月に

  • we saw embarrassing bias in the Duke University AI model

    デューク大学のAIモデルに恥ずかしいバイアスを見た

  • called PULSE,

    と呼ばれています。

  • which enhanced a blurry image

    ぼやけた画像を強調した

  • into a recognizable photograph of a person.

    を認識できる写真に変換します。

  • This algorithm incorrectly enhanced a nonwhite image into a Caucasian image.

    このアルゴリズムは、白人ではない画像を誤って白人の画像に強化してしまいました。

  • African-American images were underrepresented in the training set,

    アフリカ系アメリカ人の画像は、トレーニングセットの中では過小評価されていました。

  • leading to wrong decisions and predictions.

    間違った判断や予測につながる

  • Probably this is not the first time

    おそらく、これは初めてではないでしょう。

  • you have seen an AI misidentify a Black person's image.

    AIが黒人の画像を誤認しているのを見たことがありますね。

  • Despite an improved AI methodology,

    AIの手法が改善されたにもかかわらず

  • the underrepresentation of racial and ethnic populations

    人種・民族の不平等

  • still left us with biased results.

    それでも偏った結果が残っています。

  • This research is academic,

    この研究は学術的なものです。

  • however, not all data biases are academic.

    しかし、すべてのデータバイアスが学術的なものであるわけではありません。

  • Biases have real consequences.

    偏見は現実の結果をもたらします。

  • Take the 2020 US Census.

    2020年のアメリカ国勢調査を受けて

  • The census is the foundation

    国勢調査が基本

  • for many social and economic policy decisions,

    多くの社会的・経済的な政策決定のために

  • therefore the census is required to count 100 percent of the population

    然るが故に国勢調査は人口の100%を数えなければならない

  • in the United States.

    アメリカで

  • However, with the pandemic

    しかし、パンデミックで

  • and the politics of the citizenship question,

    と市民権問題の政治を

  • undercounting of minorities is a real possibility.

    マイノリティの過少申告は現実のものとなっています。

  • I expect significant undercounting of minority groups

    少数派の大幅な過少申告を期待しています。

  • who are hard to locate, contact, persuade and interview for the census.

    国勢調査のために場所を特定したり、連絡を取ったり、説得したり、面接したりするのが難しい人。

  • Undercounting will introduce bias

    アンダーカウントはバイアスを導入する

  • and erode the quality of our data infrastructure.

    とデータインフラの品質を侵食してしまいます。

  • Let's look at undercounts in the 2010 census.

    2010年の国勢調査での過少申告を見てみましょう。

  • 16 million people were omitted in the final counts.

    最終的なカウントでは1600万人が省略されています。

  • This is as large as the total population

    これは総人口と同じくらいの大きさ

  • of Arizona, Arkansas, Oklahoma and Iowa put together for that year.

    アリゾナ州、アーカンソー州、オクラホマ州、アイオワ州はその年のためにまとめた。

  • We have also seen about a million kids under the age of five undercounted

    また、5歳未満の子供が100万人未満というのも見たことがあります。

  • in the 2010 Census.

    2010年の国勢調査では

  • Now, undercounting of minorities

    今、マイノリティの過少申告

  • is common in other national censuses,

    は他の国のセンサスにも共通しています。

  • as minorities can be harder to reach,

    マイノリティには手が届きにくいので

  • they're mistrustful towards the government

    政府不信

  • or they live in an area under political unrest.

    または政情不安の地域に住んでいる。

  • For example,

    例えば

  • the Australian Census in 2016

    2016年オーストラリア国勢調査

  • undercounted Aboriginals and Torres Strait populations

    アボリジニとトレス海峡の人口減少

  • by about 17.5 percent.

    約17.

  • We estimate undercounting in 2020

    2020年には過少計上を見積もっています。

  • to be much higher than 2010,

    は2010年よりもはるかに高くなる。

  • and the implications of this bias can be massive.

    と、このバイアスの意味合いは大規模なものになる可能性があります。

  • Let's look at the implications of the census data.

    国勢調査データの意味合いを見てみましょう。

  • Census is the most trusted, open and publicly available rich data

    国勢調査は、最も信頼性が高く、オープンで一般に公開されているリッチデータです。

  • on population composition and characteristics.

    人口構成と特徴について

  • While businesses have proprietary information

    企業が独自の情報を持っているのに対し

  • on consumers,

    消費者に

  • the Census Bureau reports definitive, public counts

    国勢調査局が発表した確定的な公示数

  • on age, gender, ethnicity,

    年齢、性別、民族性

  • race, employment, family status,

    人種、雇用、家族構成

  • as well as geographic distribution,

    地理的な分布も含めて。

  • which are the foundation of the population data infrastructure.

    人口データインフラストラクチャの基盤となる

  • When minorities are undercounted,

    マイノリティが過小評価されると

  • AI models supporting public transportation,

    公共交通機関を支えるAIモデル。

  • housing, health care,

    住宅、医療。

  • insurance

    保険

  • are likely to overlook the communities that require these services the most.

    は、これらのサービスを最も必要とするコミュニティを見落としがちです。

  • First step to improving results

    成果を上げるための第一歩

  • is to make that database representative

    は、そのデータベースを代表的なものにすることです。

  • of age, gender, ethnicity and race

    年齢、性別、民族、人種の

  • per census data.

    国勢調査のデータごとに

  • Since census is so important,

    国勢調査が重要なので

  • we have to make every effort to count 100 percent.

    100%を数える努力をしなければなりません。

  • Investing in this data quality and accuracy

    このデータの品質と正確性に投資

  • is essential to making AI possible,

    は、AIを可能にするために必要不可欠なものです。

  • not for only few and privileged,

    少数の特権階級のためのものではありません。

  • but for everyone in the society.

    が、社会のすべての人のために。

  • Most AI systems use the data that's already available

    ほとんどのAIシステムでは、すでにあるデータを利用している

  • or collected for some other purposes

    または他の目的のために収集された

  • because it's convenient and cheap.

    便利で安いから。

  • Yet data quality is a discipline that requires commitment --

    しかし、データの品質は、コミットメントを必要とする規律です。

  • real commitment.

    本当の意味でのコミットメント。

  • This attention to the definition,

    この定義への注意。

  • data collection and measurement of the bias,

    データの収集とバイアスの測定。

  • is not only underappreciated --

    は過小評価されているだけでなく

  • in the world of speed, scale and convenience,

    スピード、スケール、利便性の世界では

  • it's often ignored.

    無視されることが多いです。

  • As part of Nielsen data science team,

    ニールセンのデータサイエンスチームの一員として。

  • I went to field visits to collect data,

    データ収集のために現地視察に行ってきました。

  • visiting retail stores outside Shanghai and Bangalore.

    上海とバンガロール以外の小売店を訪問。

  • The goal of that visit was to measure retail sales from those stores.

    その訪問の目的は、それらの店舗の小売売上を測定することでした。

  • We drove miles outside the city,

    街の外まで車で移動した

  • found these small stores --

    これらの小さな店を見つけた

  • informal, hard to reach.

    インフォーマルで手が届きにくい

  • And you may be wondering --

    疑問に思うかもしれませんが...

  • why are we interested in these specific stores?

    なぜ、これらの特定の店舗に興味を持つのか?

  • We could have selected a store in the city

    市内の店舗を選ぶことができました

  • where the electronic data could be easily integrated into a data pipeline --

    電子データをデータパイプラインに簡単に統合できるところ --。

  • cheap, convenient and easy.

    安くて便利で簡単。

  • Why are we so obsessed with the quality

    なぜ品質にこだわるのか

  • and accuracy of the data from these stores?

    と、これらの店舗のデータの正確性?

  • The answer is simple:

    答えは簡単です。

  • because the data from these rural stores matter.

    なぜなら、これらの地方の店舗のデータが重要だからです。

  • According to the International Labour Organization,

    国際労働機関によると

  • 40 percent Chinese

    しちゅうごく

  • and 65 percent of Indians live in rural areas.

    と、インド人の65%が農村部に住んでいます。

  • Imagine the bias in decision

    意思決定の偏りを想像する

  • when 65 percent of consumption in India is excluded in models,

    インドの消費の65%をモデルで除外すると

  • meaning the decision will favor the urban over the rural.

    地方よりも都市部が有利になることを意味しています。

  • Without this rural-urban context

    この地方と都市の文脈がなければ

  • and signals on livelihood, lifestyle, economy and values,

    生活・生活・経済・価値観に関するシグナルを発信しています。

  • retail brands will make wrong investments on pricing, advertising and marketing.

    小売ブランドは、価格設定、広告、マーケティングに間違った投資をしてしまいます。

  • Or the urban bias will lead to wrong rural policy decisions

    あるいは都市部の偏りが地方の誤った政策決定につながる

  • with regards to health and other investments.

    健康やその他の投資について

  • Wrong decisions are not the problem with the AI algorithm.

    間違った判断はAIアルゴリズムの問題ではありません。

  • It's a problem of the data

    データの問題です

  • that excludes areas intended to be measured in the first place.

    そもそも測定されることを意図した領域を除外したもの。

  • The data in the context is a priority,

    コンテキスト内のデータが優先されます。

  • not the algorithms.

    アルゴリズムではなく

  • Let's look at another example.

    別の例を見てみましょう。

  • I visited these remote, trailer park homes in Oregon state

    オレゴン州にあるトレーラーパークの家に行ってきました。

  • and New York City apartments

    とニューヨークのアパート

  • to invite these homes to participate in Nielsen panels.

    これらの家庭にニールセンのパネルへの参加を呼びかけます。

  • Panels are statistically representative samples of homes

    パネルは統計的に代表的な住宅のサンプル

  • that we invite to participate in the measurement

    測定に参加していただく

  • over a period of time.

    期間をかけて

  • Our mission to include everybody in the measurement

    私たちの使命は、すべての人を測定に参加させることです。

  • led us to collect data from these Hispanic and African homes

    これらのヒスパニック系とアフリカ系の家庭からデータを収集することになりました。

  • who use over-the-air TV reception to an antenna.

    アンテナにテレビの電波受信を利用している方。

  • Per Nielsen data,

    ニールセンのデータによる。

  • these homes constitute 15 percent of US households,

    これらの住宅は米国の世帯の15%を占めています。

  • which is about 45 million people.

    その数は約4500万人。

  • Commitment and focus on quality means we made every effort

    品質へのこだわりと集中は、私たちが努力したことを意味します。

  • to collect information

    情報を収集するために

  • from these 15 percent, hard-to-reach groups.

    この15%の難関グループから

  • Why does it matter?

    なぜそれが重要なのか?

  • This is a sizeable group

    これは大規模なグループ

  • that's very, very important to the marketers, brands,

    それは、マーケッターやブランドにとって、とても重要なことです。

  • as well as the media companies.

    メディア各社だけでなく

  • Without the data,

    データがなければ

  • the marketers and brands and their models

    マーケターとブランドとそのモデル

  • would not be able to reach these folks,

    これらの人々には届かないだろう。

  • as well as show ads to these very, very important minority