Placeholder Image

字幕表 動画を再生する

AI 自動生成字幕
  • Now, I haven't met most of you, or really, any of you, but I feel a really good vibe in the room.

    さて、私は皆さんのほとんど、いや、本当にどなたにもお会いしたことはありませんが、会場にはとてもいい雰囲気が漂っています。

  • And so I think I'd like to treat you all to a meal.

    それで、皆さんに食事をご馳走したいと思うんだ。

  • What do you think?

    どう思う?

  • Yes? Great. So many new friends.

    はい?素晴らしい。新しい友達がたくさんできた。

  • So we're going to go to this cafe.

    だから、このカフェに行くんだ。

  • They serve sandwiches.

    サンドイッチもある。

  • And the sandwiches are really delicious, but I have to tell you that sometimes they make people really, really sick.

    サンドイッチは本当においしいんだけど、時々、本当に、本当に気分が悪くなる人がいるんだ。

  • And we don't know why.

    その理由はわからない。

  • And I'm not going to tell you why.

    その理由を話すつもりはない。

  • But I'm going to tell you why.

    でも、その理由を教えてあげよう。

  • And I'm going to tell you why.

    その理由をお話ししましょう。

  • And we don't know why, because the cafe won't tell us how to make a sandwich, they won't tell us about the ingredients, and then the authorities have no way to fix the problem.

    カフェはサンドイッチの作り方を教えてくれないし、材料についても教えてくれない。

  • But the offer still stands.

    しかし、オファーはまだ有効だ。

  • So who wants to get a sandwich?

    サンドイッチを食べたい人は?

  • Some brave souls we can talk after.

    何人かの勇敢な人たちとは、その後で話すことができる。

  • But for the rest of you, I understand.

    しかし、それ以外の人たちについては、私は理解している。

  • You don't have enough information to make good choices about your safety or even fix the issue.

    安全について適切な選択をしたり、問題を解決したりするのに十分な情報がないのだ。

  • Now, before I further the anxiety here,

    さて、ここでさらに不安を煽る前に、

  • I'm not actually trying to make you sick, but this is an analogy to how we're currently making algorithmic systems, also known as artificial intelligence or AI.

    実際に病気にさせようとしているわけではないが、これは現在のアルゴリズム・システム(人工知能やAIとしても知られている)の作り方を例えている。

  • Now, for those who haven't thought about the relationship between AI and sandwiches, don't worry about it, I'm here for you.

    さて、AIとサンドイッチの関係について考えたことがない人たち、心配しないでください。

  • I'm going to explain.

    説明しよう。

  • You see, AI systems, they provide benefit to society.

    AIシステムは社会に利益をもたらす。

  • They feed us.

    彼らは私たちを養ってくれる。

  • But they're also inconsistently making us sick.

    しかし、私たちを病気にさせるという矛盾も抱えている。

  • And we don't have access to the ingredients that go into the AI and so we can't actually address the issues.

    また、私たちはAIに使用される原材料にアクセスすることができないので、実際に問題に対処することはできない。

  • We also can't stop eating AI like we can just stop eating a shady sandwich, because it's everywhere.

    また、AIはどこにでもあるので、日陰のサンドイッチを食べるのをやめるように、AIを食べるのをやめることはできない。

  • We often don't even know that we're encountering a system that's algorithmically based.

    私たちはしばしば、アルゴリズムに基づくシステムに遭遇していることにさえ気づかない。

  • So today, I'm going to tell you about some of the AI trends that I see.

    そこで今日は、私が見ているAIのトレンドについてお話しします。

  • I'm going to draw on my experience building these systems over the last two decades to tell you about the tools that I and others have built to look into these AI ingredients.

    この20年間、このようなシステムを構築してきた私の経験をもとに、私や他の人々がこのようなAIの成分を調べるために構築したツールについてお話ししようと思う。

  • And finally, I'm going to leave you with three principles that I think will give us a healthier relationship to the companies that build artificial intelligence.

    そして最後に、人工知能を開発する企業との関係をより健全なものにする3つの原則を紹介しよう。

  • I'm going to start with the question, how did we get here?

    私たちはどうやってここまで来たのか?

  • AI is not new.

    AIは新しいものではない。

  • We have been living alongside AI for two decades.

    私たちは20年間、AIとともに生きてきた。

  • Every time that you apply for something online, you open a bank account, or you go through passport control, you're encountering an algorithmic system.

    オンラインで何かを申し込んだり、銀行口座を開設したり、パスポートコントロールを通過したりするたびに、アルゴリズム・システムに遭遇することになる。

  • We've also been living with the negative repercussions of AI for 20 years.

    私たちはまた、AIの負の影響と20年間共存してきた。

  • And this is how it makes us sick.

    こうして私たちは病気になる。

  • These systems get deployed on broad populations, and then certain subsets end up getting negatively, disparately impacted, usually on the basis of race or gender, other characteristics.

    このようなシステムは広範な集団に導入され、その結果、ある特定の集団が、通常は人種や性別、その他の特性に基づいて、否定的な、格差のある影響を受けることになる。

  • And we need to be able to understand the ingredients to these systems so that we can address the issues.

    そして、私たちが問題に対処できるように、これらのシステムの構成要素を理解できるようにする必要がある。

  • So what are the ingredients to an AI system?

    では、AIシステムに必要な要素とは何か?

  • Well, data fuels the AI.

    データはAIの燃料になる。

  • The AI is going to look like the data that you gave it.

    AIは、あなたが与えたデータのように見えるでしょう。

  • So for example, if I want to make a risk assessment system for diabetes, my training data set might be adults in a certain region.

    例えば、糖尿病のリスク評価システムを作りたい場合、トレーニングデータセットはある地域の成人かもしれない。

  • And so I'll build that system, it'll work really well for those adults in that region.

    だから、私はそのシステムを構築し、その地域の大人たちのために本当にうまく機能させる。

  • But it does not work for adults in other regions or maybe at all for children.

    しかし、他の地域の大人には通用しないし、子供にはまったく通用しないかもしれない。

  • So you can imagine that if we deploy this for all those populations, there are going to be a lot of people who are harmed.

    だから、もしこれをすべての人々に配備すれば、多くの人々が被害を受けることは想像できるだろう。

  • We need to be able to understand the quality of the data before we use it.

    データを使用する前に、その質を理解できるようにする必要がある。

  • But I'm sorry to tell you that we currently live in what I call the Wild West of data.

    しかし、残念なことに、私たちは現在、データのワイルドウエスト(西部開拓時代)と呼ばれる時代に生きている。

  • It's really hard to assess quality of data before you use it.

    使う前にデータの質を評価するのは本当に難しい。

  • There are no global standards for data quality assessment, and there are very few data regulations around how you can use data and what types of data you can use.

    データ品質評価に関するグローバル・スタンダードは存在せず、どのようにデータを使用し、どのような種類のデータを使用できるかに関するデータ規制はほとんどない。

  • This is kind of like in the food safety realm.

    これは食の安全の領域と同じようなものだ。

  • If we couldn't understand where the ingredients were sourced, we also had no idea whether they were safe for us to consume.

    原材料の調達先がわからなければ、私たちが摂取しても安全かどうかもわからない。

  • We also tend to stitch data together.

    また、私たちはデータをつなぎ合わせる傾向がある。

  • And every time we stitch this data together, which we might find on the internet, scrape, we might generate it, we could source it, we lose information about the quality of the data.

    インターネット上で見つけたり、スクレイピングしたり、生成したり、ソースから入手したりと、データをつなぎ合わせるたびに、データの質に関する情報が失われていく。

  • And the folks who are building the models are not the ones that found the data.

    モデルを作っているのは、データを見つけた人たちではない。

  • So there's further information that's lost.

    だから、さらに失われた情報がある。

  • Now, I've been asking myself a lot of questions about how can we understand the data quality before we use it?

    今、私は、どうすれば使う前にデータの質を理解できるのか、と自問自答している。

  • And this emerges from two decades of building these kinds of systems.

    そしてこれは、この種のシステムを20年にわたって構築してきたことから生まれたものだ。

  • Now, the way I was trained to build systems is similar to how people do it today.

    さて、私が訓練されたシステム構築の方法は、今日の人々の方法と似ている。

  • You build for the middle of the distribution.

    配給の真ん中を狙って作るんだ。

  • That's your normal user.

    それが普通のユーザーだ。

  • So for me, a lot of my training datasets would include information about people from the Western world who speak English, have certain normative characteristics.

    だから私の場合、トレーニングデータセットの多くには、英語を話し、ある規範的な特徴を持つ欧米諸国の人々の情報が含まれている。

  • And it took me an embarrassingly long amount of time to realize that I was not my own user.

    そして、自分が自分のユーザーではないことに気づくまで、恥ずかしいほど長い時間がかかった。

  • So I identify as non-binary, as mixed-race,

    だから私はノンバイナリーであり、混血であると自認している、

  • I wear a hearing aid.

    補聴器をつけている。

  • And I just wasn't represented in the datasets that I was using.

    私が使っていたデータセットには、そのような表現はなかった。

  • And so I was building systems that literally didn't work for me.

    そうして私は、文字通り自分にとって機能しないシステムを構築していた。

  • For example, I once built a system that repeatedly told me that I was a white,

    例えば、私はかつて、私が白人であることを繰り返し告げるシステムを構築したことがある、

  • Eastern European lady.

    東欧の女性。

  • This did a real number on my identity.

    これは私のアイデンティティに大きな打撃を与えた。

  • But perhaps even more worrying, this was a system to be deployed in health care, where your background can determine things like risk scores for diseases.

    しかし、おそらくもっと心配なのは、このシステムが医療に導入され、あなたの経歴によって病気のリスクスコアなどが決まることだ。

  • And so I started to wonder, can I build tools and work with others to do this so that I can look inside of a dataset before I use it?

    そこで私は、使う前にデータセットの内部を見ることができるようなツールを作ったり、他の人と協力したりできないかと考え始めた。

  • In 2018, I was part of a fellowship at Harvard at MIT, and I, with some colleagues, decided to try to address this problem.

    2018年、私はMITのハーバード大学のフェローシップに参加し、何人かの同僚とともにこの問題に取り組もうと決めた。

  • And so we launched the Data Nutrition Project, which is a research group and also a nonprofit that builds nutrition labels for datasets.

    これは研究グループであると同時に、データセットの栄養ラベルを作成する非営利団体でもある。

  • So similar to food nutrition labels, the idea here is that you can look inside of a dataset before you use it.

    つまり、食品の栄養表示と同じように、データセットを使う前にその内部を見ることができるということだ。

  • You can understand the ingredients, see whether it's healthy for the things that you want to do.

    原材料を理解し、自分のやりたいことに対して健康的かどうかを見ることができる。

  • Now, this is a cartoonified version of the label.

    さて、これは漫画化されたラベルである。

  • The top part tells you about the completion of the label itself.

    上部は、ラベル自体の完成度を示している。

  • And underneath that, you have information about the data.

    そして、その下にはデータに関する情報がある。

  • The description, the keywords, the tags.

    説明文、キーワード、タグ。

  • And importantly, on the right-hand side, how you should and should not use the data.

    そして重要なのは、右側にある、データをどのように使うべきか、使わないべきかということだ。

  • If you could scroll on this cartoon, you would see information about risks and mitigation strategies across a number of vectors.

    この漫画をスクロールすれば、さまざまなベクトルにわたるリスクと緩和策に関する情報を見ることができるだろう。

  • And we launched this with two audiences in mind.

    そして私たちは、2つのオーディエンスを念頭に置いてこれを立ち上げた。

  • The first audience are folks who are building AI, so they're choosing datasets.

    最初の読者はAIを構築している人々で、データセットを選んでいる。

  • We want to help them make a better choice.

    我々は、彼らがより良い選択をする手助けをしたい。

  • The second audience are folks who are building datasets.

    二番目の読者は、データセットを構築している人々だ。

  • And it turns out that when you tell someone they have to put a label on something, they think about the ingredients beforehand.

    そして、ラベルを貼らなければいけないと誰かに伝えると、彼らは事前に原材料について考えることがわかった。

  • The analogy here might be, if I want to make a sandwich and say that it's gluten-free,

    例えるなら、サンドイッチを作ってグルテンフリーだと言いたい場合だ、

  • I have to think about all the components as I make the sandwich.

    私はサンドイッチを作るとき、すべての構成要素を考えなければならない。

  • The bread and the ingredients, the sauces.

    パンと食材、ソース。

  • I can't just put it on a sandwich and put it in front of you and tell you it's gluten-free.

    サンドイッチに挟んで目の前に置いて、グルテンフリーだと言うことはできない。

  • Now, we're really proud of the work that we've done.

    今、私たちは自分たちが成し遂げた仕事を本当に誇りに思っている。

  • We launched this as a design and then a prototype, and ultimately a tool for others to make their own labels.

    私たちはこれをデザイン、そしてプロトタイプとして発表し、最終的には他の人たちが自分たちのラベルを作るためのツールにした。

  • And we've worked with experts at places like Microsoft Research, the United Nations, and professors globally to integrate the label and the methodology into their workflows and into their curricula.

    私たちは、マイクロソフト・リサーチや国連などの専門家、そして世界中の大学教授たちと協力し、このラベルと手法を彼らのワークフローやカリキュラムに組み込んできた。

  • But we know it only goes so far, and that's because it's actually really hard to get a label on every single dataset.

    なぜなら、すべてのデータセットにラベルを付けるのは実際には難しいからだ。

  • And this comes down to the question of, why would you put a label on a dataset to begin with?

    そしてこれは、そもそもなぜデータセットにラベルを付けるのかという疑問に行き着く。

  • Well, the first reason is not rocket science.

    まあ、最初の理由はロケット科学ではない。

  • It's that you have to.

    そうしなければならない。

  • And this is, quite frankly, why food-nutrition labels exist.

    そしてこれが、率直に言って、食品栄養表示が存在する理由である。

  • It's because if they didn't put them on the boxes, it would be illegal.

    箱に入れなければ違法になるからだ。

  • However, we don't really have AI regulation.

    しかし、実際にはAI規制はない。

  • We don't have much regulation around the use of data.

    データの使用に関する規制はあまりない。

  • Now, there is some on the horizon.

    そして今、その可能性が見えてきた。

  • For example, the EU AI Act just passed this week, and although there are no requirements around making the training data available, they do have provisions for creating transparency labeling, like the dataset-nutrition label, data sheets, data statements.

    例えば、EUのAI法は今週可決されたばかりで、トレーニングデータを利用可能にすることに関する要件はないが、データセット-栄養ラベル、データシート、データステートメントのような透明性表示を作成するための規定がある。

  • There are many in the space.

    スペースにはたくさんの人がいる。

  • We think this is a really good first step.

    これは本当に良い第一歩だと思う。

  • The second reason that you might have a label on a dataset is because it is a best practice or a cultural norm.

    データセットにラベルを付ける2つ目の理由は、それがベストプラクティスや文化的規範だからである。

  • The example here might be how we're starting to see more and more food packaging and menus at restaurants include information about whether there's gluten.

    例えば、グルテンの有無について記載された食品パッケージやメニューを目にする機会が増えてきている。

  • Now, this is not required by law, although if you do say it, it better be true.

    これは法律で義務付けられているわけではないが、もし言うのであれば、真実であることが望ましい。

  • And the reason that people are adding this to their menus and their food packaging is because there's an increased awareness of the sensitivity and kind of the seriousness of that kind of an allergy or condition.

    そして、人々がメニューや食品包装にこれを加える理由は、そのようなアレルギーや症状の敏感さや深刻さに対する意識が高まっているからである。

  • So we're also seeing some movement in this area.

    だから、この分野にも動きがある。

  • Folks who are building datasets are starting to put nutrition labels, data sheets on their datasets, and people who are using data are starting to request the information.

    データセットを作っている人たちは、そのデータセットに栄養表示やデータシートを付け始めているし、データを使っている人たちは情報を求め始めている。

  • This is really heartening.

    これは本当に心強い。

  • You might say, Kasia, why are you up here?

    カシア、なぜここにいるんだ?

  • Everything seems to be going well.

    すべてがうまくいっているようだ。

  • It seems to be getting better.

    良くなっているようだ。

  • In some ways, it is, but I'm also here to tell you that our relationship to data is getting worse.

    ある意味ではそうだが、データとの関係が悪化していることもお伝えしたい。

  • Now, the last few years have seen a supercharged interest in gathering datasets.

    さて、ここ数年、データセットを集めることへの関心が非常に高まっている。

  • Companies are scraping the web.

    企業はウェブをスクラップしている。

  • They're transcribing millions of hours of YouTube videos into text.

    何百万時間ものYouTubeの動画をテキストに書き起こしているのだ。

  • By some estimates, they'll run out of information on the internet by 2026.

    2026年までにインターネット上の情報がなくなるという試算もある。

  • They're even considering buying publishing houses so they can get access to printed text in books.

    出版社を買収することで、書籍に印刷されたテキストにアクセスできるようにすることさえ考えている。

  • So why are they gathering this information?

    では、なぜ彼らはこのような情報を集めているのか?

  • Well, they need more and more information to train a new technique called generative AI.

    生成AIと呼ばれる新しい技術を訓練するためには、より多くの情報が必要なのだ。

  • I want to tell you about the size of these datasets.

    これらのデータセットのサイズについてお話したいと思います。

  • If you look at GPT-3, which is a model that launched in 2020, the training dataset included 300 billion words or parts of words.

    2020年に発売されたGPT-3を見ると、トレーニングデータセットには3,000億の単語や単語の一部が含まれている。

  • Now, for context, the English language contains less than a million words.

    さて、文脈から考えると、英語には100万語にも満たない単語しか含まれていない。

  • And just three years later, DBRX was launched, which was trained on eight trillion words.

    そしてわずか3年後、DBRXが発売され、8兆語に訓練された。

  • So 300 billion to eight trillion in three years, and the datasets are getting bigger.

    つまり、3年間で3,000億から8兆になり、データセットも大きくなっている。

  • And with each successive model launch, the datasets are actually less and less transparent.

    そして、モデルが発売されるたびに、データセットの透明性はどんどん失われていく。

  • And even when we have access to the information that's so big, it's so hard to look inside without any kind of transparency tooling.

    そして、非常に大きな情報にアクセスできたとしても、透明性を高めるツールがなければ、その内部を見ることは難しい。

  • And the generative AI itself is also causing some worries.

    また、ジェネレーティブAI自体にも不安がある。

  • You've probably encountered this technique through chat GPT.

    このテクニックは、おそらくチャットGPTで目にしたことがあるだろう。

  • I don't need to know what you do on the internet.

    インターネット上であなたが何をしているか知る必要はない。

  • That's between you and the internet.

    それはあなたとインターネットとの問題です。

  • But you probably know, just like I do, how easy it is to create information using chat GPT and other generative AI technologies and to put that out onto the web.

    しかし、私と同じように、チャットGPTやその他のジェネレーティブAI技術を使って情報を作成し、それをウェブに公開することがいかに簡単か、おそらくあなたも知っているはずだ。

  • And so we're looking at a situation in which we're going to encounter lots of information that's algorithmically generated, but we won't know it, and we won't know whether it's true.

    アルゴリズムによって生成された多くの情報に遭遇することになるが、私たちはそれを知ることができず、それが真実かどうかもわからない。

  • And this increases the scale of the potential risks and harms from AI.

    そしてこれは、AIがもたらす潜在的なリスクと害の規模を拡大させる。

  • Not only that, I'm sorry, but the models themselves are getting controlled by a smaller and smaller number of private actors in US tech firms.

    それだけでなく、残念なことだが、モデルそのものが、米国のハイテク企業におけるより少数の民間企業によってコントロールされつつある。

  • So this is the models that were launched last year in 2023, and you see most of them are pink, meaning they came out of industry.

    これは昨年2023年に発売されたモデルで、ほとんどがピンク色をしている。

  • And if you look at this over time, more and more are coming out of industry and fewer and fewer are coming out of all the other sectors combined, including academia and government, where technology is often launched in a way that's more easy to be scrutinized.

    そして、これを時系列で見てみると、産業界から生まれるものはますます多くなり、学術界や政府を含む他のすべての部門から生まれるものはますます少なくなっている。

  • So if we go back to our cafe analogy, this is like you have a small number of private actors who own all the ingredients, they make all the sandwiches globally, and there's not a lot of regulation.

    つまり、カフェの例えに戻れば、少数の民間企業がすべての食材を所有し、世界規模ですべてのサンドイッチを作っているようなもので、規制はあまりない。

  • And so at this point, you're probably scared and maybe feeling a little uncomfortable, which is ironic, because a few minutes ago

    この時点で、あなたは恐らく恐怖を感じ、少し居心地の悪さを感じていることだろう。

  • I was going to get you all sandwiches, and you said yes.

    みんなにサンドイッチを食べさせようと思っていたんだ。

  • This is why you should not accept food from strangers.

    だから、知らない人から食べ物をもらってはいけない。

  • But I wouldn't be up here if I weren't also optimistic.

    しかし、楽観的でなければ、私はここにいない。

  • That's because I think we have momentum behind the regulation and the culture changes especially if we align ourselves with three basic principles about how corporations should engage with data.

    企業がデータにどのように関わるべきかという3つの基本原則に沿えば、規制や文化の変革に弾みがつくと思うからだ。

  • The first principle is that companies that gather data should tell us what they're gathering.

    第一の原則は、データを収集する企業は、何を収集しているのかを私たちに伝えるべきだということだ。

  • This would allow us to ask questions like, is it copyrighted material?

    これによって、著作権で保護された素材なのか?

  • Is that information private?

    その情報はプライベートなものですか?

  • Could you please stop?

    やめてくれませんか?

  • It also opens up the data to scientific inquiry.

    また、データを科学的な調査に開放することもできる。

  • The second principle is that companies that are gathering our data should tell us what they're going to do with it before they do anything with it.

    つ目の原則は、私たちのデータを収集している企業は、そのデータを使って何かをする前に、何をするつもりなのかを私たちに伝えるべきだということだ。

  • And by requiring that companies tell us their plan, this means that they have to have a plan, which would be a great first step.

    そして、企業に計画を伝えることを義務づけるということは、企業が計画を持たなければならないということであり、これは素晴らしい第一歩となるだろう。

  • It also probably would lead to the minimization of data capture because they wouldn't be able to capture data if they didn't know what they were already going to do with it.

    また、おそらくデータ収集の最小化にもつながるだろう。なぜなら、すでにそのデータで何をしようとしているのかわからなければ、データを収集することはできないからだ。

  • And finally, principle three, companies that build AI should tell us about the data that they use to train the AI.

    最後に、原則3として、AIを構築する企業は、AIを訓練するために使用するデータについて教えてほしい。

  • And this is where data set nutrition labels and other transparency labeling comes into play.

    そしてここで、データセット栄養表示やその他の透明性表示が登場する。

  • In the case where the data itself won't be made available, which is most of the time, probably, the labeling is critical for us to be able to investigate the ingredients and start to find solutions.

    データそのものが公開されない場合(おそらくほとんどの場合)、私たちが成分を調査し、解決策を見いだすためには、ラベル表示が不可欠だ。

  • So I want to leave you with the good news, and that is that the data nutrition projects and other projects are just a small part of a global movement towards AI accountability.

    つまり、データ栄養プロジェクトやその他のプロジェクトは、AIの説明責任に向けた世界的な動きのほんの一部にすぎないということだ。

  • Data set nutrition label and other projects are just a first step.

    データセット栄養ラベルやその他のプロジェクトは、最初の一歩に過ぎない。

  • Regulations on the horizon, the cultural norms are shifting, especially if we align with these three basic principles, that companies should tell us what they're gathering, tell us what they're going to do with it before they do anything with it, and that companies that are building AI should explain the data that they're using to build the system.

    特に、この3つの基本原則に沿うならば、企業は何を収集しているのか、それを使って何をしようとしているのか、そしてAIを構築している企業はシステムを構築するために使用しているデータについて説明すべきである。

  • We need to hold these organizations accountable for the AI that they're building by asking them, just like we do with the food industry, what's inside and how'd you make it?

    私たちは、食品業界と同じように、何が入っていて、どうやって作ったのか?

  • Only then can we mitigate the issues before they occur as opposed to after they occur, and in doing so, create an integrated, algorithmic internet that is healthier for everyone.

    そうして初めて、問題が発生してからではなく、発生する前に緩和することができ、そうすることで、すべての人にとってより健全な、統合されたアルゴリズムによるインターネットを作り上げることができるのだ。

  • Thank you.

    ありがとう。

  • Thank you.

    ありがとう。

Now, I haven't met most of you, or really, any of you, but I feel a really good vibe in the room.

さて、私は皆さんのほとんど、いや、本当にどなたにもお会いしたことはありませんが、会場にはとてもいい雰囲気が漂っています。

字幕と単語
AI 自動生成字幕

ワンタップで英和辞典検索 単語をクリックすると、意味が表示されます