Placeholder Image

字幕表 動画を再生する

AI 自動生成字幕
  • Let me show you something.

    見せたいものがある

  • (Video) Girl: Okay, that's a cat sitting in a bed.

    (動画)少女。わかった、それは猫だ ベッドに座って

  • The boy is petting the elephant.

    少年は象を撫でています。

  • Those are people that are going on an airplane.

    それらは人々である 飛行機に乗っている

  • That's a big airplane.

    大きな飛行機ですね。

  • Fei-Fei Li: This is a three-year-old child

    李飛飛:これは 三歳児

  • describing what she sees in a series of photos.

    見たことを語る を連写してみました。

  • She might still have a lot to learn about this world,

    彼女はまだたくさん持っているかもしれない この世界を知るために。

  • but she's already an expert at one very important task:

    でも、彼女はすでに専門家 一つの重要な仕事で

  • to make sense of what she sees.

    彼女が見たものを理解するために

  • Our society is more technologically advanced than ever.

    私たちの社会はもっと 技術的にはこれまで以上に進んでいます。

  • We send people to the moon, we make phones that talk to us

    月に人を送る 喋る電話を作る

  • or customize radio stations that can play only music we like.

    またはラジオ局をカスタマイズする 自分たちの好きな音楽だけを流すことができる

  • Yet, our most advanced machines and computers

    しかし、私たちの最も先進的な きかいけいさんき

  • still struggle at this task.

    今でもこの作業には苦戦しています。

  • So I'm here today to give you a progress report

    だから今日はここに来たんだ 進捗報告をするために

  • on the latest advances in our research in computer vision,

    最新の進歩について コンピュータビジョンの研究をしています。

  • one of the most frontier and potentially revolutionary

    辺境の一角 革命的

  • technologies in computer science.

    コンピュータサイエンスの技術を紹介します。

  • Yes, we have prototyped cars that can drive by themselves,

    はい、試作車もあります 自分で運転できる

  • but without smart vision, they cannot really tell the difference

    しかし、スマートビジョンがない。 区別がつかない

  • between a crumpled paper bag on the road, which can be run over,

    くしゃくしゃになった紙袋の間 轢かれる可能性のある道路で。

  • and a rock that size, which should be avoided.

    とその大きさの岩。 を避けるべきである。

  • We have made fabulous megapixel cameras,

    私たちは、素晴らしいメガピクセルカメラを作りました。

  • but we have not delivered sight to the blind.

    届けていない 目の不自由な人には目が見えない。

  • Drones can fly over massive land,

    ドローンは広大な土地の上を飛ぶことができます。

  • but don't have enough vision technology

    しかし、ビジョン技術が不足している

  • to help us to track the changes of the rainforests.

    追跡を助けるために 熱帯雨林の変化

  • Security cameras are everywhere,

    防犯カメラはどこにでもあります。

  • but they do not alert us when a child is drowning in a swimming pool.

    しかし、子供がいるときには注意喚起はしてくれません。 はプールで溺れています。

  • Photos and videos are becoming an integral part of global life.

    写真や動画が増えてきています。 グローバルな生活に欠かせないものとなっています。

  • They're being generated at a pace that's far beyond what any human,

    ペースで生成されている それは人間の範疇をはるかに超えている。

  • or teams of humans, could hope to view,

    または人間のチームが見ることを希望することができます。

  • and you and I are contributing to that at this TED.

    あなたと私は貢献している このTEDでは、そのことに触れています。

  • Yet our most advanced software is still struggling at understanding

    しかし、私たちの最も先進的なソフトウェア 理解に苦しむ

  • and managing this enormous content.

    と、この膨大なコンテンツを管理しています。

  • So in other words, collectively as a society,

    つまり、言い換えれば 社会としてまとめて

  • we're very much blind,

    私たちは非常に盲目です。

  • because our smartest machines are still blind.

    なぜなら、私たちの最も賢い 機械はまだ盲目です。

  • "Why is this so hard?" you may ask.

    "何でそんなに難しいの?"と聞かれるかもしれません。

  • Cameras can take pictures like this one

    カメラはこのような写真を撮ることができます

  • by converting lights into a two-dimensional array of numbers

    ライトを 二次元数列

  • known as pixels,

    ピクセルとして知られています。

  • but these are just lifeless numbers.

    しかし、これらはただの命のない数字です。

  • They do not carry meaning in themselves.

    それらはそれ自体に意味を持たない。

  • Just like to hear is not the same as to listen,

    聞くのが好きなだけでは を聞くのと同じです。

  • to take pictures is not the same as to see,

    写真を撮ることは を見るのと同じように

  • and by seeing, we really mean understanding.

    と見ることで。 私たちは本当に理解しているということです。

  • In fact, it took Mother Nature 540 million years of hard work

    実際には、それは母なる自然が 5億4千万年の苦労

  • to do this task,

    を使って、この作業を行います。

  • and much of that effort

    その努力の多くは

  • went into developing the visual processing apparatus of our brains,

    ビジュアルの開発に 私たちの脳の処理装置。

  • not the eyes themselves.

    目そのものではなく

  • So vision begins with the eyes,

    視覚は目から始まるんですね。

  • but it truly takes place in the brain.

    しかし、それは本当に脳の中で行われています。

  • So for 15 years now, starting from my Ph.D. at Caltech

    だから15年前から カリフォルニア工科大学での博士号取得後

  • and then leading Stanford's Vision Lab,

    そして、スタンフォードのビジョンラボを率いています。

  • I've been working with my mentors, collaborators and students

    メンターと一緒に仕事をしてきました。 協力者と学生

  • to teach computers to see.

    をコンピュータに教えることができます。

  • Our research field is called computer vision and machine learning.

    私たちの研究分野は コンピュータビジョンと機械学習。

  • It's part of the general field of artificial intelligence.

    一般的な分野の一部です 人工知能の

  • So ultimately, we want to teach the machines to see just like we do:

    だから、最終的には、私たちが教えたいのは 私たちと同じように見るための機械

  • naming objects, identifying people, inferring 3D geometry of things,

    物体に名前を付けたり、人を特定したり。 物事の3次元形状を推論する

  • understanding relations, emotions, actions and intentions.

    関係性、感情を理解する 行動と意思。

  • You and I weave together entire stories of people, places and things

    あなたと私はすべての物語を織り成す 人地物

  • the moment we lay our gaze on them.

    視線を合わせた瞬間に

  • The first step towards this goal is to teach a computer to see objects,

    この目標に向けての第一歩 は、コンピュータに物体を見ることを教えることです。

  • the building block of the visual world.

    視覚世界のビルディングブロック。

  • In its simplest terms, imagine this teaching process

    簡単に言うと この教え方を思い浮かべる

  • as showing the computers some training images

    コンピュータを示すように トレーニングイメージ

  • of a particular object, let's say cats,

    特定の対象物、例えば猫としましょう。

  • and designing a model that learns from these training images.

    を学習するモデルを設計し これらのトレーニング画像から

  • How hard can this be?

    どれだけ大変なことなんだ?

  • After all, a cat is just a collection of shapes and colors,

    結局のところ、猫はただの 形と色のコレクション。

  • and this is what we did in the early days of object modeling.

    これが私たちがしたこと オブジェクトモデリングの黎明期に

  • We'd tell the computer algorithm in a mathematical language

    コンピュータアルゴリズムに 数学的言語で

  • that a cat has a round face, a chubby body,

    猫が丸い顔をしていること ぽっちゃり体型。

  • two pointy ears, and a long tail,

    尖った耳が2つ、長い尻尾が1つ。

  • and that looked all fine.

    と、それは大丈夫そうに見えました。

  • But what about this cat?

    でも、この猫はどうなんだろう?

  • (Laughter)

    (笑)

  • It's all curled up.

    丸くなっている。

  • Now you have to add another shape and viewpoint to the object model.

    今度は別の形を追加する必要があります と視点をオブジェクトモデルに合わせて設定することができます。

  • But what if cats are hidden?

    しかし、猫が隠れているとしたらどうでしょうか?

  • What about these silly cats?

    こういうおバカな猫はどうなの?

  • Now you get my point.

    これで私の言いたいことが分かったでしょう。

  • Even something as simple as a household pet

    簡単なことでも 家のペットとして

  • can present an infinite number of variations to the object model,

    限りない数を提示することができる オブジェクトモデルへのバリエーションの

  • and that's just one object.

    と、それは一つの物体に過ぎない。

  • So about eight years ago,

    だから8年くらい前に

  • a very simple and profound observation changed my thinking.

    妙見 考え方が変わりました。

  • No one tells a child how to see,

    誰も子供に見方を教えない。

  • especially in the early years.

    特に初期の頃は。

  • They learn this through real-world experiences and examples.

    を通して学んでいます。 実体験と実例を紹介します。

  • If you consider a child's eyes

    子供の目を考えると

  • as a pair of biological cameras,

    一対の生物学的カメラとして

  • they take one picture about every 200 milliseconds,

    一枚撮り 約200ミリ秒ごとに

  • the average time an eye movement is made.

    目の動きの平均時間。

  • So by age three, a child would have seen hundreds of millions of pictures

    ということは、3歳までに子供は 百万枚の写真

  • of the real world.

    現実世界の

  • That's a lot of training examples.

    トレーニングの例が多いですね。

  • So instead of focusing solely on better and better algorithms,

    だから、単独に焦点を当てるのではなく より良い、より良いアルゴリズムについて

  • my insight was to give the algorithms the kind of training data

    私の見識では、アルゴリズムに しつけデータ

  • that a child was given through experiences

    子供の頃の経験

  • in both quantity and quality.

    量的にも質的にも。

  • Once we know this,

    これがわかれば

  • we knew we needed to collect a data set

    データセットを収集する必要があることはわかっていた

  • that has far more images than we have ever had before,

    イメージがある 今まで以上に

  • perhaps thousands of times more,

    おそらく数千倍にもなります。

  • and together with Professor Kai Li at Princeton University,

    教授と一緒に プリンストン大学のカイ・リー。

  • we launched the ImageNet project in 2007.

    2007年にImageNetプロジェクトを立ち上げました。

  • Luckily, we didn't have to mount a camera on our head

    幸いなことに、マウントを取る必要はありませんでした。 頭の上のカメラ

  • and wait for many years.

    と何年も待つ。

  • We went to the Internet,

    インターネットに行ってきました。

  • the biggest treasure trove of pictures that humans have ever created.

    絵の宝庫 人間がこれまでに作ったものの中で

  • We downloaded nearly a billion images

    10億枚近くの画像をダウンロードしました

  • and used crowdsourcing technology like the Amazon Mechanical Turk platform

    とクラウドソーシング技術を活用した Amazon Mechanical Turkプラットフォームのような

  • to help us to label these images.

    これらの画像にラベルを貼るのに役立ちます。

  • At its peak, ImageNet was one of the biggest employers

    最盛期には、ImageNetは 最大手

  • of the Amazon Mechanical Turk workers:

    Amazon Mechanical Turkの労働者の

  • together, almost 50,000 workers

    合わせて五万人近くの労働者

  • from 167 countries around the world

    世界167カ国から

  • helped us to clean, sort and label

    掃除、仕分け、ラベル貼りを手伝ってくれました。

  • nearly a billion candidate images.

    10億枚近い候補画像

  • That was how much effort it took

    それくらいの労力が必要だった

  • to capture even a fraction of the imagery

    ひとかけらもとらない イメージの

  • a child's mind takes in in the early developmental years.

    童心に返る 発達の初期段階で

  • In hindsight, this idea of using big data

    後から考えると、このビッグデータ活用の考え方は

  • to train computer algorithms may seem obvious now,

    アルゴリズムを訓練するために 今では当たり前のように思えるかもしれません。

  • but back in 2007, it was not so obvious.

    しかし、2007年当時は、それほど目立ったことはありませんでした。

  • We were fairly alone on this journey for quite a while.

    私たちはこの旅でかなり一人だった かなり前から

  • Some very friendly colleagues advised me to do something more useful for my tenure,

    とても気さくな同僚がアドバイスしてくれました。 私の在職期間のためにもっと役に立つことをするために。

  • and we were constantly struggling for research funding.

    苦労の連続でした 研究資金のために。

  • Once, I even joked to my graduate students

    院生に冗談を言ったこともありました。

  • that I would just reopen my dry cleaner's shop to fund ImageNet.

    開き直ると 私のクリーニング屋さんがイメージネットに資金を提供するために

  • After all, that's how I funded my college years.

    結局のところ、それが私が資金を提供した方法です。 私の大学時代

  • So we carried on.

    だから我々は続けた。

  • In 2009, the ImageNet project delivered

    2009年、ImageNetプロジェクトは

  • a database of 15 million images

    1500万枚の画像データベース

  • across 22,000 classes of objects and things

    2万2千クラスに渡って ぶつぶつ

  • organized by everyday English words.

    日常的な英単語で構成されています。

  • In both quantity and quality,

    量的にも質的にも。

  • this was an unprecedented scale.

    これは前代未聞の規模でした。

  • As an example, in the case of cats,

    例として、猫の場合。

  • we have more than 62,000 cats

    6万2千匹以上の猫を飼っています

  • of all kinds of looks and poses

    いろんな顔とポーズをして

  • and across all species of domestic and wild cats.

    とすべての種に渡って 家畜猫と野良猫の

  • We were thrilled to have put together ImageNet,

    私たちは感激していました。 ImageNetをまとめたのは

  • and we wanted the whole research world to benefit from it,

    そして、私たちは研究の世界全体を望んでいました。 の恩恵を受けることができます。

  • so in the TED fashion, we opened up the entire data set

    そう、TEDのファッションで。 データセット全体をオープンにしました。

  • to the worldwide research community for free.

    世界的に 研究コミュニティを無料で提供しています。

  • (Applause)

    (拍手)

  • Now that we have the data to nourish our computer brain,

    これでデータができました コンピュータ脳を養うために

  • we're ready to come back to the algorithms themselves.

    戻ってきてもおかしくない アルゴリズム自体に

  • As it turned out, the wealth of information provided by ImageNet

    結論から言うと、富は イメージネットが提供する情報のうち

  • was a perfect match to a particular class of machine learning algorithms

    は特定のクラスにぴったりだった 機械学習アルゴリズムの

  • called convolutional neural network,

    畳み込みニューラルネットワークと呼ばれる。

  • pioneered by Kunihiko Fukushima, Geoff Hinton, and Yann LeCun

    福島邦彦が開拓した ジェフ・ヒントン、ヤン・ルクン

  • back in the 1970s and '80s.

    1970年代から80年代に戻って

  • Just like the brain consists of billions of highly connected neurons,

    脳が構成されているように 数十億個の高度に接続されたニューロンの

  • a basic operating unit in a neural network

    きほんえんざんユニット

  • is a neuron-like node.

    はニューロンのようなノードです。

  • It takes input from other nodes

    他のノードからの入力を受けます。

  • and sends output to others.

    と他の人に出力を送信します。

  • Moreover, these hundreds of thousands or even millions of nodes

    さらに、これらの数十万 または数百万のノード

  • are organized in hierarchical layers,

    は、階層的な層で構成されています。

  • also similar to the brain.

    脳にも似ています。

  • In a typical neural network we use to train our object recognition model,

    典型的なニューラルネットワークでは を用いて,物体認識モデルを学習します.

  • it has 24 million nodes,

    それは2400万のノードを持っています。