字幕表 動画を再生する
-
Let me show you something.
見せたいものがある
-
(Video) Girl: Okay, that's a cat sitting in a bed.
(動画)少女。わかった、それは猫だ ベッドに座って
-
The boy is petting the elephant.
少年は象を撫でています。
-
Those are people that are going on an airplane.
それらは人々である 飛行機に乗っている
-
That's a big airplane.
大きな飛行機ですね。
-
Fei-Fei Li: This is a three-year-old child
李飛飛:これは 三歳児
-
describing what she sees in a series of photos.
見たことを語る を連写してみました。
-
She might still have a lot to learn about this world,
彼女はまだたくさん持っているかもしれない この世界を知るために。
-
but she's already an expert at one very important task:
でも、彼女はすでに専門家 一つの重要な仕事で
-
to make sense of what she sees.
彼女が見たものを理解するために
-
Our society is more technologically advanced than ever.
私たちの社会はもっと 技術的にはこれまで以上に進んでいます。
-
We send people to the moon, we make phones that talk to us
月に人を送る 喋る電話を作る
-
or customize radio stations that can play only music we like.
またはラジオ局をカスタマイズする 自分たちの好きな音楽だけを流すことができる
-
Yet, our most advanced machines and computers
しかし、私たちの最も先進的な きかいけいさんき
-
still struggle at this task.
今でもこの作業には苦戦しています。
-
So I'm here today to give you a progress report
だから今日はここに来たんだ 進捗報告をするために
-
on the latest advances in our research in computer vision,
最新の進歩について コンピュータビジョンの研究をしています。
-
one of the most frontier and potentially revolutionary
辺境の一角 革命的
-
technologies in computer science.
コンピュータサイエンスの技術を紹介します。
-
Yes, we have prototyped cars that can drive by themselves,
はい、試作車もあります 自分で運転できる
-
but without smart vision, they cannot really tell the difference
しかし、スマートビジョンがない。 区別がつかない
-
between a crumpled paper bag on the road, which can be run over,
くしゃくしゃになった紙袋の間 轢かれる可能性のある道路で。
-
and a rock that size, which should be avoided.
とその大きさの岩。 を避けるべきである。
-
We have made fabulous megapixel cameras,
私たちは、素晴らしいメガピクセルカメラを作りました。
-
but we have not delivered sight to the blind.
届けていない 目の不自由な人には目が見えない。
-
Drones can fly over massive land,
ドローンは広大な土地の上を飛ぶことができます。
-
but don't have enough vision technology
しかし、ビジョン技術が不足している
-
to help us to track the changes of the rainforests.
追跡を助けるために 熱帯雨林の変化
-
Security cameras are everywhere,
防犯カメラはどこにでもあります。
-
but they do not alert us when a child is drowning in a swimming pool.
しかし、子供がいるときには注意喚起はしてくれません。 はプールで溺れています。
-
Photos and videos are becoming an integral part of global life.
写真や動画が増えてきています。 グローバルな生活に欠かせないものとなっています。
-
They're being generated at a pace that's far beyond what any human,
ペースで生成されている それは人間の範疇をはるかに超えている。
-
or teams of humans, could hope to view,
または人間のチームが見ることを希望することができます。
-
and you and I are contributing to that at this TED.
あなたと私は貢献している このTEDでは、そのことに触れています。
-
Yet our most advanced software is still struggling at understanding
しかし、私たちの最も先進的なソフトウェア 理解に苦しむ
-
and managing this enormous content.
と、この膨大なコンテンツを管理しています。
-
So in other words, collectively as a society,
つまり、言い換えれば 社会としてまとめて
-
we're very much blind,
私たちは非常に盲目です。
-
because our smartest machines are still blind.
なぜなら、私たちの最も賢い 機械はまだ盲目です。
-
"Why is this so hard?" you may ask.
"何でそんなに難しいの?"と聞かれるかもしれません。
-
Cameras can take pictures like this one
カメラはこのような写真を撮ることができます
-
by converting lights into a two-dimensional array of numbers
ライトを 二次元数列
-
known as pixels,
ピクセルとして知られています。
-
but these are just lifeless numbers.
しかし、これらはただの命のない数字です。
-
They do not carry meaning in themselves.
それらはそれ自体に意味を持たない。
-
Just like to hear is not the same as to listen,
聞くのが好きなだけでは を聞くのと同じです。
-
to take pictures is not the same as to see,
写真を撮ることは を見るのと同じように
-
and by seeing, we really mean understanding.
と見ることで。 私たちは本当に理解しているということです。
-
In fact, it took Mother Nature 540 million years of hard work
実際には、それは母なる自然が 5億4千万年の苦労
-
to do this task,
を使って、この作業を行います。
-
and much of that effort
その努力の多くは
-
went into developing the visual processing apparatus of our brains,
ビジュアルの開発に 私たちの脳の処理装置。
-
not the eyes themselves.
目そのものではなく
-
So vision begins with the eyes,
視覚は目から始まるんですね。
-
but it truly takes place in the brain.
しかし、それは本当に脳の中で行われています。
-
So for 15 years now, starting from my Ph.D. at Caltech
だから15年前から カリフォルニア工科大学での博士号取得後
-
and then leading Stanford's Vision Lab,
そして、スタンフォードのビジョンラボを率いています。
-
I've been working with my mentors, collaborators and students
メンターと一緒に仕事をしてきました。 協力者と学生
-
to teach computers to see.
をコンピュータに教えることができます。
-
Our research field is called computer vision and machine learning.
私たちの研究分野は コンピュータビジョンと機械学習。
-
It's part of the general field of artificial intelligence.
一般的な分野の一部です 人工知能の
-
So ultimately, we want to teach the machines to see just like we do:
だから、最終的には、私たちが教えたいのは 私たちと同じように見るための機械
-
naming objects, identifying people, inferring 3D geometry of things,
物体に名前を付けたり、人を特定したり。 物事の3次元形状を推論する
-
understanding relations, emotions, actions and intentions.
関係性、感情を理解する 行動と意思。
-
You and I weave together entire stories of people, places and things
あなたと私はすべての物語を織り成す 人地物
-
the moment we lay our gaze on them.
視線を合わせた瞬間に
-
The first step towards this goal is to teach a computer to see objects,
この目標に向けての第一歩 は、コンピュータに物体を見ることを教えることです。
-
the building block of the visual world.
視覚世界のビルディングブロック。
-
In its simplest terms, imagine this teaching process
簡単に言うと この教え方を思い浮かべる
-
as showing the computers some training images
コンピュータを示すように トレーニングイメージ
-
of a particular object, let's say cats,
特定の対象物、例えば猫としましょう。
-
and designing a model that learns from these training images.
を学習するモデルを設計し これらのトレーニング画像から
-
How hard can this be?
どれだけ大変なことなんだ?
-
After all, a cat is just a collection of shapes and colors,
結局のところ、猫はただの 形と色のコレクション。
-
and this is what we did in the early days of object modeling.
これが私たちがしたこと オブジェクトモデリングの黎明期に
-
We'd tell the computer algorithm in a mathematical language
コンピュータアルゴリズムに 数学的言語で
-
that a cat has a round face, a chubby body,
猫が丸い顔をしていること ぽっちゃり体型。
-
two pointy ears, and a long tail,
尖った耳が2つ、長い尻尾が1つ。
-
and that looked all fine.
と、それは大丈夫そうに見えました。
-
But what about this cat?
でも、この猫はどうなんだろう?
-
(Laughter)
(笑)
-
It's all curled up.
丸くなっている。
-
Now you have to add another shape and viewpoint to the object model.
今度は別の形を追加する必要があります と視点をオブジェクトモデルに合わせて設定することができます。
-
But what if cats are hidden?
しかし、猫が隠れているとしたらどうでしょうか?
-
What about these silly cats?
こういうおバカな猫はどうなの?
-
Now you get my point.
これで私の言いたいことが分かったでしょう。
-
Even something as simple as a household pet
簡単なことでも 家のペットとして
-
can present an infinite number of variations to the object model,
限りない数を提示することができる オブジェクトモデルへのバリエーションの
-
and that's just one object.
と、それは一つの物体に過ぎない。
-
So about eight years ago,
だから8年くらい前に
-
a very simple and profound observation changed my thinking.
妙見 考え方が変わりました。
-
No one tells a child how to see,
誰も子供に見方を教えない。
-
especially in the early years.
特に初期の頃は。
-
They learn this through real-world experiences and examples.
を通して学んでいます。 実体験と実例を紹介します。
-
If you consider a child's eyes
子供の目を考えると
-
as a pair of biological cameras,
一対の生物学的カメラとして
-
they take one picture about every 200 milliseconds,
一枚撮り 約200ミリ秒ごとに
-
the average time an eye movement is made.
目の動きの平均時間。
-
So by age three, a child would have seen hundreds of millions of pictures
ということは、3歳までに子供は 百万枚の写真
-
of the real world.
現実世界の
-
That's a lot of training examples.
トレーニングの例が多いですね。
-
So instead of focusing solely on better and better algorithms,
だから、単独に焦点を当てるのではなく より良い、より良いアルゴリズムについて
-
my insight was to give the algorithms the kind of training data
私の見識では、アルゴリズムに しつけデータ
-
that a child was given through experiences
子供の頃の経験
-
in both quantity and quality.
量的にも質的にも。
-
Once we know this,
これがわかれば
-
we knew we needed to collect a data set
データセットを収集する必要があることはわかっていた
-
that has far more images than we have ever had before,
イメージがある 今まで以上に
-
perhaps thousands of times more,
おそらく数千倍にもなります。
-
and together with Professor Kai Li at Princeton University,
教授と一緒に プリンストン大学のカイ・リー。
-
we launched the ImageNet project in 2007.
2007年にImageNetプロジェクトを立ち上げました。
-
Luckily, we didn't have to mount a camera on our head
幸いなことに、マウントを取る必要はありませんでした。 頭の上のカメラ
-
and wait for many years.
と何年も待つ。
-
We went to the Internet,
インターネットに行ってきました。
-
the biggest treasure trove of pictures that humans have ever created.
絵の宝庫 人間がこれまでに作ったものの中で
-
We downloaded nearly a billion images
10億枚近くの画像をダウンロードしました
-
and used crowdsourcing technology like the Amazon Mechanical Turk platform
とクラウドソーシング技術を活用した Amazon Mechanical Turkプラットフォームのような
-
to help us to label these images.
これらの画像にラベルを貼るのに役立ちます。
-
At its peak, ImageNet was one of the biggest employers
最盛期には、ImageNetは 最大手
-
of the Amazon Mechanical Turk workers:
Amazon Mechanical Turkの労働者の
-
together, almost 50,000 workers
合わせて五万人近くの労働者
-
from 167 countries around the world
世界167カ国から
-
helped us to clean, sort and label
掃除、仕分け、ラベル貼りを手伝ってくれました。
-
nearly a billion candidate images.
10億枚近い候補画像
-
That was how much effort it took
それくらいの労力が必要だった
-
to capture even a fraction of the imagery
ひとかけらもとらない イメージの
-
a child's mind takes in in the early developmental years.
童心に返る 発達の初期段階で
-
In hindsight, this idea of using big data
後から考えると、このビッグデータ活用の考え方は
-
to train computer algorithms may seem obvious now,
アルゴリズムを訓練するために 今では当たり前のように思えるかもしれません。
-
but back in 2007, it was not so obvious.
しかし、2007年当時は、それほど目立ったことはありませんでした。
-
We were fairly alone on this journey for quite a while.
私たちはこの旅でかなり一人だった かなり前から
-
Some very friendly colleagues advised me to do something more useful for my tenure,
とても気さくな同僚がアドバイスしてくれました。 私の在職期間のためにもっと役に立つことをするために。
-
and we were constantly struggling for research funding.
苦労の連続でした 研究資金のために。
-
Once, I even joked to my graduate students
院生に冗談を言ったこともありました。
-
that I would just reopen my dry cleaner's shop to fund ImageNet.
開き直ると 私のクリーニング屋さんがイメージネットに資金を提供するために
-
After all, that's how I funded my college years.
結局のところ、それが私が資金を提供した方法です。 私の大学時代
-
So we carried on.
だから我々は続けた。
-
In 2009, the ImageNet project delivered
2009年、ImageNetプロジェクトは
-
a database of 15 million images
1500万枚の画像データベース
-
across 22,000 classes of objects and things
2万2千クラスに渡って ぶつぶつ
-
organized by everyday English words.
日常的な英単語で構成されています。
-
In both quantity and quality,
量的にも質的にも。
-
this was an unprecedented scale.
これは前代未聞の規模でした。
-
As an example, in the case of cats,
例として、猫の場合。
-
we have more than 62,000 cats
6万2千匹以上の猫を飼っています
-
of all kinds of looks and poses
いろんな顔とポーズをして
-
and across all species of domestic and wild cats.
とすべての種に渡って 家畜猫と野良猫の
-
We were thrilled to have put together ImageNet,
私たちは感激していました。 ImageNetをまとめたのは
-
and we wanted the whole research world to benefit from it,
そして、私たちは研究の世界全体を望んでいました。 の恩恵を受けることができます。
-
so in the TED fashion, we opened up the entire data set
そう、TEDのファッションで。 データセット全体をオープンにしました。
-
to the worldwide research community for free.
世界的に 研究コミュニティを無料で提供しています。
-
(Applause)
(拍手)
-
Now that we have the data to nourish our computer brain,
これでデータができました コンピュータ脳を養うために
-
we're ready to come back to the algorithms themselves.
戻ってきてもおかしくない アルゴリズム自体に
-
As it turned out, the wealth of information provided by ImageNet
結論から言うと、富は イメージネットが提供する情報のうち
-
was a perfect match to a particular class of machine learning algorithms
は特定のクラスにぴったりだった 機械学習アルゴリズムの
-
called convolutional neural network,
畳み込みニューラルネットワークと呼ばれる。
-
pioneered by Kunihiko Fukushima, Geoff Hinton, and Yann LeCun
福島邦彦が開拓した ジェフ・ヒントン、ヤン・ルクン
-
back in the 1970s and '80s.
1970年代から80年代に戻って
-
Just like the brain consists of billions of highly connected neurons,
脳が構成されているように 数十億個の高度に接続されたニューロンの
-
a basic operating unit in a neural network
きほんえんざんユニット
-
is a neuron-like node.
はニューロンのようなノードです。
-
It takes input from other nodes
他のノードからの入力を受けます。
-
and sends output to others.
と他の人に出力を送信します。
-
Moreover, these hundreds of thousands or even millions of nodes
さらに、これらの数十万 または数百万のノード
-
are organized in hierarchical layers,
は、階層的な層で構成されています。
-
also similar to the brain.
脳にも似ています。
-
In a typical neural network we use to train our object recognition model,
典型的なニューラルネットワークでは を用いて,物体認識モデルを学習します.
-
it has 24 million nodes,
それは2400万のノードを持っています。
-
140 million parameters,
1億4千万のパラメーター。
-
and 15 billion connections.
と150億人のつながりがあります。
-
That's an enormous model.
巨大なモデルですね。
-
Powered by the massive data from ImageNet
ImageNetの膨大なデータを活用
-
and the modern CPUs and GPUs to train such a humongous model,
と最近のCPUやGPU このような巨大なモデルを鍛えるために
-
the convolutional neural network
畳み込みニューラルネットワーク
-
blossomed in a way that no one expected.
誰も予想していなかった形で花を咲かせました。
-
It became the winning architecture
勝ち組建築になった
-
to generate exciting new results in object recognition.
刺激的な新しい成果を生み出すために 物体認識において。
-
This is a computer telling us
これはコンピューターが教えてくれる
-
this picture contains a cat
この写真には猫が写っている
-
and where the cat is.
と猫の居場所を教えてくれました。
-
Of course there are more things than cats,
もちろん猫以外のものもあります。
-
so here's a computer algorithm telling us
ここにコンピュータのアルゴリズムがある
-
the picture contains a boy and a teddy bear;
写っているのは 少年とテディベア
-
a dog, a person, and a small kite in the background;
犬人小凧 を背景にしています。
-
or a picture of very busy things
忙しそうな絵
-
like a man, a skateboard, railings, a lampost, and so on.
男のように、スケボーのように 手すりやランプなど。
-
Sometimes, when the computer is not so confident about what it sees,
時々、パソコンが は、見ているものに自信が持てません。
-
we have taught it to be smart enough
頭がいいように教えてきた
-
to give us a safe answer instead of committing too much,
安心して答えられるように あまりにも多くのことをコミットするのではなく
-
just like we would do,
私たちがするように
-
but other times our computer algorithm is remarkable at telling us
しかし、他の時には我々のコンピュータアルゴリズム 語るに事欠きません
-
what exactly the objects are,
オブジェクトが正確に何であるかを知ることができます。
-
like the make, model, year of the cars.
車のメーカー、モデル、年式のように。
-
We applied this algorithm to millions of Google Street View images
このアルゴリズムを何百万もの Googleストリートビュー画像の
-
across hundreds of American cities,
アメリカの何百もの都市で
-
and we have learned something really interesting:
懲りた 本当に面白いです。
-
first, it confirmed our common wisdom
先ずは常識の確認
-
that car prices correlate very well
車の価格は非常によく相関している
-
with household incomes.
世帯収入で
-
But surprisingly, car prices also correlate well
しかし、意外と車の値段 縁が深い
-
with crime rates in cities,
都市の犯罪率と
-
or voting patterns by zip codes.
または郵便番号別の投票パターン
-
So wait a minute. Is that it?
ちょっと待ってこれでいいのか?
-
Has the computer already matched or even surpassed human capabilities?
コンピュータはすでに一致しています 人間の能力を超えているのか?
-
Not so fast.
そんなに早くない
-
So far, we have just taught the computer to see objects.
今のところ、教えたのは コンピュータで物体を見ることができます。
-
This is like a small child learning to utter a few nouns.
これは小さな子供のようなもの 珍しくも何とも言えない
-
It's an incredible accomplishment,
信じられないほどの快挙です。
-
but it's only the first step.
しかし、それは最初の一歩に過ぎません。
-
Soon, another developmental milestone will be hit,
すぐに、別の発達 マイルストーンを打つことになります。
-
and children begin to communicate in sentences.
と子供たちが始まる を使って、文章で伝えることができます。
-
So instead of saying this is a cat in the picture,
と言う代わりに これは写真に写っている猫です。
-
you already heard the little girl telling us this is a cat lying on a bed.
お嬢様の声が聞こえてきましたね これはベッドに寝そべっている猫だと言っている。
-
So to teach a computer to see a picture and generate sentences,
だからコンピュータを教えるために を使って絵を見て文章を生成します。
-
the marriage between big data and machine learning algorithm
ビッグデータとの結婚 と機械学習アルゴリズム
-
has to take another step.
はもう一歩踏み出さなければならない。
-
Now, the computer has to learn from both pictures
今、コンピュータが学習しなければならないのは 両方の写真から
-
as well as natural language sentences
自然言語の文章だけでなく
-
generated by humans.
人間が生成したものです。
-
Just like the brain integrates vision and language,
脳が統合するように 視覚と言語。
-
we developed a model that connects parts of visual things
モデルを開発しました。 繋ぎ目
-
like visual snippets
ビジュアルスニペットのような
-
with words and phrases in sentences.
文章の中に単語やフレーズを入れて
-
About four months ago,
4ヶ月ほど前に
-
we finally tied all this together
遂にこれで一件落着
-
and produced one of the first computer vision models
をプロデュースしています。 コンピュータビジョンモデル
-
that is capable of generating a human-like sentence
生成可能 にんげんぶん
-
when it sees a picture for the first time.
初めて絵を見たときに
-
Now, I'm ready to show you what the computer says
さて、私はあなたに見せる準備ができています。 コンピュータの言い分
-
when it sees the picture
絵に描いたように
-
that the little girl saw at the beginning of this talk.
乙女が見たもの この話の冒頭で
-
(Video) Computer: A man is standing next to an elephant.
ビデオ)パソコン。男が立っている ゾウの隣で
-
A large airplane sitting on top of an airport runway.
上に座っている大きな飛行機 空港の滑走路の
-
FFL: Of course, we're still working hard to improve our algorithms,
FFLです。もちろん、まだ頑張っています アルゴリズムを改善するために
-
and it still has a lot to learn.
そして、それはまだ学ぶべきことがたくさんあります。
-
(Applause)
(拍手)