字幕表 動画を再生する
Let me show you something.
見せたいものがある
(Video) Girl: Okay, that's a cat sitting in a bed.
(動画)少女。わかった、それは猫だ ベッドに座って
The boy is petting the elephant.
少年は象を撫でています。
Those are people that are going on an airplane.
それらは人々である 飛行機に乗っている
That's a big airplane.
大きな飛行機ですね。
Fei-Fei Li: This is a three-year-old child
李飛飛:これは 三歳児
describing what she sees in a series of photos.
見たことを語る を連写してみました。
She might still have a lot to learn about this world,
彼女はまだたくさん持っているかもしれない この世界を知るために。
but she's already an expert at one very important task:
でも、彼女はすでに専門家 一つの重要な仕事で
to make sense of what she sees.
彼女が見たものを理解するために
Our society is more technologically advanced than ever.
私たちの社会はもっと 技術的にはこれまで以上に進んでいます。
We send people to the moon, we make phones that talk to us
月に人を送る 喋る電話を作る
or customize radio stations that can play only music we like.
またはラジオ局をカスタマイズする 自分たちの好きな音楽だけを流すことができる
Yet, our most advanced machines and computers
しかし、私たちの最も先進的な きかいけいさんき
still struggle at this task.
今でもこの作業には苦戦しています。
So I'm here today to give you a progress report
だから今日はここに来たんだ 進捗報告をするために
on the latest advances in our research in computer vision,
最新の進歩について コンピュータビジョンの研究をしています。
one of the most frontier and potentially revolutionary
辺境の一角 革命的
technologies in computer science.
コンピュータサイエンスの技術を紹介します。
Yes, we have prototyped cars that can drive by themselves,
はい、試作車もあります 自分で運転できる
but without smart vision, they cannot really tell the difference
しかし、スマートビジョンがない。 区別がつかない
between a crumpled paper bag on the road, which can be run over,
くしゃくしゃになった紙袋の間 轢かれる可能性のある道路で。
and a rock that size, which should be avoided.
とその大きさの岩。 を避けるべきである。
We have made fabulous megapixel cameras,
私たちは、素晴らしいメガピクセルカメラを作りました。
but we have not delivered sight to the blind.
届けていない 目の不自由な人には目が見えない。
Drones can fly over massive land,
ドローンは広大な土地の上を飛ぶことができます。
but don't have enough vision technology
しかし、ビジョン技術が不足している
to help us to track the changes of the rainforests.
追跡を助けるために 熱帯雨林の変化
Security cameras are everywhere,
防犯カメラはどこにでもあります。
but they do not alert us when a child is drowning in a swimming pool.
しかし、子供がいるときには注意喚起はしてくれません。 はプールで溺れています。
Photos and videos are becoming an integral part of global life.
写真や動画が増えてきています。 グローバルな生活に欠かせないものとなっています。
They're being generated at a pace that's far beyond what any human,
ペースで生成されている それは人間の範疇をはるかに超えている。
or teams of humans, could hope to view,
または人間のチームが見ることを希望することができます。
and you and I are contributing to that at this TED.
あなたと私は貢献している このTEDでは、そのことに触れています。
Yet our most advanced software is still struggling at understanding
しかし、私たちの最も先進的なソフトウェア 理解に苦しむ
and managing this enormous content.
と、この膨大なコンテンツを管理しています。
So in other words, collectively as a society,
つまり、言い換えれば 社会としてまとめて
we're very much blind,
私たちは非常に盲目です。
because our smartest machines are still blind.
なぜなら、私たちの最も賢い 機械はまだ盲目です。
"Why is this so hard?" you may ask.
"何でそんなに難しいの?"と聞かれるかもしれません。
Cameras can take pictures like this one
カメラはこのような写真を撮ることができます
by converting lights into a two-dimensional array of numbers
ライトを 二次元数列
known as pixels,
ピクセルとして知られています。
but these are just lifeless numbers.
しかし、これらはただの命のない数字です。
They do not carry meaning in themselves.
それらはそれ自体に意味を持たない。
Just like to hear is not the same as to listen,
聞くのが好きなだけでは を聞くのと同じです。
to take pictures is not the same as to see,
写真を撮ることは を見るのと同じように
and by seeing, we really mean understanding.
と見ることで。 私たちは本当に理解しているということです。
In fact, it took Mother Nature 540 million years of hard work
実際には、それは母なる自然が 5億4千万年の苦労
to do this task,
を使って、この作業を行います。
and much of that effort
その努力の多くは
went into developing the visual processing apparatus of our brains,
ビジュアルの開発に 私たちの脳の処理装置。
not the eyes themselves.
目そのものではなく
So vision begins with the eyes,
視覚は目から始まるんですね。
but it truly takes place in the brain.
しかし、それは本当に脳の中で行われています。
So for 15 years now, starting from my Ph.D. at Caltech
だから15年前から カリフォルニア工科大学での博士号取得後
and then leading Stanford's Vision Lab,
そして、スタンフォードのビジョンラボを率いています。
I've been working with my mentors, collaborators and students
メンターと一緒に仕事をしてきました。 協力者と学生
to teach computers to see.
をコンピュータに教えることができます。
Our research field is called computer vision and machine learning.
私たちの研究分野は コンピュータビジョンと機械学習。
It's part of the general field of artificial intelligence.
一般的な分野の一部です 人工知能の
So ultimately, we want to teach the machines to see just like we do:
だから、最終的には、私たちが教えたいのは 私たちと同じように見るための機械
naming objects, identifying people, inferring 3D geometry of things,
物体に名前を付けたり、人を特定したり。 物事の3次元形状を推論する
understanding relations, emotions, actions and intentions.
関係性、感情を理解する 行動と意思。
You and I weave together entire stories of people, places and things
あなたと私はすべての物語を織り成す 人地物
the moment we lay our gaze on them.
視線を合わせた瞬間に
The first step towards this goal is to teach a computer to see objects,
この目標に向けての第一歩 は、コンピュータに物体を見ることを教えることです。
the building block of the visual world.
視覚世界のビルディングブロック。
In its simplest terms, imagine this teaching process
簡単に言うと この教え方を思い浮かべる
as showing the computers some training images
コンピュータを示すように トレーニングイメージ
of a particular object, let's say cats,
特定の対象物、例えば猫としましょう。
and designing a model that learns from these training images.
を学習するモデルを設計し これらのトレーニング画像から
How hard can this be?
どれだけ大変なことなんだ?
After all, a cat is just a collection of shapes and colors,
結局のところ、猫はただの 形と色のコレクション。
and this is what we did in the early days of object modeling.
これが私たちがしたこと オブジェクトモデリングの黎明期に
We'd tell the computer algorithm in a mathematical language
コンピュータアルゴリズムに 数学的言語で
that a cat has a round face, a chubby body,
猫が丸い顔をしていること ぽっちゃり体型。
two pointy ears, and a long tail,
尖った耳が2つ、長い尻尾が1つ。
and that looked all fine.
と、それは大丈夫そうに見えました。
But what about this cat?
でも、この猫はどうなんだろう?
(Laughter)
(笑)
It's all curled up.
丸くなっている。
Now you have to add another shape and viewpoint to the object model.
今度は別の形を追加する必要があります と視点をオブジェクトモデルに合わせて設定することができます。
But what if cats are hidden?
しかし、猫が隠れているとしたらどうでしょうか?
What about these silly cats?
こういうおバカな猫はどうなの?
Now you get my point.
これで私の言いたいことが分かったでしょう。
Even something as simple as a household pet
簡単なことでも 家のペットとして
can present an infinite number of variations to the object model,
限りない数を提示することができる オブジェクトモデルへのバリエーションの
and that's just one object.
と、それは一つの物体に過ぎない。
So about eight years ago,
だから8年くらい前に
a very simple and profound observation changed my thinking.
妙見 考え方が変わりました。
No one tells a child how to see,
誰も子供に見方を教えない。
especially in the early years.
特に初期の頃は。
They learn this through real-world experiences and examples.
を通して学んでいます。 実体験と実例を紹介します。
If you consider a child's eyes
子供の目を考えると
as a pair of biological cameras,
一対の生物学的カメラとして
they take one picture about every 200 milliseconds,
一枚撮り 約200ミリ秒ごとに
the average time an eye movement is made.
目の動きの平均時間。
So by age three, a child would have seen hundreds of millions of pictures
ということは、3歳までに子供は 百万枚の写真
of the real world.
現実世界の
That's a lot of training examples.
トレーニングの例が多いですね。
So instead of focusing solely on better and better algorithms,
だから、単独に焦点を当てるのではなく より良い、より良いアルゴリズムについて
my insight was to give the algorithms the kind of training data
私の見識では、アルゴリズムに しつけデータ
that a child was given through experiences
子供の頃の経験
in both quantity and quality.
量的にも質的にも。
Once we know this,
これがわかれば
we knew we needed to collect a data set
データセットを収集する必要があることはわかっていた
that has far more images than we have ever had before,
イメージがある 今まで以上に
perhaps thousands of times more,
おそらく数千倍にもなります。
and together with Professor Kai Li at Princeton University,
教授と一緒に プリンストン大学のカイ・リー。
we launched the ImageNet project in 2007.
2007年にImageNetプロジェクトを立ち上げました。
Luckily, we didn't have to mount a camera on our head
幸いなことに、マウントを取る必要はありませんでした。 頭の上のカメラ
and wait for many years.
と何年も待つ。
We went to the Internet,
インターネットに行ってきました。
the biggest treasure trove of pictures that humans have ever created.
絵の宝庫 人間がこれまでに作ったものの中で
We downloaded nearly a billion images
10億枚近くの画像をダウンロードしました
and used crowdsourcing technology like the Amazon Mechanical Turk platform
とクラウドソーシング技術を活用した Amazon Mechanical Turkプラットフォームのような
to help us to label these images.
これらの画像にラベルを貼るのに役立ちます。
At its peak, ImageNet was one of the biggest employers
最盛期には、ImageNetは 最大手
of the Amazon Mechanical Turk workers:
Amazon Mechanical Turkの労働者の
together, almost 50,000 workers
合わせて五万人近くの労働者
from 167 countries around the world
世界167カ国から
helped us to clean, sort and label
掃除、仕分け、ラベル貼りを手伝ってくれました。
nearly a billion candidate images.
10億枚近い候補画像
That was how much effort it took
それくらいの労力が必要だった
to capture even a fraction of the imagery
ひとかけらもとらない イメージの
a child's mind takes in in the early developmental years.
童心に返る 発達の初期段階で
In hindsight, this idea of using big data
後から考えると、このビッグデータ活用の考え方は
to train computer algorithms may seem obvious now,
アルゴリズムを訓練するために 今では当たり前のように思えるかもしれません。
but back in 2007, it was not so obvious.
しかし、2007年当時は、それほど目立ったことはありませんでした。
We were fairly alone on this journey for quite a while.
私たちはこの旅でかなり一人だった かなり前から
Some very friendly colleagues advised me to do something more useful for my tenure,
とても気さくな同僚がアドバイスしてくれました。 私の在職期間のためにもっと役に立つことをするために。
and we were constantly struggling for research funding.
苦労の連続でした 研究資金のために。
Once, I even joked to my graduate students
院生に冗談を言ったこともありました。
that I would just reopen my dry cleaner's shop to fund ImageNet.
開き直ると 私のクリーニング屋さんがイメージネットに資金を提供するために
After all, that's how I funded my college years.
結局のところ、それが私が資金を提供した方法です。 私の大学時代
So we carried on.
だから我々は続けた。
In 2009, the ImageNet project delivered
2009年、ImageNetプロジェクトは
a database of 15 million images
1500万枚の画像データベース
across 22,000 classes of objects and things
2万2千クラスに渡って ぶつぶつ
organized by everyday English words.
日常的な英単語で構成されています。
In both quantity and quality,
量的にも質的にも。
this was an unprecedented scale.
これは前代未聞の規模でした。
As an example, in the case of cats,
例として、猫の場合。
we have more than 62,000 cats
6万2千匹以上の猫を飼っています
of all kinds of looks and poses
いろんな顔とポーズをして
and across all species of domestic and wild cats.
とすべての種に渡って 家畜猫と野良猫の
We were thrilled to have put together ImageNet,
私たちは感激していました。 ImageNetをまとめたのは
and we wanted the whole research world to benefit from it,
そして、私たちは研究の世界全体を望んでいました。 の恩恵を受けることができます。
so in the TED fashion, we opened up the entire data set
そう、TEDのファッションで。 データセット全体をオープンにしました。
to the worldwide research community for free.
世界的に 研究コミュニティを無料で提供しています。
(Applause)
(拍手)
Now that we have the data to nourish our computer brain,
これでデータができました コンピュータ脳を養うために
we're ready to come back to the algorithms themselves.
戻ってきてもおかしくない アルゴリズム自体に
As it turned out, the wealth of information provided by ImageNet
結論から言うと、富は イメージネットが提供する情報のうち
was a perfect match to a particular class of machine learning algorithms
は特定のクラスにぴったりだった 機械学習アルゴリズムの
called convolutional neural network,
畳み込みニューラルネットワークと呼ばれる。
pioneered by Kunihiko Fukushima, Geoff Hinton, and Yann LeCun
福島邦彦が開拓した ジェフ・ヒントン、ヤン・ルクン
back in the 1970s and '80s.
1970年代から80年代に戻って
Just like the brain consists of billions of highly connected neurons,
脳が構成されているように 数十億個の高度に接続されたニューロンの
a basic operating unit in a neural network
きほんえんざんユニット
is a neuron-like node.
はニューロンのようなノードです。
It takes input from other nodes
他のノードからの入力を受けます。
and sends output to others.
と他の人に出力を送信します。
Moreover, these hundreds of thousands or even millions of nodes
さらに、これらの数十万 または数百万のノード
are organized in hierarchical layers,
は、階層的な層で構成されています。
also similar to the brain.
脳にも似ています。
In a typical neural network we use to train our object recognition model,
典型的なニューラルネットワークでは を用いて,物体認識モデルを学習します.
it has 24 million nodes,
それは2400万のノードを持っています。
140 million parameters,
1億4千万のパラメーター。
and 15 billion connections.
と150億人のつながりがあります。
That's an enormous model.
巨大なモデルですね。
Powered by the massive data from ImageNet
ImageNetの膨大なデータを活用
and the modern CPUs and GPUs to train such a humongous model,
と最近のCPUやGPU このような巨大なモデルを鍛えるために
the convolutional neural network
畳み込みニューラルネットワーク
blossomed in a way that no one expected.
誰も予想していなかった形で花を咲かせました。
It became the winning architecture
勝ち組建築になった
to generate exciting new results in object recognition.
刺激的な新しい成果を生み出すために 物体認識において。
This is a computer telling us
これはコンピューターが教えてくれる
this picture contains a cat
この写真には猫が写っている
and where the cat is.
と猫の居場所を教えてくれました。
Of course there are more things than cats,
もちろん猫以外のものもあります。
so here's a computer algorithm telling us
ここにコンピュータのアルゴリズムがある
the picture contains a boy and a teddy bear;
写っているのは 少年とテディベア
a dog, a person, and a small kite in the background;
犬人小凧 を背景にしています。
or a picture of very busy things
忙しそうな絵
like a man, a skateboard, railings, a lampost, and so on.
男のように、スケボーのように 手すりやランプなど。
Sometimes, when the computer is not so confident about what it sees,
時々、パソコンが は、見ているものに自信が持てません。
we have taught it to be smart enough
頭がいいように教えてきた
to give us a safe answer instead of committing too much,
安心して答えられるように あまりにも多くのことをコミットするのではなく
just like we would do,
私たちがするように
but other times our computer algorithm is remarkable at telling us
しかし、他の時には我々のコンピュータアルゴリズム 語るに事欠きません
what exactly the objects are,
オブジェクトが正確に何であるかを知ることができます。
like the make, model, year of the cars.
車のメーカー、モデル、年式のように。
We applied this algorithm to millions of Google Street View images
このアルゴリズムを何百万もの Googleストリートビュー画像の
across hundreds of American cities,
アメリカの何百もの都市で
and we have learned something really interesting:
懲りた 本当に面白いです。
first, it confirmed our common wisdom
先ずは常識の確認
that car prices correlate very well
車の価格は非常によく相関している
with household incomes.
世帯収入で
But surprisingly, car prices also correlate well
しかし、意外と車の値段 縁が深い
with crime rates in cities,
都市の犯罪率と
or voting patterns by zip codes.
または郵便番号別の投票パターン
So wait a minute. Is that it?
ちょっと待ってこれでいいのか?
Has the computer already matched or even surpassed human capabilities?
コンピュータはすでに一致しています 人間の能力を超えているのか?
Not so fast.
そんなに早くない
So far, we have just taught the computer to see objects.
今のところ、教えたのは コンピュータで物体を見ることができます。
This is like a small child learning to utter a few nouns.
これは小さな子供のようなもの 珍しくも何とも言えない
It's an incredible accomplishment,
信じられないほどの快挙です。
but it's only the first step.
しかし、それは最初の一歩に過ぎません。
Soon, another developmental milestone will be hit,
すぐに、別の発達 マイルストーンを打つことになります。
and children begin to communicate in sentences.
と子供たちが始まる を使って、文章で伝えることができます。
So instead of saying this is a cat in the picture,
と言う代わりに これは写真に写っている猫です。
you already heard the little girl telling us this is a cat lying on a bed.
お嬢様の声が聞こえてきましたね これはベッドに寝そべっている猫だと言っている。
So to teach a computer to see a picture and generate sentences,
だからコンピュータを教えるために を使って絵を見て文章を生成します。
the marriage between big data and machine learning algorithm
ビッグデータとの結婚 と機械学習アルゴリズム
has to take another step.
はもう一歩踏み出さなければならない。
Now, the computer has to learn from both pictures
今、コンピュータが学習しなければならないのは 両方の写真から
as well as natural language sentences
自然言語の文章だけでなく
generated by humans.
人間が生成したものです。
Just like the brain integrates vision and language,
脳が統合するように 視覚と言語。
we developed a model that connects parts of visual things
モデルを開発しました。 繋ぎ目
like visual snippets
ビジュアルスニペットのような
with words and phrases in sentences.
文章の中に単語やフレーズを入れて
About four months ago,
4ヶ月ほど前に
we finally tied all this together
遂にこれで一件落着
and produced one of the first computer vision models
をプロデュースしています。 コンピュータビジョンモデル
that is capable of generating a human-like sentence
生成可能 にんげんぶん
when it sees a picture for the first time.
初めて絵を見たときに
Now, I'm ready to show you what the computer says
さて、私はあなたに見せる準備ができています。 コンピュータの言い分
when it sees the picture
絵に描いたように
that the little girl saw at the beginning of this talk.
乙女が見たもの この話の冒頭で
(Video) Computer: A man is standing next to an elephant.
ビデオ)パソコン。男が立っている ゾウの隣で
A large airplane sitting on top of an airport runway.
上に座っている大きな飛行機 空港の滑走路の
FFL: Of course, we're still working hard to improve our algorithms,
FFLです。もちろん、まだ頑張っています アルゴリズムを改善するために
and it still has a lot to learn.
そして、それはまだ学ぶべきことがたくさんあります。
(Applause)
(拍手)
And the computer still makes mistakes.
そして、コンピュータはまだミスをしている。
(Video) Computer: A cat lying on a bed in a blanket.
動画)パソコン。猫が横たわっている 毛布に包まれたベッドの上で
FFL: So of course, when it sees too many cats,
FFLです。もちろん、それを見たら 猫が多すぎる
it thinks everything might look like a cat.
何もかもがそうだと思っている は猫に似ているかもしれません。
(Video) Computer: A young boy is holding a baseball bat.
ビデオ)パソコン。少年 は野球のバットを持っています。
(Laughter)
(笑)
FFL: Or, if it hasn't seen a toothbrush, it confuses it with a baseball bat.
FFLです。歯ブラシを見たことがなければ 野球のバットと混同してしまう
(Video) Computer: A man riding a horse down a street next to a building.
ビデオ)コンピュータ。馬に乗る男 ビルの隣の道を下って
(Laughter)
(笑)
FFL: We haven't taught Art 101 to the computers.
FFLだアート101を教えていない をコンピュータに送信します。
(Video) Computer: A zebra standing in a field of grass.
ビデオ)コンピュータ。シマウマが立っている 草むらの中で
FFL: And it hasn't learned to appreciate the stunning beauty of nature
FFLだそして、それは感謝することを学んでいない 自然美
like you and I do.
あなたと私のように
So it has been a long journey.
ということで、長旅になってしまいました。
To get from age zero to three was hard.
0歳から3歳になるまでが大変でした。
The real challenge is to go from three to 13 and far beyond.
本当の課題は 3歳から13歳まで、そして遥か彼方まで。
Let me remind you with this picture of the boy and the cake again.
この写真を見て思い出してください またもや少年とケーキの
So far, we have taught the computer to see objects
これまでに教えてきたのは めがね
or even tell us a simple story when seeing a picture.
とか簡単な話をしてくれる 写真を見るときに
(Video) Computer: A person sitting at a table with a cake.
ビデオ)コンピュータ。座っている人 ケーキのあるテーブルで
FFL: But there's so much more to this picture
FFLです。しかし、それだけではありません この絵に
than just a person and a cake.
人とケーキよりも
What the computer doesn't see is that this is a special Italian cake
コンピュータには見えないもの というのは、これはイタリアの特別なケーキだということです。
that's only served during Easter time.
それはイースターの時にしか出されない
The boy is wearing his favorite t-shirt
少年はお気に入りのTシャツを着ています
given to him as a gift by his father after a trip to Sydney,
おとうさんからのおくりもの シドニー旅行を終えて
and you and I can all tell how happy he is
あなたも私も彼がどれだけ幸せかわかる
and what's exactly on his mind at that moment.
そして彼の心の中にあるものは その瞬間に
This is my son Leo.
息子のレオです。
On my quest for visual intelligence,
視覚的な知性を求めて
I think of Leo constantly
いつもレオのことを考えている
and the future world he will live in.
と、彼が生きていく未来の世界。
When machines can see,
機械が見えるようになったら
doctors and nurses will have extra pairs of tireless eyes
医師や看護師は 替え玉の目
to help them to diagnose and take care of patients.
を診断するのに役立ちます。 と患者さんのお世話をしています。
Cars will run smarter and safer on the road.
車はよりスマートに走る と、道路上での安全性を高めています。
Robots, not just humans,
人間だけじゃなくてロボットも
will help us to brave the disaster zones to save the trapped and wounded.
被災地を乗り切るために 窮地に陥った負傷者を救うために
We will discover new species, better materials,
新種を発見します。 より良い材料。
and explore unseen frontiers with the help of the machines.
未知のフロンティアを開拓する 機械の力を借りて
Little by little, we're giving sight to the machines.
少しずつではありますが、私たちは視力を与えています。 機械に
First, we teach them to see.
まず、見ることを教えます。
Then, they help us to see better.
そして、よく見えるようにしてくれます。
For the first time, human eyes won't be the only ones
初めて人間の目 だけではない
pondering and exploring our world.
私たちの世界を熟考し、探求しています。
We will not only use the machines for their intelligence,
機械を使うだけではなく 彼らの知性のために
we will also collaborate with them in ways that we cannot even imagine.
私たちはまた、彼らと協力していきます 私たちが想像もできないような方法で
This is my quest:
これは私の探求です。
to give computers visual intelligence
視覚的な知性を与える
and to create a better future for Leo and for the world.
より良い未来を創造するために レオと世界のために
Thank you.
ありがとうございます。
(Applause)
(拍手)