字幕表 動画を再生する
Let me show you something.
見せたいものがある
(Video) Girl: Okay, that's a cat sitting in a bed.
(動画)少女。わかった、それは猫だ ベッドに座って
The boy is petting the elephant.
少年は象を撫でています。
Those are people that are going on an airplane.
それらは人々である 飛行機に乗っている
That's a big airplane.
大きな飛行機ですね。
Fei-Fei Li: This is a three-year-old child
李飛飛:これは 三歳児
describing what she sees in a series of photos.
見たことを語る を連写してみました。
She might still have a lot to learn about this world,
彼女はまだたくさん持っているかもしれない この世界を知るために。
but she's already an expert at one very important task:
でも、彼女はすでに専門家 一つの重要な仕事で
to make sense of what she sees.
彼女が見たものを理解するために
Our society is more technologically advanced than ever.
私たちの社会はもっと 技術的にはこれまで以上に進んでいます。
We send people to the moon, we make phones that talk to us
月に人を送る 喋る電話を作る
or customize radio stations that can play only music we like.
またはラジオ局をカスタマイズする 自分たちの好きな音楽だけを流すことができる
Yet, our most advanced machines and computers
しかし、私たちの最も先進的な きかいけいさんき
still struggle at this task.
今でもこの作業には苦戦しています。
So I'm here today to give you a progress report
だから今日はここに来たんだ 進捗報告をするために
on the latest advances in our research in computer vision,
最新の進歩について コンピュータビジョンの研究をしています。
one of the most frontier and potentially revolutionary
辺境の一角 革命的
technologies in computer science.
コンピュータサイエンスの技術を紹介します。
Yes, we have prototyped cars that can drive by themselves,
はい、試作車もあります 自分で運転できる
but without smart vision, they cannot really tell the difference
しかし、スマートビジョンがない。 区別がつかない
between a crumpled paper bag on the road, which can be run over,
くしゃくしゃになった紙袋の間 轢かれる可能性のある道路で。
and a rock that size, which should be avoided.
とその大きさの岩。 を避けるべきである。
We have made fabulous megapixel cameras,
私たちは、素晴らしいメガピクセルカメラを作りました。
but we have not delivered sight to the blind.
届けていない 目の不自由な人には目が見えない。
Drones can fly over massive land,
ドローンは広大な土地の上を飛ぶことができます。
but don't have enough vision technology
しかし、ビジョン技術が不足している
to help us to track the changes of the rainforests.
追跡を助けるために 熱帯雨林の変化
Security cameras are everywhere,
防犯カメラはどこにでもあります。
but they do not alert us when a child is drowning in a swimming pool.
しかし、子供がいるときには注意喚起はしてくれません。 はプールで溺れています。
Photos and videos are becoming an integral part of global life.
写真や動画が増えてきています。 グローバルな生活に欠かせないものとなっています。
They're being generated at a pace that's far beyond what any human,
ペースで生成されている それは人間の範疇をはるかに超えている。
or teams of humans, could hope to view,
または人間のチームが見ることを希望することができます。
and you and I are contributing to that at this TED.
あなたと私は貢献している このTEDでは、そのことに触れています。
Yet our most advanced software is still struggling at understanding
しかし、私たちの最も先進的なソフトウェア 理解に苦しむ
and managing this enormous content.
と、この膨大なコンテンツを管理しています。
So in other words, collectively as a society,
つまり、言い換えれば 社会としてまとめて
we're very much blind,
私たちは非常に盲目です。
because our smartest machines are still blind.
なぜなら、私たちの最も賢い 機械はまだ盲目です。
"Why is this so hard?" you may ask.
"何でそんなに難しいの?"と聞かれるかもしれません。
Cameras can take pictures like this one
カメラはこのような写真を撮ることができます
by converting lights into a two-dimensional array of numbers
ライトを 二次元数列
known as pixels,
ピクセルとして知られています。
but these are just lifeless numbers.
しかし、これらはただの命のない数字です。
They do not carry meaning in themselves.
それらはそれ自体に意味を持たない。
Just like to hear is not the same as to listen,
聞くのが好きなだけでは を聞くのと同じです。
to take pictures is not the same as to see,
写真を撮ることは を見るのと同じように
and by seeing, we really mean understanding.
と見ることで。 私たちは本当に理解しているということです。
In fact, it took Mother Nature 540 million years of hard work
実際には、それは母なる自然が 5億4千万年の苦労
to do this task,
を使って、この作業を行います。
and much of that effort
その努力の多くは
went into developing the visual processing apparatus of our brains,
ビジュアルの開発に 私たちの脳の処理装置。
not the eyes themselves.
目そのものではなく
So vision begins with the eyes,
視覚は目から始まるんですね。
but it truly takes place in the brain.
しかし、それは本当に脳の中で行われています。
So for 15 years now, starting from my Ph.D. at Caltech
だから15年前から カリフォルニア工科大学での博士号取得後
and then leading Stanford's Vision Lab,
そして、スタンフォードのビジョンラボを率いています。
I've been working with my mentors, collaborators and students
メンターと一緒に仕事をしてきました。 協力者と学生
to teach computers to see.
をコンピュータに教えることができます。
Our research field is called computer vision and machine learning.
私たちの研究分野は コンピュータビジョンと機械学習。
It's part of the general field of artificial intelligence.
一般的な分野の一部です 人工知能の
So ultimately, we want to teach the machines to see just like we do:
だから、最終的には、私たちが教えたいのは 私たちと同じように見るための機械
naming objects, identifying people, inferring 3D geometry of things,
物体に名前を付けたり、人を特定したり。 物事の3次元形状を推論する
understanding relations, emotions, actions and intentions.
関係性、感情を理解する 行動と意思。
You and I weave together entire stories of people, places and things
あなたと私はすべての物語を織り成す 人地物
the moment we lay our gaze on them.
視線を合わせた瞬間に
The first step towards this goal is to teach a computer to see objects,
この目標に向けての第一歩 は、コンピュータに物体を見ることを教えることです。
the building block of the visual world.
視覚世界のビルディングブロック。
In its simplest terms, imagine this teaching process
簡単に言うと この教え方を思い浮かべる
as showing the computers some training images
コンピュータを示すように トレーニングイメージ
of a particular object, let's say cats,
特定の対象物、例えば猫としましょう。
and designing a model that learns from these training images.
を学習するモデルを設計し これらのトレーニング画像から
How hard can this be?
どれだけ大変なことなんだ?
After all, a cat is just a collection of shapes and colors,
結局のところ、猫はただの 形と色のコレクション。
and this is what we did in the early days of object modeling.
これが私たちがしたこと オブジェクトモデリングの黎明期に
We'd tell the computer algorithm in a mathematical language
コンピュータアルゴリズムに 数学的言語で
that a cat has a round face, a chubby body,
猫が丸い顔をしていること ぽっちゃり体型。
two pointy ears, and a long tail,
尖った耳が2つ、長い尻尾が1つ。
and that looked all fine.
と、それは大丈夫そうに見えました。
But what about this cat?
でも、この猫はどうなんだろう?
(Laughter)
(笑)
It's all curled up.
丸くなっている。
Now you have to add another shape and viewpoint to the object model.
今度は別の形を追加する必要があります と視点をオブジェクトモデルに合わせて設定することができます。
But what if cats are hidden?
しかし、猫が隠れているとしたらどうでしょうか?
What about these silly cats?
こういうおバカな猫はどうなの?
Now you get my point.
これで私の言いたいことが分かったでしょう。
Even something as simple as a household pet
簡単なことでも 家のペットとして
can present an infinite number of variations to the object model,
限りない数を提示することができる オブジェクトモデルへのバリエーションの
and that's just one object.
と、それは一つの物体に過ぎない。
So about eight years ago,
だから8年くらい前に
a very simple and profound observation changed my thinking.
妙見 考え方が変わりました。
No one tells a child how to see,
誰も子供に見方を教えない。
especially in the early years.
特に初期の頃は。
They learn this through real-world experiences and examples.
を通して学んでいます。 実体験と実例を紹介します。
If you consider a child's eyes
子供の目を考えると
as a pair of biological cameras,
一対の生物学的カメラとして
they take one picture about every 200 milliseconds,
一枚撮り 約200ミリ秒ごとに
the average time an eye movement is made.
目の動きの平均時間。
So by age three, a child would have seen hundreds of millions of pictures
ということは、3歳までに子供は 百万枚の写真
of the real world.
現実世界の
That's a lot of training examples.
トレーニングの例が多いですね。
So instead of focusing solely on better and better algorithms,
だから、単独に焦点を当てるのではなく より良い、より良いアルゴリズムについて
my insight was to give the algorithms the kind of training data
私の見識では、アルゴリズムに しつけデータ
that a child was given through experiences
子供の頃の経験
in both quantity and quality.
量的にも質的にも。
Once we know this,
これがわかれば
we knew we needed to collect a data set
データセットを収集する必要があることはわかっていた
that has far more images than we have ever had before,
イメージがある 今まで以上に
perhaps thousands of times more,
おそらく数千倍にもなります。
and together with Professor Kai Li at Princeton University,
教授と一緒に プリンストン大学のカイ・リー。
we launched the ImageNet project in 2007.
2007年にImageNetプロジェクトを立ち上げました。
Luckily, we didn't have to mount a camera on our head
幸いなことに、マウントを取る必要はありませんでした。 頭の上のカメラ
and wait for many years.
と何年も待つ。
We went to the Internet,
インターネットに行ってきました。
the biggest treasure trove of pictures that humans have ever created.
絵の宝庫 人間がこれまでに作ったものの中で
We downloaded nearly a billion images
10億枚近くの画像をダウンロードしました
and used crowdsourcing technology like the Amazon Mechanical Turk platform
とクラウドソーシング技術を活用した Amazon Mechanical Turkプラットフォームのような
to help us to label these images.
これらの画像にラベルを貼るのに役立ちます。
At its peak, ImageNet was one of the biggest employers
最盛期には、ImageNetは 最大手
of the Amazon Mechanical Turk workers:
Amazon Mechanical Turkの労働者の
together, almost 50,000 workers
合わせて五万人近くの労働者
from 167 countries around the world
世界167カ国から
helped us to clean, sort and label
掃除、仕分け、ラベル貼りを手伝ってくれました。
nearly a billion candidate images.
10億枚近い候補画像
That was how much effort it took
それくらいの労力が必要だった
to capture even a fraction of the imagery
ひとかけらもとらない イメージの
a child's mind takes in in the early developmental years.
童心に返る 発達の初期段階で
In hindsight, this idea of using big data
後から考えると、このビッグデータ活用の考え方は
to train computer algorithms may seem obvious now,
アルゴリズムを訓練するために 今では当たり前のように思えるかもしれません。
but back in 2007, it was not so obvious.
しかし、2007年当時は、それほど目立ったことはありませんでした。
We were fairly alone on this journey for quite a while.
私たちはこの旅でかなり一人だった かなり前から
Some very friendly colleagues advised me to do something more useful for my tenure,
とても気さくな同僚がアドバイスしてくれました。 私の在職期間のためにもっと役に立つことをするために。
and we were constantly struggling for research funding.
苦労の連続でした 研究資金のために。
Once, I even joked to my graduate students
院生に冗談を言ったこともありました。
that I would just reopen my dry cleaner's shop to fund ImageNet.
開き直ると 私のクリーニング屋さんがイメージネットに資金を提供するために
After all, that's how I funded my college years.
結局のところ、それが私が資金を提供した方法です。 私の大学時代
So we carried on.
だから我々は続けた。
In 2009, the ImageNet project delivered
2009年、ImageNetプロジェクトは
a database of 15 million images
1500万枚の画像データベース
across 22,000 classes of objects and things
2万2千クラスに渡って ぶつぶつ
organized by everyday English words.
日常的な英単語で構成されています。
In both quantity and quality,
量的にも質的にも。
this was an unprecedented scale.
これは前代未聞の規模でした。
As an example, in the case of cats,
例として、猫の場合。
we have more than 62,000 cats
6万2千匹以上の猫を飼っています
of all kinds of looks and poses
いろんな顔とポーズをして
and across all species of domestic and wild cats.
とすべての種に渡って 家畜猫と野良猫の
We were thrilled to have put together ImageNet,
私たちは感激していました。 ImageNetをまとめたのは
and we wanted the whole research world to benefit from it,
そして、私たちは研究の世界全体を望んでいました。 の恩恵を受けることができます。
so in the TED fashion, we opened up the entire data set
そう、TEDのファッションで。 データセット全体をオープンにしました。
to the worldwide research community for free.
世界的に 研究コミュニティを無料で提供しています。
(Applause)
(拍手)
Now that we have the data to nourish our computer brain,
これでデータができました コンピュータ脳を養うために
we're ready to come back to the algorithms themselves.
戻ってきてもおかしくない アルゴリズム自体に
As it turned out, the wealth of information provided by ImageNet
結論から言うと、富は イメージネットが提供する情報のうち
was a perfect match to a particular class of machine learning algorithms
は特定のクラスにぴったりだった 機械学習アルゴリズムの
called convolutional neural network,
畳み込みニューラルネットワークと呼ばれる。
pioneered by Kunihiko Fukushima, Geoff Hinton, and Yann LeCun
福島邦彦が開拓した ジェフ・ヒントン、ヤン・ルクン
back in the 1970s and '80s.
1970年代から80年代に戻って
Just like the brain consists of billions of highly connected neurons,
脳が構成されているように 数十億個の高度に接続されたニューロンの
a basic operating unit in a neural network
きほんえんざんユニット
is a neuron-like node.
はニューロンのようなノードです。
It takes input from other nodes
他のノードからの入力を受けます。
and sends output to others.
と他の人に出力を送信します。
Moreover, these hundreds of thousands or even millions of nodes
さらに、これらの数十万 または数百万のノード
are organized in hierarchical layers,
は、階層的な層で構成されています。
also similar to the brain.
脳にも似ています。
In a typical neural network we use to train our object recognition model,
典型的なニューラルネットワークでは を用いて,物体認識モデルを学習します.
it has 24 million nodes,
それは2400万のノードを持っています。