Placeholder Image

字幕表 動画を再生する

自動翻訳
  • Let me show you something.

    見せたいものがある

  • (Video) Girl: Okay, that's a cat sitting in a bed.

    (動画)少女。わかった、それは猫だ ベッドに座って

  • The boy is petting the elephant.

    少年は象を撫でています。

  • Those are people that are going on an airplane.

    それらは人々である 飛行機に乗っている

  • That's a big airplane.

    大きな飛行機ですね。

  • Fei-Fei Li: This is a three-year-old child

    李飛飛:これは 三歳児

  • describing what she sees in a series of photos.

    見たことを語る を連写してみました。

  • She might still have a lot to learn about this world,

    彼女はまだたくさん持っているかもしれない この世界を知るために。

  • but she's already an expert at one very important task:

    でも、彼女はすでに専門家 一つの重要な仕事で

  • to make sense of what she sees.

    彼女が見たものを理解するために

  • Our society is more technologically advanced than ever.

    私たちの社会はもっと 技術的にはこれまで以上に進んでいます。

  • We send people to the moon, we make phones that talk to us

    月に人を送る 喋る電話を作る

  • or customize radio stations that can play only music we like.

    またはラジオ局をカスタマイズする 自分たちの好きな音楽だけを流すことができる

  • Yet, our most advanced machines and computers

    しかし、私たちの最も先進的な きかいけいさんき

  • still struggle at this task.

    今でもこの作業には苦戦しています。

  • So I'm here today to give you a progress report

    だから今日はここに来たんだ 進捗報告をするために

  • on the latest advances in our research in computer vision,

    最新の進歩について コンピュータビジョンの研究をしています。

  • one of the most frontier and potentially revolutionary

    辺境の一角 革命的

  • technologies in computer science.

    コンピュータサイエンスの技術を紹介します。

  • Yes, we have prototyped cars that can drive by themselves,

    はい、試作車もあります 自分で運転できる

  • but without smart vision, they cannot really tell the difference

    しかし、スマートビジョンがない。 区別がつかない

  • between a crumpled paper bag on the road, which can be run over,

    くしゃくしゃになった紙袋の間 轢かれる可能性のある道路で。

  • and a rock that size, which should be avoided.

    とその大きさの岩。 を避けるべきである。

  • We have made fabulous megapixel cameras,

    私たちは、素晴らしいメガピクセルカメラを作りました。

  • but we have not delivered sight to the blind.

    届けていない 目の不自由な人には目が見えない。

  • Drones can fly over massive land,

    ドローンは広大な土地の上を飛ぶことができます。

  • but don't have enough vision technology

    しかし、ビジョン技術が不足している

  • to help us to track the changes of the rainforests.

    追跡を助けるために 熱帯雨林の変化

  • Security cameras are everywhere,

    防犯カメラはどこにでもあります。

  • but they do not alert us when a child is drowning in a swimming pool.

    しかし、子供がいるときには注意喚起はしてくれません。 はプールで溺れています。

  • Photos and videos are becoming an integral part of global life.

    写真や動画が増えてきています。 グローバルな生活に欠かせないものとなっています。

  • They're being generated at a pace that's far beyond what any human,

    ペースで生成されている それは人間の範疇をはるかに超えている。

  • or teams of humans, could hope to view,

    または人間のチームが見ることを希望することができます。

  • and you and I are contributing to that at this TED.

    あなたと私は貢献している このTEDでは、そのことに触れています。

  • Yet our most advanced software is still struggling at understanding

    しかし、私たちの最も先進的なソフトウェア 理解に苦しむ

  • and managing this enormous content.

    と、この膨大なコンテンツを管理しています。

  • So in other words, collectively as a society,

    つまり、言い換えれば 社会としてまとめて

  • we're very much blind,

    私たちは非常に盲目です。

  • because our smartest machines are still blind.

    なぜなら、私たちの最も賢い 機械はまだ盲目です。

  • "Why is this so hard?" you may ask.

    "何でそんなに難しいの?"と聞かれるかもしれません。

  • Cameras can take pictures like this one

    カメラはこのような写真を撮ることができます

  • by converting lights into a two-dimensional array of numbers

    ライトを 二次元数列

  • known as pixels,

    ピクセルとして知られています。

  • but these are just lifeless numbers.

    しかし、これらはただの命のない数字です。

  • They do not carry meaning in themselves.

    それらはそれ自体に意味を持たない。

  • Just like to hear is not the same as to listen,

    聞くのが好きなだけでは を聞くのと同じです。

  • to take pictures is not the same as to see,

    写真を撮ることは を見るのと同じように

  • and by seeing, we really mean understanding.

    と見ることで。 私たちは本当に理解しているということです。

  • In fact, it took Mother Nature 540 million years of hard work

    実際には、それは母なる自然が 5億4千万年の苦労

  • to do this task,

    を使って、この作業を行います。

  • and much of that effort

    その努力の多くは

  • went into developing the visual processing apparatus of our brains,

    ビジュアルの開発に 私たちの脳の処理装置。

  • not the eyes themselves.

    目そのものではなく

  • So vision begins with the eyes,

    視覚は目から始まるんですね。

  • but it truly takes place in the brain.

    しかし、それは本当に脳の中で行われています。

  • So for 15 years now, starting from my Ph.D. at Caltech

    だから15年前から カリフォルニア工科大学での博士号取得後

  • and then leading Stanford's Vision Lab,

    そして、スタンフォードのビジョンラボを率いています。

  • I've been working with my mentors, collaborators and students

    メンターと一緒に仕事をしてきました。 協力者と学生

  • to teach computers to see.

    をコンピュータに教えることができます。

  • Our research field is called computer vision and machine learning.

    私たちの研究分野は コンピュータビジョンと機械学習。

  • It's part of the general field of artificial intelligence.

    一般的な分野の一部です 人工知能の

  • So ultimately, we want to teach the machines to see just like we do:

    だから、最終的には、私たちが教えたいのは 私たちと同じように見るための機械

  • naming objects, identifying people, inferring 3D geometry of things,

    物体に名前を付けたり、人を特定したり。 物事の3次元形状を推論する

  • understanding relations, emotions, actions and intentions.

    関係性、感情を理解する 行動と意思。

  • You and I weave together entire stories of people, places and things

    あなたと私はすべての物語を織り成す 人地物

  • the moment we lay our gaze on them.

    視線を合わせた瞬間に

  • The first step towards this goal is to teach a computer to see objects,

    この目標に向けての第一歩 は、コンピュータに物体を見ることを教えることです。

  • the building block of the visual world.

    視覚世界のビルディングブロック。

  • In its simplest terms, imagine this teaching process

    簡単に言うと この教え方を思い浮かべる

  • as showing the computers some training images

    コンピュータを示すように トレーニングイメージ

  • of a particular object, let's say cats,

    特定の対象物、例えば猫としましょう。

  • and designing a model that learns from these training images.

    を学習するモデルを設計し これらのトレーニング画像から

  • How hard can this be?

    どれだけ大変なことなんだ?

  • After all, a cat is just a collection of shapes and colors,

    結局のところ、猫はただの 形と色のコレクション。

  • and this is what we did in the early days of object modeling.

    これが私たちがしたこと オブジェクトモデリングの黎明期に

  • We'd tell the computer algorithm in a mathematical language

    コンピュータアルゴリズムに 数学的言語で

  • that a cat has a round face, a chubby body,

    猫が丸い顔をしていること ぽっちゃり体型。

  • two pointy ears, and a long tail,

    尖った耳が2つ、長い尻尾が1つ。

  • and that looked all fine.

    と、それは大丈夫そうに見えました。

  • But what about this cat?

    でも、この猫はどうなんだろう?

  • (Laughter)

    (笑)

  • It's all curled up.

    丸くなっている。

  • Now you have to add another shape and viewpoint to the object model.

    今度は別の形を追加する必要があります と視点をオブジェクトモデルに合わせて設定することができます。

  • But what if cats are hidden?

    しかし、猫が隠れているとしたらどうでしょうか?

  • What about these silly cats?

    こういうおバカな猫はどうなの?

  • Now you get my point.

    これで私の言いたいことが分かったでしょう。

  • Even something as simple as a household pet

    簡単なことでも 家のペットとして

  • can present an infinite number of variations to the object model,

    限りない数を提示することができる オブジェクトモデルへのバリエーションの

  • and that's just one object.

    と、それは一つの物体に過ぎない。

  • So about eight years ago,

    だから8年くらい前に

  • a very simple and profound observation changed my thinking.

    妙見 考え方が変わりました。

  • No one tells a child how to see,

    誰も子供に見方を教えない。

  • especially in the early years.

    特に初期の頃は。

  • They learn this through real-world experiences and examples.

    を通して学んでいます。 実体験と実例を紹介します。

  • If you consider a child's eyes

    子供の目を考えると

  • as a pair of biological cameras,

    一対の生物学的カメラとして

  • they take one picture about every 200 milliseconds,

    一枚撮り 約200ミリ秒ごとに

  • the average time an eye movement is made.

    目の動きの平均時間。

  • So by age three, a child would have seen hundreds of millions of pictures

    ということは、3歳までに子供は 百万枚の写真

  • of the real world.

    現実世界の

  • That's a lot of training examples.

    トレーニングの例が多いですね。

  • So instead of focusing solely on better and better algorithms,

    だから、単独に焦点を当てるのではなく より良い、より良いアルゴリズムについて

  • my insight was to give the algorithms the kind of training data

    私の見識では、アルゴリズムに しつけデータ

  • that a child was given through experiences

    子供の頃の経験

  • in both quantity and quality.

    量的にも質的にも。

  • Once we know this,

    これがわかれば

  • we knew we needed to collect a data set

    データセットを収集する必要があることはわかっていた

  • that has far more images than we have ever had before,

    イメージがある 今まで以上に

  • perhaps thousands of times more,

    おそらく数千倍にもなります。

  • and together with Professor Kai Li at Princeton University,

    教授と一緒に プリンストン大学のカイ・リー。

  • we launched the ImageNet project in 2007.

    2007年にImageNetプロジェクトを立ち上げました。

  • Luckily, we didn't have to mount a camera on our head

    幸いなことに、マウントを取る必要はありませんでした。 頭の上のカメラ

  • and wait for many years.

    と何年も待つ。

  • We went to the Internet,

    インターネットに行ってきました。

  • the biggest treasure trove of pictures that humans have ever created.

    絵の宝庫 人間がこれまでに作ったものの中で

  • We downloaded nearly a billion images

    10億枚近くの画像をダウンロードしました

  • and used crowdsourcing technology like the Amazon Mechanical Turk platform

    とクラウドソーシング技術を活用した Amazon Mechanical Turkプラットフォームのような

  • to help us to label these images.

    これらの画像にラベルを貼るのに役立ちます。

  • At its peak, ImageNet was one of the biggest employers

    最盛期には、ImageNetは 最大手

  • of the Amazon Mechanical Turk workers:

    Amazon Mechanical Turkの労働者の

  • together, almost 50,000 workers

    合わせて五万人近くの労働者

  • from 167 countries around the world

    世界167カ国から

  • helped us to clean, sort and label

    掃除、仕分け、ラベル貼りを手伝ってくれました。

  • nearly a billion candidate images.

    10億枚近い候補画像

  • That was how much effort it took

    それくらいの労力が必要だった

  • to capture even a fraction of the imagery

    ひとかけらもとらない イメージの

  • a child's mind takes in in the early developmental years.

    童心に返る 発達の初期段階で

  • In hindsight, this idea of using big data

    後から考えると、このビッグデータ活用の考え方は

  • to train computer algorithms may seem obvious now,

    アルゴリズムを訓練するために 今では当たり前のように思えるかもしれません。

  • but back in 2007, it was not so obvious.

    しかし、2007年当時は、それほど目立ったことはありませんでした。

  • We were fairly alone on this journey for quite a while.

    私たちはこの旅でかなり一人だった かなり前から

  • Some very friendly colleagues advised me to do something more useful for my tenure,

    とても気さくな同僚がアドバイスしてくれました。 私の在職期間のためにもっと役に立つことをするために。

  • and we were constantly struggling for research funding.

    苦労の連続でした 研究資金のために。

  • Once, I even joked to my graduate students

    院生に冗談を言ったこともありました。

  • that I would just reopen my dry cleaner's shop to fund ImageNet.

    開き直ると 私のクリーニング屋さんがイメージネットに資金を提供するために

  • After all, that's how I funded my college years.

    結局のところ、それが私が資金を提供した方法です。 私の大学時代

  • So we carried on.

    だから我々は続けた。

  • In 2009, the ImageNet project delivered

    2009年、ImageNetプロジェクトは

  • a database of 15 million images

    1500万枚の画像データベース

  • across 22,000 classes of objects and things

    2万2千クラスに渡って ぶつぶつ

  • organized by everyday English words.

    日常的な英単語で構成されています。

  • In both quantity and quality,

    量的にも質的にも。

  • this was an unprecedented scale.

    これは前代未聞の規模でした。

  • As an example, in the case of cats,

    例として、猫の場合。

  • we have more than 62,000 cats

    6万2千匹以上の猫を飼っています

  • of all kinds of looks and poses

    いろんな顔とポーズをして

  • and across all species of domestic and wild cats.

    とすべての種に渡って 家畜猫と野良猫の

  • We were thrilled to have put together ImageNet,

    私たちは感激していました。 ImageNetをまとめたのは

  • and we wanted the whole research world to benefit from it,

    そして、私たちは研究の世界全体を望んでいました。 の恩恵を受けることができます。

  • so in the TED fashion, we opened up the entire data set

    そう、TEDのファッションで。 データセット全体をオープンにしました。

  • to the worldwide research community for free.

    世界的に 研究コミュニティを無料で提供しています。

  • (Applause)

    (拍手)

  • Now that we have the data to nourish our computer brain,

    これでデータができました コンピュータ脳を養うために

  • we're ready to come back to the algorithms themselves.

    戻ってきてもおかしくない アルゴリズム自体に

  • As it turned out, the wealth of information provided by ImageNet

    結論から言うと、富は イメージネットが提供する情報のうち

  • was a perfect match to a particular class of machine learning algorithms

    は特定のクラスにぴったりだった 機械学習アルゴリズムの

  • called convolutional neural network,

    畳み込みニューラルネットワークと呼ばれる。

  • pioneered by Kunihiko Fukushima, Geoff Hinton, and Yann LeCun

    福島邦彦が開拓した ジェフ・ヒントン、ヤン・ルクン

  • back in the 1970s and '80s.

    1970年代から80年代に戻って

  • Just like the brain consists of billions of highly connected neurons,

    脳が構成されているように 数十億個の高度に接続されたニューロンの

  • a basic operating unit in a neural network

    きほんえんざんユニット

  • is a neuron-like node.

    はニューロンのようなノードです。

  • It takes input from other nodes

    他のノードからの入力を受けます。

  • and sends output to others.

    と他の人に出力を送信します。

  • Moreover, these hundreds of thousands or even millions of nodes

    さらに、これらの数十万 または数百万のノード

  • are organized in hierarchical layers,

    は、階層的な層で構成されています。

  • also similar to the brain.

    脳にも似ています。

  • In a typical neural network we use to train our object recognition model,

    典型的なニューラルネットワークでは を用いて,物体認識モデルを学習します.

  • it has 24 million nodes,

    それは2400万のノードを持っています。

  • 140 million parameters,

    1億4千万のパラメーター。

  • and 15 billion connections.

    と150億人のつながりがあります。

  • That's an enormous model.

    巨大なモデルですね。

  • Powered by the massive data from ImageNet

    ImageNetの膨大なデータを活用

  • and the modern CPUs and GPUs to train such a humongous model,

    と最近のCPUやGPU このような巨大なモデルを鍛えるために

  • the convolutional neural network

    畳み込みニューラルネットワーク

  • blossomed in a way that no one expected.

    誰も予想していなかった形で花を咲かせました。

  • It became the winning architecture

    勝ち組建築になった

  • to generate exciting new results in object recognition.

    刺激的な新しい成果を生み出すために 物体認識において。

  • This is a computer telling us

    これはコンピューターが教えてくれる

  • this picture contains a cat

    この写真には猫が写っている

  • and where the cat is.

    と猫の居場所を教えてくれました。

  • Of course there are more things than cats,

    もちろん猫以外のものもあります。

  • so here's a computer algorithm telling us

    ここにコンピュータのアルゴリズムがある

  • the picture contains a boy and a teddy bear;

    写っているのは 少年とテディベア

  • a dog, a person, and a small kite in the background;

    犬人小凧 を背景にしています。

  • or a picture of very busy things

    忙しそうな絵

  • like a man, a skateboard, railings, a lampost, and so on.

    男のように、スケボーのように 手すりやランプなど。

  • Sometimes, when the computer is not so confident about what it sees,

    時々、パソコンが は、見ているものに自信が持てません。

  • we have taught it to be smart enough

    頭がいいように教えてきた

  • to give us a safe answer instead of committing too much,

    安心して答えられるように あまりにも多くのことをコミットするのではなく

  • just like we would do,

    私たちがするように

  • but other times our computer algorithm is remarkable at telling us

    しかし、他の時には我々のコンピュータアルゴリズム 語るに事欠きません

  • what exactly the objects are,

    オブジェクトが正確に何であるかを知ることができます。

  • like the make, model, year of the cars.

    車のメーカー、モデル、年式のように。

  • We applied this algorithm to millions of Google Street View images

    このアルゴリズムを何百万もの Googleストリートビュー画像の

  • across hundreds of American cities,

    アメリカの何百もの都市で

  • and we have learned something really interesting:

    懲りた 本当に面白いです。

  • first, it confirmed our common wisdom

    先ずは常識の確認

  • that car prices correlate very well

    車の価格は非常によく相関している

  • with household incomes.

    世帯収入で

  • But surprisingly, car prices also correlate well

    しかし、意外と車の値段 縁が深い

  • with crime rates in cities,

    都市の犯罪率と

  • or voting patterns by zip codes.

    または郵便番号別の投票パターン

  • So wait a minute. Is that it?

    ちょっと待ってこれでいいのか?

  • Has the computer already matched or even surpassed human capabilities?

    コンピュータはすでに一致しています 人間の能力を超えているのか?

  • Not so fast.

    そんなに早くない

  • So far, we have just taught the computer to see objects.

    今のところ、教えたのは コンピュータで物体を見ることができます。

  • This is like a small child learning to utter a few nouns.

    これは小さな子供のようなもの 珍しくも何とも言えない

  • It's an incredible accomplishment,

    信じられないほどの快挙です。

  • but it's only the first step.

    しかし、それは最初の一歩に過ぎません。

  • Soon, another developmental milestone will be hit,

    すぐに、別の発達 マイルストーンを打つことになります。

  • and children begin to communicate in sentences.

    と子供たちが始まる を使って、文章で伝えることができます。

  • So instead of saying this is a cat in the picture,

    と言う代わりに これは写真に写っている猫です。

  • you already heard the little girl telling us this is a cat lying on a bed.

    お嬢様の声が聞こえてきましたね これはベッドに寝そべっている猫だと言っている。

  • So to teach a computer to see a picture and generate sentences,

    だからコンピュータを教えるために を使って絵を見て文章を生成します。

  • the marriage between big data and machine learning algorithm

    ビッグデータとの結婚 と機械学習アルゴリズム

  • has to take another step.

    はもう一歩踏み出さなければならない。

  • Now, the computer has to learn from both pictures

    今、コンピュータが学習しなければならないのは 両方の写真から

  • as well as natural language sentences

    自然言語の文章だけでなく

  • generated by humans.

    人間が生成したものです。

  • Just like the brain integrates vision and language,

    脳が統合するように 視覚と言語。

  • we developed a model that connects parts of visual things

    モデルを開発しました。 繋ぎ目

  • like visual snippets

    ビジュアルスニペットのような

  • with words and phrases in sentences.

    文章の中に単語やフレーズを入れて

  • About four months ago,

    4ヶ月ほど前に

  • we finally tied all this together

    遂にこれで一件落着

  • and produced one of the first computer vision models

    をプロデュースしています。 コンピュータビジョンモデル

  • that is capable of generating a human-like sentence

    生成可能 にんげんぶん

  • when it sees a picture for the first time.

    初めて絵を見たときに

  • Now, I'm ready to show you what the computer says

    さて、私はあなたに見せる準備ができています。 コンピュータの言い分

  • when it sees the picture

    絵に描いたように

  • that the little girl saw at the beginning of this talk.

    乙女が見たもの この話の冒頭で

  • (Video) Computer: A man is standing next to an elephant.

    ビデオ)パソコン。男が立っている ゾウの隣で

  • A large airplane sitting on top of an airport runway.

    上に座っている大きな飛行機 空港の滑走路の

  • FFL: Of course, we're still working hard to improve our algorithms,

    FFLです。もちろん、まだ頑張っています アルゴリズムを改善するために

  • and it still has a lot to learn.

    そして、それはまだ学ぶべきことがたくさんあります。

  • (Applause)

    (拍手)

  • And the computer still makes mistakes.

    そして、コンピュータはまだミスをしている。

  • (Video) Computer: A cat lying on a bed in a blanket.

    動画)パソコン。猫が横たわっている 毛布に包まれたベッドの上で

  • FFL: So of course, when it sees too many cats,

    FFLです。もちろん、それを見たら 猫が多すぎる

  • it thinks everything might look like a cat.

    何もかもがそうだと思っている は猫に似ているかもしれません。

  • (Video) Computer: A young boy is holding a baseball bat.

    ビデオ)パソコン。少年 は野球のバットを持っています。

  • (Laughter)

    (笑)

  • FFL: Or, if it hasn't seen a toothbrush, it confuses it with a baseball bat.

    FFLです。歯ブラシを見たことがなければ 野球のバットと混同してしまう