Placeholder Image

字幕表 動画を再生する

  • JOSH GORDON: Classifiers are only

    { 機械学習 }

  • as good as the features you provide.

    { 機械学習 } レシピ

  • That means coming up with good features

    分類器の質は供給する 特徴量の良さに依ります

  • is one of your most important jobs in machine learning.

    つまり良い特徴量を出すことが

  • But what makes a good feature, and how can you tell?

    機械学習で最も重要な仕事の1つです

  • If you're doing binary classification,

    ですが 何が良い特徴量になるのか 又どうやって分かるのでしょう

  • then a good feature makes it easy to decide

    二項分類をしている場合

  • between two different things.

    良い特徴量では2つの異なるものを 決定するのが簡単です

  • For example, imagine we wanted to write a classifier

    例えば 2種の犬を区分けする

  • to tell the difference between two types of dogs--

    分類器を書きたいとします

  • greyhounds and Labradors.

    グレイハウンドとラブラドールに

  • Here we'll use two features-- the dog's height in inches

    ここで2つの特徴量を使います 犬のインチでの高さと

  • and their eye color.

    目の色です

  • Just for this toy example, let's make a couple assumptions

    この小例に対し 分かりやすいように

  • about dogs to keep things simple.

    少し仮定をしてみましょう

  • First, we'll say that greyhounds are usually

    まず グレイハウンドは普通

  • taller than Labradors.

    ラブラドールより背が高いとします

  • Next, we'll pretend that dogs have only two eye

    次に犬の目の色は2つだけで

  • colors-- blue and brown.

    青と茶とします

  • And we'll say the color of their eyes

    そしてその目の色は

  • doesn't depend on the breed of dog.

    犬種に依らないとします

  • This means that one of these features is useful

    つまりこれらの特徴量の1つは役立ち

  • and the other tells us nothing.

    もう1つは何も教えないということです

  • To understand why, we'll visualize them using a toy

    理由を理解する為に私が作る トイデータセットを使って

  • dataset I'll create.

    それらを可視化します

  • Let's begin with height.

    身長から始めましょう

  • How useful do you think this feature is?

    この特徴量はどれだけ役立つと思いますか

  • Well, on average, greyhounds tend

    平均ではグレイハウンドの身長は

  • to be a couple inches taller than Labradors, but not always.

    ラブラドールより数インチ 高い傾向がありますが

  • There's a lot of variation in the world.

    必ずしもそうじゃありません 世界には変異が沢山あります

  • So when we think of a feature, we

    ですから特徴量を考えるとき

  • have to consider how it looks for different values

    個体数の異なる値に対し どうかと考える必要があります

  • in a population.

    Python に行って プログラム例をみましょう

  • Let's head into Python for a programmatic example.

    犬の個体数 1000 を作ります

  • I'm creating a population of 1,000

    グレイハウンドとラブラドールを 半々にします

  • dogs-- 50-50 greyhound Labrador.

    それぞれに身長を与えます

  • I'll give each of them a height.

    この例で グレイハウンドの身長は 平均 28 インチで

  • For this example, we'll say that greyhounds

    ラブラドールは 24 インチです

  • are on average 28 inches tall and Labradors are 24.

    犬はみんな少し違っています

  • Now, all dogs are a bit different.

    身長が正規分布だとして

  • Let's say that height is normally distributed,

    ですから これらの両方を プラスマイナス4インチにしましょう

  • so we'll make both of these plus or minus 4 inches.

    これで数字の2つの配列になります

  • This will give us two arrays of numbers,

    それらをヒストグラムで 可視化できます

  • and we can visualize them in a histogram.

    パラメーターを付けて グレイハウンドは赤で

  • I'll add a parameter so greyhounds are in red

    ラブラドールは青にします

  • and Labradors are in blue.

    これでスクリプトを実行できます

  • Now we can run our script.

    これは個体数中で所定の身長の 犬は何匹いるかを示します

  • This shows how many dogs in our population have a given height.

    画面にはデータが沢山あるので

  • There's a lot of data on the screen,

    シンプルにして1つずつ見ていきましょう

  • so let's simplify it and look at it piece by piece.

    まず分布のずっと左から始めます

  • We'll start with dogs on the far left

    例えば約 20 インチの身長のものは?

  • of the distribution-- say, who are about 20 inches tall.

    皆さんに 犬を身長で ラブラドールかグレイハウンドか

  • Imagine I asked you to predict whether a dog with his height

    予測するよう求めたとすると

  • was a lab or a greyhound.

    どうしますか

  • What would you do?

    与えられた身長の各種の犬の 確率を調べるでしょう

  • Well, you could figure out the probability of each type

    ここだとその犬は ラブラドールのようです

  • of dog given their height.

    一方ヒストグラムのずっと右に行って

  • Here, it's more likely the dog is a lab.

    身長 35 インチの犬を見ると

  • On the other hand, if we go all the way

    グレイハウンドだと かなり確信できます

  • to the right of the histogram and look

    では 中間の犬はどうでしょう

  • at a dog who is 35 inches tall, we

    ここでグラフの情報は 少なくなります

  • can be pretty confident they're a greyhound.

    というのは各種の犬の 確率が近いからです

  • Now, what about a dog in the middle?

    ですから身長は有用な特徴量ですが 完ぺきではないのです

  • You can see the graph gives us less information

    その為に機械学習ではほとんど常に

  • here, because the probability of each type of dog is close.

    複数の特徴量が必要なのです

  • So height is a useful feature, but it's not perfect.

    さもないと ただ if 文を書けばよくて

  • That's why in machine learning, you almost always

    分類器にこだわることはありません

  • need multiple features.

    どういう特徴量を使えばいいか 把握するには

  • Otherwise, you could just write an if statement

    思考実験をしなさい

  • instead of bothering with the classifier.

    自分が分類器だと思って

  • To figure out what types of features you should use,

    この犬がラブラドールか グレイハウンドか分かろうとすれば

  • do a thought experiment.

    他にどんなことを知りたいでしょう?

  • Pretend you're the classifier.

    毛の長さとか 走る速さ

  • If you were trying to figure out if this dog is

    体重について尋ねるかもしれません

  • a lab or a greyhound, what other things would you want to know?

    正確に特徴量をいくつ使うべきかは

  • You might ask about their hair length,

    科学というよりはアートに近 いですが

  • or how fast they can run, or how much they weigh.

    目安として 問題を解くのにいくつ 自分が必要か考えなさい

  • Exactly how many features you should use

    では 目の色のような 別の特徴量を見てみましょう

  • is more of an art than a science,

    この小例に対し

  • but as a rule of thumb, think about how many you'd

    犬の目の色は2通りだけで 青と茶としましょう

  • need to solve the problem.

    そして目の色は犬種に 依らないとします

  • Now let's look at another feature like eye color.

    この例に対するヒストグラムは こんな風でしょう

  • Just for this toy example, let's imagine

    大抵の値に対し 分布は約半々です

  • dogs have only two eye colors, blue and brown.

    ですからこの特徴量は

  • And let's say the color of their eyes

    犬の種類と関係しないので 何も教えません

  • doesn't depend on the breed of dog.

    学習データにこのような 無用な特徴量を含めるのは

  • Here's what a histogram might look like for this example.

    分類器の精度に害になり得ます

  • For most values, the distribution is about 50/50.

    これは誤って有用に見える 可能性があるからです

  • So this feature tells us nothing,

    特に少量の学習データしか ない場合はそうです

  • because it doesn't correlate with the type of dog.

    また 特徴量は独立的にします

  • Including a useless feature like this in your training

    独立した特徴量は

  • data can hurt your classifier's accuracy.

    異なる種類の情報を与えます

  • That's because there's a chance they might appear useful purely

    例えばデータセットに 既に 1つの特徴量

  • by accident, especially if you have only a small amount

    インチでの身長がありますが

  • of training data.

    もう1つ cm での身長のような 特徴量をを加えたら

  • You also want your features to be independent.

    それは役に立つでしょうか?

  • And independent features give you

    それは既にあるものと 全く関連しているので「いいえ」です

  • different types of information.

    関連性の高い特徴量を 学習データから除外することは

  • Imagine we already have a feature-- height and inches--

    優れた実践です

  • in our dataset.

    その理由は 多くの分類器は賢くなくて

  • Ask yourself, would it be helpful

    インチでの身長と cm の身長が 同じだと理解できないのです

  • if we added another feature, like height in centimeters?

    ですから この特徴量の重要性を 二重カウントするかもしれません

  • No, because it's perfectly correlated with one

    最後に 特徴量を分かりやすく することです

  • we already have.

    新しい例で

  • It's good practice to remove highly correlated features

    2つの異なる都市間で手紙を送るのに 何日かかるか予測するとします

  • from your training data.

    都市間が離れていればいるほど 長くかかります

  • That's because a lot of classifiers

    使うべき良い特徴量は

  • aren't smart enough to realize that height in inches

    都市間のマイルでの距離でしょう

  • in centimeters are the same thing,

    ずっと悪い特徴量のペアは

  • so they might double count how important this feature is.

    緯度と経度による都市の位置でしょう

  • Last, you want your features to be easy to understand.

    理由はこうです

  • For a new example, imagine you want

    私は距離を見て

  • to predict how many days it will take

    手紙が着くまでどの位かかるか よく推量できます

  • to mail a letter between two different cities.

    しかし緯度・経度と時間の 関係を分かることは

  • The farther apart the cities are, the longer it will take.

    ずっと難しく学習データに もっと多くの例が必要になります

  • A great feature to use would be the distance

    皆さんの特徴量がどの位役立つか

  • between the cities in miles.

    測る為に使える技術があります

  • A much worse pair of features to use

    どの組み合わせが一番いいかさえも 分かります

  • would be the city's locations given by their latitude

    ですから成り行きに任せなくていいのです

  • and longitude.

    それらを以降の回で扱いましょう

  • And here's why.

    次回も続けて教師付き学習に対して 直感を築いていきます

  • I can look at the distance and make

    異なる種類の分類器が 同じ問題を解くのに

  • a good guess of how long it will take the letter to arrive.

    使える様子を示し

  • But learning the relationship between latitude, longitude,

    働き方についてもう少し 深く掘り下げます

  • and time is much harder and would require many more

    ご視聴ありがとう では次回にお会いしましょう

  • examples in your training data.

  • Now, there are techniques you can

  • use to figure out exactly how useful your features are,

  • and even what combinations of them are best,

  • so you never have to leave it to chance.

  • We'll get to those in a future episode.

  • Coming up next time, we'll continue building our intuition

  • for supervised learning.

  • We'll show how different types of classifiers

  • can be used to solve the same problem and dive a little bit

  • deeper into how they work.

  • Thanks very much for watching, and I'll see you then.

JOSH GORDON: Classifiers are only

{ 機械学習 }

字幕と単語

ワンタップで英和辞典検索 単語をクリックすると、意味が表示されます