字幕表 動画を再生する 字幕スクリプトをプリント 翻訳字幕をプリント 英語字幕をプリント JOSH GORDON: Classifiers are only { 機械学習 } as good as the features you provide. { 機械学習 } レシピ That means coming up with good features 分類器の質は供給する 特徴量の良さに依ります is one of your most important jobs in machine learning. つまり良い特徴量を出すことが But what makes a good feature, and how can you tell? 機械学習で最も重要な仕事の1つです If you're doing binary classification, ですが 何が良い特徴量になるのか 又どうやって分かるのでしょう then a good feature makes it easy to decide 二項分類をしている場合 between two different things. 良い特徴量では2つの異なるものを 決定するのが簡単です For example, imagine we wanted to write a classifier 例えば 2種の犬を区分けする to tell the difference between two types of dogs-- 分類器を書きたいとします greyhounds and Labradors. グレイハウンドとラブラドールに Here we'll use two features-- the dog's height in inches ここで2つの特徴量を使います 犬のインチでの高さと and their eye color. 目の色です Just for this toy example, let's make a couple assumptions この小例に対し 分かりやすいように about dogs to keep things simple. 少し仮定をしてみましょう First, we'll say that greyhounds are usually まず グレイハウンドは普通 taller than Labradors. ラブラドールより背が高いとします Next, we'll pretend that dogs have only two eye 次に犬の目の色は2つだけで colors-- blue and brown. 青と茶とします And we'll say the color of their eyes そしてその目の色は doesn't depend on the breed of dog. 犬種に依らないとします This means that one of these features is useful つまりこれらの特徴量の1つは役立ち and the other tells us nothing. もう1つは何も教えないということです To understand why, we'll visualize them using a toy 理由を理解する為に私が作る トイデータセットを使って dataset I'll create. それらを可視化します Let's begin with height. 身長から始めましょう How useful do you think this feature is? この特徴量はどれだけ役立つと思いますか Well, on average, greyhounds tend 平均ではグレイハウンドの身長は to be a couple inches taller than Labradors, but not always. ラブラドールより数インチ 高い傾向がありますが There's a lot of variation in the world. 必ずしもそうじゃありません 世界には変異が沢山あります So when we think of a feature, we ですから特徴量を考えるとき have to consider how it looks for different values 個体数の異なる値に対し どうかと考える必要があります in a population. Python に行って プログラム例をみましょう Let's head into Python for a programmatic example. 犬の個体数 1000 を作ります I'm creating a population of 1,000 グレイハウンドとラブラドールを 半々にします dogs-- 50-50 greyhound Labrador. それぞれに身長を与えます I'll give each of them a height. この例で グレイハウンドの身長は 平均 28 インチで For this example, we'll say that greyhounds ラブラドールは 24 インチです are on average 28 inches tall and Labradors are 24. 犬はみんな少し違っています Now, all dogs are a bit different. 身長が正規分布だとして Let's say that height is normally distributed, ですから これらの両方を プラスマイナス4インチにしましょう so we'll make both of these plus or minus 4 inches. これで数字の2つの配列になります This will give us two arrays of numbers, それらをヒストグラムで 可視化できます and we can visualize them in a histogram. パラメーターを付けて グレイハウンドは赤で I'll add a parameter so greyhounds are in red ラブラドールは青にします and Labradors are in blue. これでスクリプトを実行できます Now we can run our script. これは個体数中で所定の身長の 犬は何匹いるかを示します This shows how many dogs in our population have a given height. 画面にはデータが沢山あるので There's a lot of data on the screen, シンプルにして1つずつ見ていきましょう so let's simplify it and look at it piece by piece. まず分布のずっと左から始めます We'll start with dogs on the far left 例えば約 20 インチの身長のものは? of the distribution-- say, who are about 20 inches tall. 皆さんに 犬を身長で ラブラドールかグレイハウンドか Imagine I asked you to predict whether a dog with his height 予測するよう求めたとすると was a lab or a greyhound. どうしますか What would you do? 与えられた身長の各種の犬の 確率を調べるでしょう Well, you could figure out the probability of each type ここだとその犬は ラブラドールのようです of dog given their height. 一方ヒストグラムのずっと右に行って Here, it's more likely the dog is a lab. 身長 35 インチの犬を見ると On the other hand, if we go all the way グレイハウンドだと かなり確信できます to the right of the histogram and look では 中間の犬はどうでしょう at a dog who is 35 inches tall, we ここでグラフの情報は 少なくなります can be pretty confident they're a greyhound. というのは各種の犬の 確率が近いからです Now, what about a dog in the middle? ですから身長は有用な特徴量ですが 完ぺきではないのです You can see the graph gives us less information その為に機械学習ではほとんど常に here, because the probability of each type of dog is close. 複数の特徴量が必要なのです So height is a useful feature, but it's not perfect. さもないと ただ if 文を書けばよくて That's why in machine learning, you almost always 分類器にこだわることはありません need multiple features. どういう特徴量を使えばいいか 把握するには Otherwise, you could just write an if statement 思考実験をしなさい instead of bothering with the classifier. 自分が分類器だと思って To figure out what types of features you should use, この犬がラブラドールか グレイハウンドか分かろうとすれば do a thought experiment. 他にどんなことを知りたいでしょう? Pretend you're the classifier. 毛の長さとか 走る速さ If you were trying to figure out if this dog is 体重について尋ねるかもしれません a lab or a greyhound, what other things would you want to know? 正確に特徴量をいくつ使うべきかは You might ask about their hair length, 科学というよりはアートに近 いですが or how fast they can run, or how much they weigh. 目安として 問題を解くのにいくつ 自分が必要か考えなさい Exactly how many features you should use では 目の色のような 別の特徴量を見てみましょう is more of an art than a science, この小例に対し but as a rule of thumb, think about how many you'd 犬の目の色は2通りだけで 青と茶としましょう need to solve the problem. そして目の色は犬種に 依らないとします Now let's look at another feature like eye color. この例に対するヒストグラムは こんな風でしょう Just for this toy example, let's imagine 大抵の値に対し 分布は約半々です dogs have only two eye colors, blue and brown. ですからこの特徴量は And let's say the color of their eyes 犬の種類と関係しないので 何も教えません doesn't depend on the breed of dog. 学習データにこのような 無用な特徴量を含めるのは Here's what a histogram might look like for this example. 分類器の精度に害になり得ます For most values, the distribution is about 50/50. これは誤って有用に見える 可能性があるからです So this feature tells us nothing, 特に少量の学習データしか ない場合はそうです because it doesn't correlate with the type of dog. また 特徴量は独立的にします Including a useless feature like this in your training 独立した特徴量は data can hurt your classifier's accuracy. 異なる種類の情報を与えます That's because there's a chance they might appear useful purely 例えばデータセットに 既に 1つの特徴量 by accident, especially if you have only a small amount インチでの身長がありますが of training data. もう1つ cm での身長のような 特徴量をを加えたら You also want your features to be independent. それは役に立つでしょうか? And independent features give you それは既にあるものと 全く関連しているので「いいえ」です different types of information. 関連性の高い特徴量を 学習データから除外することは Imagine we already have a feature-- height and inches-- 優れた実践です in our dataset. その理由は 多くの分類器は賢くなくて Ask yourself, would it be helpful インチでの身長と cm の身長が 同じだと理解できないのです if we added another feature, like height in centimeters? ですから この特徴量の重要性を 二重カウントするかもしれません No, because it's perfectly correlated with one 最後に 特徴量を分かりやすく することです we already have. 新しい例で It's good practice to remove highly correlated features 2つの異なる都市間で手紙を送るのに 何日かかるか予測するとします from your training data. 都市間が離れていればいるほど 長くかかります That's because a lot of classifiers 使うべき良い特徴量は aren't smart enough to realize that height in inches 都市間のマイルでの距離でしょう in centimeters are the same thing, ずっと悪い特徴量のペアは so they might double count how important this feature is. 緯度と経度による都市の位置でしょう Last, you want your features to be easy to understand. 理由はこうです For a new example, imagine you want 私は距離を見て to predict how many days it will take 手紙が着くまでどの位かかるか よく推量できます to mail a letter between two different cities. しかし緯度・経度と時間の 関係を分かることは The farther apart the cities are, the longer it will take. ずっと難しく学習データに もっと多くの例が必要になります A great feature to use would be the distance 皆さんの特徴量がどの位役立つか between the cities in miles. 測る為に使える技術があります A much worse pair of features to use どの組み合わせが一番いいかさえも 分かります would be the city's locations given by their latitude ですから成り行きに任せなくていいのです and longitude. それらを以降の回で扱いましょう And here's why. 次回も続けて教師付き学習に対して 直感を築いていきます I can look at the distance and make 異なる種類の分類器が 同じ問題を解くのに a good guess of how long it will take the letter to arrive. 使える様子を示し But learning the relationship between latitude, longitude, 働き方についてもう少し 深く掘り下げます and time is much harder and would require many more ご視聴ありがとう では次回にお会いしましょう examples in your training data. Now, there are techniques you can use to figure out exactly how useful your features are, and even what combinations of them are best, so you never have to leave it to chance. We'll get to those in a future episode. Coming up next time, we'll continue building our intuition for supervised learning. We'll show how different types of classifiers can be used to solve the same problem and dive a little bit deeper into how they work. Thanks very much for watching, and I'll see you then.
A2 初級 日本語 身長 インチ 分類 学習 データ 個体 何が良い特徴を作るのか?- 機械学習レシピ #3 (What Makes a Good Feature? - Machine Learning Recipes #3) 53 8 scu.louis に公開 2021 年 01 月 14 日 シェア シェア 保存 報告 動画の中の単語