字幕表 動画を再生する
You're called to create a post-apocalyptic giraffe astronaut.
後付けキリン宇宙飛行士を作れということなのでしょう。
Generated.
生成されます。
Genghis Khan playing a guitar solo, pixel art.
ギターソロを弾くチンギス・ハーン、ピクセルアート。
Generated.
生成されます。
A man holding a delicious apple...
美味しそうなリンゴを手にする男性...。
Ah... What's with his hands?
あ・・・この手、どうしたんだろう?
Why can't AI art make hands?
なぜAIアートは手を作れないのでしょうか?
It doesn't matter what AI art model you use.
どんなAIアートモデルを使っても大丈夫です。
If you have a man holding a delicious apple, his hands will look weird holding it.
美味しそうなリンゴを持った男性を登場させると、それを持つ手が変に見えてしまいます。
Why is this so hard?
なんでこんなに難しいのでしょう?
Seems easy enough, right?
簡単そうでしょう?
We've got this weird situation where AI art can instantly make...
AIアートで即座に作れるという奇妙な状況に...
Abraham Lincoln dressed like glam David Bowie.
アブラハム・リンカーンは、グラマーなデヴィッド・ボウイのような格好をしていました。
But struggles with a woman holding a cell phone.
しかし、携帯電話を持つ女性に苦戦します。
This isn't just a weird glitch.
これはただの変な不具合じゃありません。
The struggle of AI art with hands can actually teach you something bigger about how AI art works.
手を使ったAIアートの格闘は、実はAIアートの仕組みについて、もっと大きなことを教えてくれるのです。
I mean, what is so hard about this?
つまり、これのどこが難しいんでしょう?
I asked an artist who has taught thousands of people how to draw hands from imagination.
想像から手を描く方法を何千人もの人に教えてきたアーティストに聞きました。
Before someone becomes or starts training to be an artist, like officially training.
アーティストになるための訓練をする前、または始める前。
It's pattern recognition.
パターン認識です。
You just grow up seeing a whole bunch of hands...
たくさんの手を見て育つだけ...。
and you start knowing what hands look like.
また、手の形がわかるようになりました。
You learn how things look by living in the world and recognizing patterns.
世の中で生活し、パターンを認識することで、物の見え方を学ぶのです。
An AI is similar, but has key differences.
AIは似ていますが、重要な違いがあります。
Imagine an AI is like you,
AIがあなたのような存在だと想像してください、
but trapped in a museum from birth.
ですが、生まれたときから美術館に閉じ込められています。
All the machine has to learn from are the pictures...
機械が学ぶべきは、写真だけ...。
and the little placards on the side.
また、サイドにある小さなプラカード。
Apple: A red apple on a brown table.
リンゴ: 茶色のテーブルの上に置かれた赤いリンゴ。
That's like the images it sees from the web and the descriptions that go with them.
それは、ウェブから見た画像とそれに付随する説明文のようなものです。
It's similar to how you learn, but locked in that museum.
学習方法と似ていますが、あの美術館に閉じ込められているんですね。
If you want to understand an apple you can rotate it in your hand.
リンゴを理解したければ、手の中で回転させればいいのです。
You can watch it whenever you want.
好きな時に観られます。
If AI wants to understand an apple,
AIがリンゴを理解しようと思ったら、
it has to find another picture of an apple in the museum.
美術館でリンゴの絵をもう一枚見つけなければなりません。
Pattern recognition has allowed AI and people to draw decent apples,
パターン認識により、AIや人がまともなリンゴを描けるようになりました、
but the processes differ.
ですが、プロセスが異なります。
You start training to become an artist,
アーティストになるためのトレーニングを開始するのです、
and now you're like, okay, now I have to learn the rules.
という感じで、今度はルールを覚えないといけないんですね。
And that's where it becomes very different from how AI is learning.
そして、そこがAIの学習方法と大きく異なってくるのです。
Artists, in order to draw something complicated,
アーティスト、複雑なものを描くために、
we tend to simplify things into basic forms.
私たちは、物事を基本形に単純化する傾向があります。
And so when you look at a hand,
そうして、手元を見たときに
you pretty much have the big blocky part of the palm, right?
は、手のひらの大きなブロック状の部分をかなり持っていますよね?
You have the front, you have the back,
表もあれば裏もある、
and then you have the thickness.
そして、厚みを持たせています。
So you can pretty much just make that into like a square with some thickness to it.
だから、それを正方形のように、ある程度の厚みを持たせて作ればいいんです。
Then an artist can add all the style and texture and detail they want.
そして、アーティストが好きなスタイルやテクスチャー、ディテールを加えることができるのです。
AI works differently.
AIの働きが違います。
Look at this hand.
この手札を見てください。
The shapes are bizarre,
形が奇抜なんです、
but the AI has done a great job showing the light and texture here.
ですが、ここはAIが光と質感をうまく表現してくれています。
Remember, the AI knows how things look,
AIは物事の見え方を知っていることを忘れないでください、
but not how they work.
しかし、その仕組みがわかりません。
So these patterns in pixels are easy to understand.
だから、こういう画素のパターンはわかりやすいんです。
It never learned, however, that fingers don't really bend like this.
しかし、指が本当にこのように曲がるわけではないことを知ることはなかったです。
It doesn't simplify the forms.
フォームを簡略化しません。
Remember, it's trapped in the museum.
美術館に閉じ込められていることを忘れないでください。
So it is just trying to guess where hand-like pixels should be
つまり、手のようなピクセルがどこにあるべきかを推測しているに過ぎないのです。
without knowing how hands work like we do.
私たちのような手の動きを知らなくても
But listen, I find this kind of dissatisfying.
でも聞いてください、こんな不満があるんです。
I mean, I'm basically just saying that AI can't draw hands because it's not a person.
というか、基本的にAIは人じゃないから手を描けないって言ってるだけなんだけどね。
But AI also doesn't know anything about construction,
しかし、AIもまた、建築のことは何も知りません、
and it can still make a beautiful skyscraper in New York City.
で、今でもニューヨークの美しい超高層ビルを作ることができます。
So to understand this better,
だから、これをよく理解するために
I spoke to two people who have worked with generative art models.
ジェネレーティブアートモデルを扱ったことのある2人の方にお話を伺いました。
Yilun Du is a grad student whose heart is in robotics.
Yilun Duは、ロボティクスに心を奪われた大学院生です。
But, you know, AI art is like a big deal now.
でもね、今、AIアートが大流行みたいなんですよ。
So, he got pulled into it.
それで、引き込まれたんですね。
Because of how popular these models have been in generative art...
これらのモデルがジェネレーティブ・アートでどれだけ普及したかというと...。
I've also been working on that.
というのもありますね。
And I talked to Roy Shilkrot,
そして、ロイ・シルクロットに話を聞いた、
who has a super varied resume,
超多彩な経歴の持ち主で、
but has been teaching about generative art since 2018.
ですが、2018年からジェネレーティブアートについて教えています。
Good students that come in that are trying to break those models and take them to the next level.
そのモデルを壊して、次のレベルに持っていこうとする優秀な学生たちが入ってきます。
Talking to them helped me figure out three big reasons.
彼らと話すことで、3つの大きな理由が見えてきました。
Not every reason,
すべての理由ではありませんが、
but three big reasons that hands are tough for AI art models.
手がAIアートモデルにとって厳しい3つの大きな理由です。
The data size and quality,
データサイズや品質などです、
the way hands act,
手の動き方
and the low margin for error.
誤差の少なさを実感しています。
For the data size, let's go back to the museum idea.
データサイズについては、美術館の発想に立ち返りましょう。
The museum the robot hangs out in,
ロボットがたむろする美術館、
it has a ton of rooms dedicated to faces,
顔専用の部屋が大量にあるんです、
but not so many rooms for hands.
ですが、手持ちの部屋はそれほど多くありません。
That means it has less to learn from.
つまり、学ぶべきことが少ないということです。
Just as an example, available datasets like Flickr HQ has 70,000 faces.
例えば、Flickr HQのようなデータセットには、7万人の顔があります。
70,000
70,000
And this popular one annotates 200,000 pics of celebrity faces...
そして、この人気者は、20万枚の有名人の顔の写真に注釈をつけています...。
for lots of details, like eyeglasses or pointy noses.
眼鏡やとんがり鼻など、細部にまでこだわっています。
There are a ton of great hand datasets that can really understand hands,
手を本当に理解できる素晴らしいハンドデータセットが山ほどあります、
like this one with 11,000 hands.
11,000ハンドでこのように。
But these may not have been used to train the AI that makes art.
しかし、これらはアートを作るAIの訓練には使われていないかもしれません。
That data scarcity combines with the quality and complexity of the data.
そのデータの希少性は、データの質や複雑さと相まって
Hands data in the art museum isn't yet annotated to show how they work,
美術館のハンズデータは、まだ仕組みがわかるようなアノテーションがされていないんですよ、
like the celebrities pointy noses.
芸能人の尖った鼻のように。
What they say is...
彼らが言うことは...
there is an image and there is a person in the image and that person is holding an umbrella.
画像があって、画像の中に人がいて、その人が傘を持っています。
You don't give the machine a lot of clues,
機械に手がかりを与えないんですね、
saying this is a person holding the umbrella.
傘を差している人だと言うこと。
The thumb is going from one side of the handle and the fingers are curled,
親指はハンドルの片側から、指は丸めて行っています、
and then the thumb is covering the index finger, but not the other ones.
で、親指が人差し指を覆っているが、他の指は覆っていません。
All that is made worse because hands do lots of things compared to, say... faces.
手は、例えば...顔と比べて、たくさんのことをするので、そのすべてが悪化します。
So there's a pretty common like portrait photo face.
だから、ポートレート写真の顔のようにかなり一般的なものがあります。
There are a lot of these photos online,
こういう写真はネット上にたくさんあります、
and the thing is everything is very well centered, right?
ということで、すべてが非常にうまくセンターに配置されていますよね。
Like eyes are always around here.
目っていつもこの辺にあるような。
Like there's always this order.
いつもこの順番があるような。
That's not true of hands,
それは手には当てはまりません、
which can do this and this and this.
というのは、これとこれとこれができます。
I swear I'm sober right now.
今、シラフであることを誓います。
Stan mentioned this, too.
スタンもこのことに触れていました。
How many fingers do you see right now?
今、何本の指が見えていますか?
Like... two or three.
例えば...2~3人とか。
Like it doesn't know there's five
5つあることを知らないように
cuz sometimes there's two, sometimes there's three,
2つあるときは3つある、
sometimes four, sometimes five.
4つ、5つの時がある。
You can see these problems with AI hands,
こうした問題点は、AIの手で確認することができます、
but the jankiness is all over AI art.
ですが、ジャンキーさはAIアートに軍配が上がります。
Just look at horses.
馬を見ればわかります。
You can also have like three legs, five legs, six legs.
3本足、5本足、6本足みたいなのもありますよね。
The model does not learn to explain this because there's too much diversity
多様性がありすぎるため、モデルはこれを説明することを学びません。
and it doesn't have as much bias as we do.
まや、我々ほど偏りがありません。
Okay. Did you hear that last part he said?
そうですか。彼が言った最後の部分は聞き取れましたか?
Good, because it's really important.
よかった、本当に大事なことだから。
It doesn't have as much bias as we do.
我々ほどバイアスがかかっているわけでもありません。
We care a lot about hands and need them to be perfect.
私たちは手をとても大切にしているので、完璧でなければならないのです。
There is a low margin for error.
誤差が少ないです。
But because the model doesn't understand hands,
でも、モデルが手を理解していないから、
hasn't seen many and because hands act weird...
あまり見ていないのと、手が変に動くから。
it makes pictures that are like hands it's seen in the museum,
美術館で見た手のような絵が描けるのです、
but not an exact hand.
ですが、正確な手ではありません。
That's good enough for a ton of stuff, but not hands.
トンデモでも十分な性能ですが、手はダメですね。
Here, let me give you some examples.
ここで、いくつかの例を挙げてみましょう。
Come over here.
こっちへおいでよ。
So, I typed "make me a person with exactly five freckles".
そこで、「そばかすがちょうど5個ある人を作ってください」と入力しました。
So this one's from Dall-E 2,
これは『Dall-E 2』からなんですね、
this one is from Stable Diffusion,
こちらは『Stable Diffusion』のものです、
and this one is from Midjourney.
また、こちらは『Midjourney』のものです。
So it's like, you know, great job.
だから、よくやったって感じです。
You've got, you know, a red haired person.
あるじゃないですか、赤毛の人が。
They're more likely to have freckles.
そばかすがある方が多いそうです。
But there are not exactly five freckles here.
しかし、ここには正確に5つのそばかすがあるわけではありません。
Here that doesn't really matter because we see a freckly face.
ここでは、そばかすのような顔を見るので、それはあまり重要ではありません。
But hands require higher standards.
しかし、手にはより高い水準が求められます。
Look at our apple-holding man again.
リンゴを持つ私たちの姿をもう一度見てください。
I made 3 other variations.
他にも3つのバリエーションを作りました。
The hands are all weird, but don't look at them right now.
手が変なのばっかりだけど、今は見ないでね。
It changed the shirt stripes, the buttons, the apple style...
シャツのストライプ、ボタン、アップルスタイル...を変更しました。
None of that matters because it's stripe-like
ストライプのようなものだから、そんなことは関係ありません。
and button-like and apple-like.
そして、ボタンのような、リンゴのような。
But hand-like isn't good enough.
でも、手のようなものではダメなんです。
I came away from this thinking a couple of things.
いくつかのことを考えながら帰路につきました。
AI art is basically bad at art.
AIアートは基本的にアートが苦手です。
We're just able to see it with hands.
手元で確認できるようになっただけです。
And B, it's never going to get any better.
そしてB、これ以上良くなることはないでしょう。
But both of those things are a bit wrong.
でも、そのどちらもちょっと間違っているんですよね。
I will say that the newest AI art generator to come out at the time of this video is Midjourney version 5
この動画の時点で出ている最新のAIアートジェネレーターは Midjourney のバージョン5であると言っておきます。
and they made some progress with hands for sure,
また、確実に手を動かして前進してくれましたが、
but it's not totally fixed yet.
まだ完全に直っていません。
Don't tell the AI to hold an umbrella.
AIに傘を持てとは言わせません。
I think they're, like, spending lots of time on some things that you appreciate,
彼らは、あなたが評価するいくつかのことに多くの時間を費やしているようなものだと思います、
which is why you like the images, and a lot of stuff that you don't actually even notice.
というのは、画像が好きだからであって、実際には気づかないことも多いです。
I think that for a lot of natural scenery or something like that,
自然の風景とかが多い分、そう思うんですけどね、
I feel like model might be better at that than people.
人よりもモデルの方が得意そうな気がします。
And they are working on two things.
そして、2つのことに取り組んでいます。
First, they have the AI look at a ton more pictures,
まず、AIにトンデモない写真を見させるのです、
which requires more computing power.
より多くの計算能力を必要とします。
They're trying to solve that on a big scale
それを大きなスケールで解決しようとしています。
because if you want to train on more than a handful of images...
というのも、数少ない画像でトレーニングしようと思うと...。
if you want to train on more than 100 images
100枚以上の画像でトレーニングしたい場合、
this would take tremendous resources from you to retrain the model itself.
モデル自体の再学習に膨大なリソースが必要になってしまいます。
The other solution might be to invite more people into the museum.
もう一つの解決策は、より多くの人を美術館に招き入れることかもしれません。
There's an interesting analog.
面白いアナログがありますね。
So like, have you heard of like ChatGPT?
そうそう、ChatGPT みたいなのって聞いたことありますか?
The big difference was that it basically used human feedback.
大きな違いは、基本的に人間のフィードバックを利用していることでした。
So like they generated many, many sentences
だから、何度も何度も文章を生成したように
and asked people to rate which ones are good and which ones are not good.
どれが良くて、どれが良くないか評価してもらいました。
They basically fine-tuned the model
基本的にモデルの微調整を行いました。
so that it would generate sentences that are convincing to people.
人が納得する文章を生成するようにしました。
I guess it would require a lot of engineering to get people to label so much data.
これだけのデータをラベル付けしてもらうのは、相当なエンジニアリングが必要なんでしょうね。
But I think if we could just get, like, people to rank how good the images are generated by these models
しかし、このモデルで生成された画像の良し悪しをランキングしてもらえばいいと思います。
then, like, a lot of these issues will go away, actually.
そうすれば、このような問題の多くは解消されるでしょう、実際。
Because they're just training the models to do what people like.
だって、人の好きなようにモデルを育てているだけです。
It's not just the hand,
手だけではありません、
teeth and abs,
歯と腹筋
anything where there's like a pattern, a large amount of something,
パターン化されたもの、大量のものがあるもの、
It doesn't know the rule of "there are this many"
"この数だけある "というルールを知りません。
because it's trained on different amounts.
というのは、異なる金額でトレーニングしているからです。