字幕表 動画を再生する AI 自動生成字幕 字幕スクリプトをプリント 翻訳字幕をプリント 英語字幕をプリント Seven years ago, back in 2015, 7年前、2015年に遡る。 one major development in AI research was automated image captioning. AI研究の大きな進展のひとつに、画像の自動キャプション付けがあります。 Machine learning algorithms could already label objects in images, 機械学習アルゴリズムは、すでに画像中の物体にラベルを付けることができる。 and now they learned to put those labels into natural language descriptions. そして、そのラベルを自然言語による記述に置き換えることを学んだのです。 And it made one group of researchers curious. そして、それはある研究者たちの好奇心を刺激した。 What if you flipped that process around? そのプロセスを逆にしてみたらどうでしょう。 We could do image to text. 画像からテキストにすることもできる。 Why not try doing text to images and see how it works? 画像にテキストを当てて、その効果を試してみてはいかがでしょうか。 It was a more difficult task.They didn't want より困難な課題でした。 to retrieve existing images the way google search does. を使えば、google検索のように既存の画像を取得することができます。 They wanted to generate entirely novel scenes that didn't happen in the real world. 現実の世界ではありえない、まったく新しいシーンを生み出したかったのです。 So they asked their computer model for something it would have never seen before. そこで、コンピュータのモデルに、今まで見たこともないようなものを要求したのです。 Like all the school buses you've seen are yellow. 見たことのあるスクールバスがすべて黄色であるように。 But if you write “the red or green school bus” would it actually try to generate something green? でも、「赤や緑のスクールバス」と書いたら、実際に緑のものを生成しようとするでしょうか? And it did that. そして、それが実現したのです。 It was a 32 by 32 tiny image. 32×32の小さな画像でした。 And then all you could see is like a blob of something on top of something. そして、何かの上に何かの塊が乗っているようにしか見えないのです。 They tried some other prompts like “A herd of elephants flying in the blue skies”. 他にも「青空を飛ぶ象の群れ」など、様々なプロンプトを試したそうです。 “A vintage photo of a cat.” "猫のヴィンテージ写真" “A toilet seat sits open in the grass field.” "草原に便座が開いたまま置いてある" And “a bowl of bananas is on the table.” そして、"バナナの鉢がテーブルに"。 Maybe not something to hang on your wall but the 2016 paper from those researchers 壁にかけるようなものではないのかもしれませんが、その研究者たちの2016年の論文 showed the potential for what might become possible in the future. は、これからできるかもしれない可能性を示してくれたのです。 And uh... the future has arrived. そして...未来が到来した。 It is almost impossible to overstate how far the technology has come in just one year. たった1年でここまで技術が進歩したといっても過言ではないでしょう。 By leaps and bounds. Leaps and bounds. 飛躍的に飛躍的な進歩です Yeah, it's been quite dramatic. ええ、かなりドラマチックな展開になりましたね。 I don't know anyone who hasn't immediately been like というようなことをすぐにしなかった人を私は知らない。 “What is this? What is happening here?” "これは何だ?ここで何が起こっているんだ?" Could I say like watching waves crashing? 波が砕けるのを見るような感じと言えばいいのでしょうか。 Party hat guy. パーティーハットの人。 Seafoam dreams. シーフォームの夢。 A coral reef. Cubism. 珊瑚礁。キュビズム。 Caterpillar. キャタピラー A dancing taco. 踊るタコス。 My prompt is Salvador Dali painting the skyline of New York City. 私のプロンプトは、ニューヨークのスカイラインを描くサルバドール・ダリです。 You may be thinking, wait AI-generated images aren't new. と思うかもしれませんが、ちょっと待ってください、AIで生成された画像は新しいものではありません。 You probably heard about this generated portrait going for over $400,000 at auction back in 2018. この生成された肖像画が、2018年にオークションで40万円以上の値がついたことをご存じだろうか。 Or this installation of morphing portraits, which Sotheby's sold the following year. また、この肖像画をモーフィングしたインスタレーションは、翌年サザビーズが販売したものです。 It was created by Mario Klingemann, who explained to me that that type of AI マリオ・クリンゲマンが作ったもので、彼が説明してくれたのは、その種のAIを art required him to collect a specific dataset of images and train his own model to mimic that data. のアートでは、特定の画像のデータセットを収集し、そのデータを模倣するために独自のモデルを訓練する必要がありました。 Let's say, Oh, I want to create landscapes, so I collect a lot of landscape images. 例えば、ああ、私は風景画を作りたいから、風景画をたくさん集めているんだ、としましょう。 I want to create portraits, I trained on portraits. ポートレートを作りたい、ポートレートで修行した。 But then the portrait model would not really be able to create landscapes. でも、そうするとポートレートモデルが本当に風景画を作ることができなくなるんです。 Same with those hyper realistic fake faces that have been plaguing 超リアルなフェイクフェイスに悩まされるのと同じです。 linkedin and facebook – those come from a model that only knows how to make faces. リンクインやフェイスブックは、顔の作り方しか知らないモデルから生まれたものです。 Generating a scene from any combination of words requires a different, newer, bigger approach. あらゆる言葉の組み合わせからシーンを生成するには、これまでとは異なる、より新しく、より大きなアプローチが必要です。 Now we kind of have these huge models, which are so huge that 今、私たちは一種の巨大なモデルを持っていて、それはとても巨大であり somebody like me actually cannot train them anymore on their own computer. 私のような者は、自分のコンピュータでトレーニングすることができません。 But once they are there, they are really kind of— they contain everything. でも、いったんそこにあると、本当に何でも入っているような感じです。 I mean, to a certain extent. つまり、ある程度は。 What this means is that we can now create images without having to actually これはどういうことかというと、実際に画像を作成しなくても、画像を作成することができるようになったということです。 execute them with paint or cameras or pen tools or code. ペイントやカメラ、ペンツールやコードで実行する。 The input is just a simple line of text. 入力は単純なテキスト行だけです。 I'll get to how this tech works later in the video この技術がどのように機能するかは、ビデオの後半で紹介します but to understand how we got here, we have to rewind to January 2021 しかし、ここに至る経緯を理解するためには、2021年1月まで巻き戻す必要があります。 When a major AI company called Open AI announced DALL-E – which they named after these guys. オープンAIという大手AI企業がDALL-Eを発表したとき、この人たちの名前をつけたんです。 They said it could create images from text captions for a wide range of concepts. さまざまなコンセプトのテキストキャプションから画像を作成することができるという。 They recently announced DALLE-2, which promises more realistic results and seamless editing. 先日、よりリアルな仕上がりとシームレスな編集を約束する「DALLE-2」を発表した。 But they haven't released either version to the public. しかし、どちらのバージョンも一般には公開されていないそうです。 So over the past year, a community of independent, open-source developers そこで、この1年間、独立したオープンソースの開発者たちのコミュニティが built text-to-image generators out of other pre-trained models that they did have access to. は、事前に学習させた他のモデルからテキストから画像への変換器を作成しました。 And you can play with those online for free. そして、それらをオンラインで無料で遊ぶことができるのです。 Some of those developers are now working for a company called Midjourney, その開発者の中には、現在、ミッドジャーニーという会社で働いている人もいます。 which created a Discord community with bots that turn your text into images in less than a minute. を開発し、テキストを1分以内に画像に変換するボットでDiscordコミュニティを作りました。 Having basically no barrier to entry to this has made it like a whole new ballgame. 基本的に参入障壁がないため、まったく新しいゲームになったようなものです。 I've been up until like two or three in the morning. 夜中の2時か3時くらいまで起きていたこともありますよ。 Just really trying to change things, piece things together. ただ、物事を変えようとしたり、組み立てたりしているだけです。 I've done about 7,000 images. It's ridiculous. 7,000枚くらいやったかな。バカバカしいですね。 MidJourney currently has a wait-list for subscriptions, but we got a chance to try it out. 現在、MidJourneyは購読待ちの状態ですが、試用する機会を得ました。 "Go ahead and take a look." "どうぞ、見てください" “Oh wow. That is so cool” "Oh wow.とてもクールだ" “It has some work to do. I feel like it can be — it's not dancing and it could be better.” "やるべきことがある。なれるような気がします。"ダンスではないし、もっと良くなるはずです。" The craft of communicating with these deep learning このディープラーニングで伝える技術 models has been dubbed “prompt engineering”. のモデルは、「プロンプトエンジニアリング」と呼ばれています。 What I love about prompting for me, it's kind of really プロンプトは、私にとって、とても大切なものです。 that has something like magic where you have to know the right words for that, for the spell. には、魔法のようなものがあって、その呪文に適した言葉を知らなければならない。 You realize that you can refine the way you talk to the machine. 機械との対話に磨きをかけることができると実感していますね。 It becomes a kind of a dialog. 一種の対話のようなものになる。 You can say like “octane render blender 3D”. octane render blender 3D」のように言うことができます。 Made with Unreal Engine... アンリアル・エンジンで作られた... ...certain types of film lenses and cameras... ...ある種のフィルムレンズとカメラ... ...1950s, 1960s... ...1950年代、1960年代... ...dates are really good. ...デートって本当にいいものですね。 ...lino cut or wood cut... ...リノカット、ウッドカット... Coming up with funny pairings, like a Faberge Egg McMuffin. ファベルジェ・エッグマックマフィンのような面白い組み合わせを考え出す。 A monochromatic infographic poster about typography depicting Chinese characters. 漢字を描いたタイポグラフィに関するモノクロのインフォグラフィックポスター。 Some of the most striking images can come from prompting the model モデルへの働きかけが、最も印象的なイメージを生むこともあります。 to synthesize a long list of concepts. 長い概念の羅列を合成すること。 It's kind of like it's having a very strange collaborator to bounce ideas off of and get それは、とても奇妙な協力者を得て、アイデアを出し合うようなものです。 unpredictable ideas back. 予測不能のアイデアが戻ってくる。 I love that! 大好きです! My prompt was "chasing seafoam dreams," 私のプロンプトは、"シーフォームドリームを追いかけて "でした。 which is a lyric from the Ted Leo and the Pharmacists' song "Biomusicology." というのは、Ted Leo and the Pharmacistsの曲 "Biomusicology" の歌詞である。 Can I use this as the album cover for my first album? "Absolutely." ファーストアルバムのアルバムジャケットに使ってもいいですか?"もちろん" Alright. なるほど。 For an image generator to be able to respond to so many different prompts, イメージジェネレーターが、これほどまでにさまざまなプロンプトに対応できるようになるとは。 it needs a massive, diverse training dataset. 膨大で多様な学習データセットが必要です。 Like hundreds of millions of images scraped from the internet, along with their text descriptions. ネットからかき集めた何億枚もの画像と、そのテキスト説明文とか。 Those captions come from things like the alt text that website owners upload with their images, このキャプションは、Webサイトのオーナーが画像と一緒にアップロードするaltテキストなどから作成されます。 for accessibility and for search engines. アクセシビリティと検索エンジンのために So that's how the engineers get these giant datasets. そうやって、エンジニアは巨大なデータセットを手に入れるわけです。 But then what do the models actually do with them? でも、じゃあ、モデルは実際にどうするんだ? We might assume that when we give them a text prompt, 私たちは、テキストプロンプトを与えるとき、そう仮定するかもしれません。 like “a banana inside a snow globe from 1960." 1960年製のスノードームの中にバナナが入ってる」みたいな。 They search through the training data to find related images and then copy 学習データから関連する画像を探し出し、コピーするのです。 over some of those pixels. But that's not what's happening. そのピクセルのいくつかにでも、そんなことはないんです。 The new generated image doesn't come from the training data, 新たに生成される画像は、学習データから得られるものではありません。 it comes from the “latent space” of the deep learning model. は、深層学習モデルの「潜在空間」に由来する。 That'll make sense in a minute, first let's look at how the model learns. すぐに理解できると思いますが、まずはモデルがどのように学習していくかを見てみましょう。 If I gave you these images and told you to match them to these captions, you'd have no problem. この画像を渡して、このキャプションと合わせてくださいと言えば、問題ないでしょう。 But what about now, this is what images look like to a しかし、今はどうでしょう、このようなイメージは machine just pixel values for red green and blue. 赤・緑・青のピクセル値だけである。 You'd just have to make a guess, and that's what the computer does too at first. 推測するしかないでしょう、コンピュータも最初はそうなんです。 But then you could go through thousands of rounds of this しかし、その後、何千回とこの and never figure out how to get better at it. そして、どうすればうまくなるのかがわからない。 Whereas a computer can eventually figure out a method that works- that's what deep learning does. しかし、コンピュータは最終的にうまくいく方法を見つけ出すことができます。それがディープラーニングです。 In order to understand that this arrangement of pixels is a banana, and this arrangement この画素の配置がバナナであることを理解するために、この配置を of pixels is a balloon, it looks for metrics that help separate these images in mathematical space. の画素が風船である場合、数学的空間においてこれらの画像を分離するのに役立つ指標を探します。 So how about color? If we measure the amount of yellow in the image, では、色はどうでしょうか。画像に含まれる黄色の量を測定すると that would put the banana over here and the balloon over here in this one-dimensional space. を使えば、この一次元空間にバナナがここに、風船がここに置かれることになります。 But then what if we run into this: でも、そのあと、こんなことに遭遇したらどうでしょう。 Now our yellowness metric isn't very good at separating bananas from balloons. バナナと風船を分けるには、この「黄色さ」の指標はあまり適していません。 We need a different variable. 別の変数が必要です。 Let's add an axis for roundness. 真円度を表す軸を追加してみよう。 Now we've got a two dimensional space with the round balloons up here and the banana down here. これで、上に丸い風船、下にバナナがある2次元の空間ができました。 But if we look at more data we may come across a banana that's pretty round, でも、もっとデータを見れば、かなり丸いバナナに出会えるかもしれません。 and a balloon that isn't. とそうでない風船があります。 So maybe there's some way to measure shininess. だから、輝きを測る方法があるのかもしれませんね。 Balloons usually have a shiny spot. 風船には通常、光沢のあるスポットがあります。 Now we have a three dimensional space. これで3次元の空間が出来上がりました。 And ideally, when we get a new image we can measure those 3 variables and see そして、理想的には、新しい画像を入手したときに、この3つの変数を測定し、確認することができます。 whether it falls in the banana region or the balloon region of the space. バナナ領域とバルーン領域のどちらに入るか。 But what if we want our model to recognize, しかし、モデルに認識させたいとしたらどうでしょう。 not just bananas and balloons, but…all these other things. バナナや風船だけでなく、いろいろなものがあります。 Yellowness, roundness, and shininess don't capture what's distinct about these objects. 黄ばみ、丸み、輝きだけでは、そのモノの個性は伝わらない。 That's what deep learning algorithms do as they go through all the training data. それが、ディープラーニングのアルゴリズムで、すべての学習データを調べていくのです。 They find variables that help improve their performance on the task and in the process, 彼らは、タスクとプロセスにおけるパフォーマンスを向上させるのに役立つ変数を見つけます。 they build out a mathematical space with way more than 3 dimensions. 3次元をはるかに超える数学的空間を構築しているのです。 We are incapable of picturing multidimensional space, but midjourney's model offered this and I like it. 私たちは多次元空間をイメージすることができませんが、midjourneyさんのモデルはこれを提供してくれて、私は気に入っています。 So we'll say this represents the latent space of the model. And It has more than 500 dimensions. つまり、これはモデルの潜在的な空間を表していると言えるでしょう。500以上の次元があります Those 500 axes represent variables that humans wouldn't even recognize or have この500本の軸は、人間が認識できない、あるいは持っていない変数を表しています。 names for but the result is that the space has meaningful clusters: の名前がありますが、結果的にその空間には意味のあるクラスタが存在することになります。 A region that captures the essence of banana-ness. バナナらしさを凝縮した地域。 A region that represents the textures and colors of photos from the 1960s. 1960年代の写真の質感や色彩を表現した地域。 An area for snow and an area for globes and snowglobes somewhere in between. 雪のエリアと地球儀やスノーグロブのエリアがどこかにある。 Any point in this space can be thought of as the recipe for a possible image. この空間のどのポイントも、可能性のあるイメージのレシピと考えることができます。 The text prompt is what navigates us to that location. But then there's one more step. その場所までナビゲートしてくれるのが、テキストプロンプトなのです。しかし、その後にもう1つのステップがあります。 Translating a point in that mathematical space into an actual image involves a その数学的空間内の点を実際の画像に変換するのには generative process called diffusion. It starts with just noise and then, 拡散と呼ばれる生成過程。 最初はただのノイズから始まり over a series of iterations, arranges pixels into a composition that makes sense to humans. を何度も繰り返すことで、人間が理解できるような構図に画素を配置することができます。 Because of some randomness in the process, 多少のランダム性があるため it will never return exactly the same image for the same prompt. は、同じプロンプトに対して全く同じ画像を返すことはない。 And if you enter the prompt into a different model designed by different また、プロンプトを別の人がデザインした別のモデルに入力すると people and trained on different data, you'll get a different result. 人、異なるデータで学習させた場合、異なる結果が得られるでしょう。 Because you're in a different latent space. 潜在的な空間が違うからです。 No way. That is so cool. What the heck? The brush strokes, the color palette. That's fascinating. まさか、そんな。めっちゃカッコいいやん。なんじゃこりゃー。筆致、色使い。魅力的だ I wish I could like — I mean he's dead, but go up to him and be like, "Look what I have!" 死んだはずの彼の前に出て行って、「これを見てくれ!」と言いたいですね。 Oh that's pretty cool. Probably the only Dali that I could afford anyways.” おお、なかなかいいじゃないか。どうせ買えるのはダリだけだろうけど......」。 The ability of deep learning to extract patterns from data means that you can copy an データからパターンを抽出するディープラーニングの能力は、あなたがコピーすることで artist's style without copying their images, just by putting their name in the prompt. その作家の名前をプロンプトに入れるだけで、その作家のイメージをコピーすることなく、その作家のスタイルが表現できる。 James Gurney is an American illustrator who ジェームズ・ガーニーは、アメリカのイラストレーターで became a popular reference for users of text to image models. は、テキストから画像への変換モデルのユーザーにとって人気のある参考文献となりました。 I asked him what kind of norms he would like to see as prompting becomes widespread. プロンプトが普及することで、どのような規範が望まれるかを聞いてみた。 I think it's only fair to people looking at this work この作品を見ている人には公平だと思うのですが that they should know what the prompt was and also what software was used. プロンプトが何であったのか、またどのようなソフトウェアを使用したのかを知るべきであるということです。 Also I think the artists should be allowed to opt in or opt out of having their work また、アーティストは、自分の作品に参加するかしないかを選択できるようにするべきだと思います。 that they worked so hard on by hand be used as a dataset for creating this other artwork. この作品は、彼らが手作業で一生懸命作ったものを、データセットとして使っています。 James Gurney, I think he was a great example of being someone ジェームス・ガーニー、彼は素晴らしい模範となる人物だと思います。 who was open to it, started talking with the artists. というのも、この時、「この人なら」と思った人が、アーティストと話を始めたのです。 But I also heard of other artists who got actually extremely upset. でも、実際にものすごく怒ったという話も聞きました。 The copyright questions regarding the images that go into training the のトレーニングに入る映像に関する著作権の問題が出てきました。 models and the images that come out of them…are completely unresolved. モデルやそこから生まれるイメージは...全く解決されていません。 And those aren't the only questions that this technology will provoke. そして、この技術が引き起こす疑問はそれだけではありません。 The latent space of these models contains some これらのモデルの潜在空間には、いくつかの dark corners that get scarier as outputs become photorealistic. 出力が写実的になるにつれて怖くなる暗部。 It also holds an untold number of associations that we wouldn't また、私たちが知らないような、数え切れないほどの関連性を持っています。 teach our children but that it learned from the internet. は子供たちに教えていますが、それはインターネットから学んだことです。 If you ask an image of the CEO, it's like an old white guy. CEOのイメージを聞くと、白人のおっさんという感じです。 If you ask for images of nurses, they're all like women. 看護師のイメージを聞くと、みんな女性みたいなんですよ。 We don't know exactly what's in the datasets used by OpenAI or Midjourney. OpenAIやMidjourneyが使っているデータセットの中身は、正確にはわかりません。 But we know the internet is biased toward the English language and western concepts, しかし、インターネットは英語と西洋の概念に偏っていることは分かっています。 with whole cultures not represented at all. 文化全体が全く表現されていない状態で In one open-sourced dataset, あるオープンソースのデータセットでは the word “asian” is represented first and foremost by an avalanche of porn. アジアンという言葉は、まず何よりもポルノに代表されるように、雪崩を打って現れます。 It really is just sort of an infinitely complex mirror held up to our society and what we これは、私たちの社会と私たちの生活を映し出す、無限に複雑な鏡のようなものなのです。 deemed worthy enough to, you know, put on the internet in the first place and そもそもネットに公開するほどの価値があると判断し how we think about what we do put up. をどう考えるか。 But what makes this technology so unique is that it enables any of しかし、この技術のユニークな点は、どのようなものでも可能にすることです。 us to direct the machine to imagine what we want it to see. というように、機械に想像させることができるのです。 Party hat guy, space invader, caterpillar, and a ramen bowl. パーティーハット男、スペースインベーダー、キャタピラー、ラーメンどんぶり。 Prompting removes the obstacles between ideas and images, and eventually videos, animations, プロンプトは、アイデアとイメージ、ひいてはビデオやアニメーションの間にある障害を取り除きます。 and whole virtual worlds. と仮想世界全体が見えてきます。 We are on a voyage here, that is it's a bigger deal than 私たちはここで航海をしている、つまり、それはより大きな問題なのです。 than just like one decade or the immediate technical consequences. 10年後や技術的な結果よりも。 It's a change in the way humans imagine, communicate, work with their own culture それは、人間の想像力、コミュニケーション、仕事の仕方を変えることで、自分たちの文化を And that will have long range, good and bad consequences that we そしてそれは、長期的な、良い意味でも悪い意味でも、私たちに影響を与えるでしょう。 we are just by definition, not going to be capable of completely anticipating. 私たちは、その定義からして、完全に予測することはできないのです。 Over the course of researching this video I spoke to a bunch of creative people このビデオのリサーチのために、私はたくさんのクリエイティブな人たちに話を聞きました。 who have played with these tools. これらのツールで遊んだことのある人 And I asked them what they think this all means for people who make a living making images. そして、映像制作を生業とする人々にとって、このことはどのような意味を持つのだろうかと尋ねてみたのです。 The human artists and illustrators and designers and stock photographers out there. そこにいる人間のアーティストやイラストレーターやデザイナーやストックフォトグラファー。 And they had a lot of interesting things to say. そして、面白いことをたくさん言っていた。 So I've compiled them into a bonus video. そこで、ボーナス映像にまとめました。 Please check it out and add your own thoughts in the comments. Thank you for watching. ぜひご覧いただき、ご自身の感想をコメントで添えてください。ご視聴ありがとうございました。
B1 中級 日本語 Vox 画像 モデル テキスト 空間 データ どんな絵でも作ってくれるAIを解説 (The AI that creates any picture you want, explained) 22 2 林宜悉 に公開 2022 年 06 月 20 日 シェア シェア 保存 報告 動画の中の単語