Placeholder Image

字幕表 動画を再生する

AI 自動生成字幕
  • You've seen photos come to life before but not like this.

    写真に命が吹き込まれるのを見たことはあるだろうが、こんなことはない。

  • EMO is the new AI on the block and it's revolutionizing the game making every other attempt look like a mere prototype.

    エモはブロックの新しいA Iであり、どんな静止画にも声と動きを吹き込むその能力で、他のあらゆる試みを単なるプロトタイプに見せかけ、ゲームに革命を起こしている。

  • With its ability to infuse any still image with voice and motion, EMO is setting a new standard for digital animation.

    エモはデジタル・アニメーションの新たなスタンダードを築きつつある。

  • Prepare to be amazed as we dive into how EMO is reshaping our expectations for interactive media.

    エモがインタラクティブ・メディアに対する我々の期待をどのように再構築しているのかに飛び込み、驚かされる準備をしよう。

  • All right. So how does EMO turn a still picture into a moving talking video that looks so real and keeps the person or character looking just like themselves over time?

    分かった。では、Emoはどのようにして静止画を本物そっくりの動くトーキング・ビデオに変え、時間が経ってもその人物やキャラクターが自分自身のように見え続けるようにしているのだろうか?

  • That's what we're diving into today.

    それが今日のテーマだ。

  • I'll break down what sets EMO apart, how it operates its tricks, plus the good stuff and the not so good stuff about it.

    エモの特徴、トリックの操作方法、そしてエモの良いところとそうでないところを説明しよう。

  • All right, let's break down what EMO is in simpler terms.

    よし、エモとは何かをもっと簡単に説明しよう。

  • EMO, which stands for emote portrait alive, is this cool new AI system that can make pictures look like they're talking or singing just by using a single photo and some sound.

    エモとは、エモート・ポートレイト・アライブの略である。このクールな新しいA Iシステムは、1枚の写真といくつかのサウンドを使うだけで、写真が話したり歌ったりしているように見せることができる。

  • It's really pushing the boundaries of how we can make videos that look super real and can mimic the way humans express themselves.

    超リアルで、人間の表現方法を模倣するようなビデオをいかに作るか、その限界に挑戦しているんだ。従来のやり方がしばしば的外れであったことを再定義するようなセクションだ。皆の顔の動きが独特で、うまく表現できていない。

  • Traditional ways of doing this often miss the mark, not quite capturing how unique everyone's face moves.

  • EMO does something pretty smart to avoid these pitfalls.

    エモはこうした落とし穴を避けるために、かなり賢いことをしている。

  • Instead of relying on complicated steps like making a 3D model of the face or trying to map out all the facial features exactly, it jumps straight from the sound to making the video.

    顔の3Dモデルを作ったり、すべての顔の特徴をマッピングしようとするような複雑なステップに頼る代わりに。その通り、音からビデオ制作に直行する。

  • It uses something called a diffusion model, which is an AI method that's great at making images look lifelike and natural.

    これは拡散モデルと呼ばれるAIの手法で、画像をリアルで自然に見せるのに優れている。

  • This model listens to the audio and then figures out all the tiny movements your face would make to produce those sounds and the results are amazing.

    このモデルは音声を聞き、その音声を出すためにあなたの顔がどのような小さな動きをするのかをすべて把握する。その結果、Emoによって作られた動画は驚くほどリアルで生命力に溢れ、感情や動きを正確に表現している。

  • Videos made by EMO look incredibly real and full of life, showing emotions and movements that feel just right.

  • So just how impressive is EMO? Let me break it down for you.

    では、エモがどれほど印象的かというと......。

  • It is seriously cool.

    マジでクールだよ。

  • It's not just about making videos where people are talking.

    ジョンソン・ジョンソン・カーハントでは、感情豊かな顔に命を吹き込む必要があるのか、それとも自然に周りを見回してほしいのか、あらゆるスタイルで歌わせることができる。エモがカバーする。

  • Don't cry, you don't need to cry.

  • It can make them sing too and in all sorts of styles.

  • Whether you need to bring to life a face with a full range of emotions or want someone to look around naturally, EMO has got you covered.

  • It keeps the same vibe of the person or character throughout the whole video, no matter how long it is.

    どんなに長くても、ビデオ全体を通してその人物やキャラクターの同じ雰囲気を保つことができる。

  • Plus, it isn't picky about who it animates.

    それに、アニメ化する相手にもこだわらない。

  • It could be someone super realistic, a character from your favorite anime or even a 3D model and it works with any kind of voice input, actual speech, singing or computer-generated voices.

    好きなアニメのキャラクターや3Dモデルなど、超リアルな人物でもいいし、実際の歌声やコンピューターで生成された声など、どんな種類の音声入力でも動作する。

  • The cool part is you only need one picture.

    クールなのは、写真が1枚あればいいという点だ。素晴らしいものを作るために写真やビデオを探し回るのは忘れよう。

  • Forget about hunting down a bunch of photos or videos to make something awesome.

  • One single image is enough for EMO to work its magic.

    エモが魔法をかけるには、たった一枚の画像で十分なのだ。

  • It actually nails the subtle details of how people talk and sing, bringing animation so close to real life movements.

    実際、人々の話し方や歌い方の微妙なディテールに釘付けで、アニメーションを現実の動きに近づけている。

  • It keeps the essence of the character consistent even when they move or change expressions in different ways.

    動きや表情が変わっても、キャラクターの本質は一貫している。

  • It's like you can recognize them instantly, even if it's your first time seeing them.

    すぐに見分けがつくような感じだ。

  • And the emotions, they come through loud and clear, making the voice feel genuine even if it's not originally theirs.

    たとえそれが初めての、初めて見るものであったとしても、そして彼らの感情がはっきりと伝わってくるのであれば、たとえそれが本来彼らのものでなかったとしても、その声は本物に感じられる。

  • In short, EMO is an incredibly flexible and potent tool for crafting videos where people talk or sing.

    要するに、エモは、人々が話したり歌ったりするビデオを作るための、信じられないほど柔軟で強力なツールなのだ。

  • Now, let's delve into the technical components that contribute to EMO's success.

    では、エモの成功に貢献している技術的な要素について掘り下げてみよう。

  • EMO is composed of various modules that synergize to produce fluid, stable and lifelike motions.

    Emoは様々なモジュールで構成されており、それらが相乗効果を発揮して、流動的で安定した、本物そっくりのモーションを生み出します。

  • The process starts with the audio encoder which extracts acoustic features from the input audio, such as pitch energy and emotion.

    プロは、入力音声からピッチエネルギーや感情などの音響特徴を抽出するオーディオエンコーダからスタートする。

  • These features are crucial for driving the generation of mouth shapes and head movements.

    これらの特徴は、口の形や頭の動きを生成する上で非常に重要である。

  • Following this, the reference encoder comes into play, encoding the visual identity of the reference image including aspects like face shape, skin tone and hairstyle.

    これに続いて、参照エンコーダが登場し、顔の形、肌の色、髪型などの側面を含む参照画像の視覚的アイデンティティをエンコードする。

  • This ensures that the character's appearance is consistently maintained throughout the video.

    これにより、キャラクターの外見が映像を通して一貫して維持される。

  • The core of EMO is the diffusion model.

    エモの核心は拡散モデルである。

  • A pivotal module that synthesizes video frames from the audio and reference features through a reverse diffusion process.

    逆拡散処理によって音声と参照特徴からビデオフレームを合成する極めて重要なモジュール。

  • This model having been trained on a vast data set of talking head videos is adept at creating realistic and expressive facial motions.

    このモデルは、トーキングヘッド映像の膨大なデータセットで訓練されており、映像の時間的な一貫性と安定性を高めるために、リアルで表情豊かな顔の動きを作り出すことに長けている。

  • To enhance the temporal coherence and stability of the video, the temporal module processes frames in groups, effectively smoothing out any potential jitter or flicker.

    時間モジュールは、フレームをグループごとに処理し、潜在的なジッターやフリッカーを効果的に平滑化する。

  • The facial region mask is another critical module.

    顔領域マスクは、口、目、鼻などの主要な顔領域に生成努力を集中させるもう一つの重要なモジュールであり、それによって、特にリップシンクのために、ビデオのディテールと品質を向上させる。

  • Focusing the generation efforts on key facial regions such as the mouth, eyes and nose, thereby improving the detail and quality of the video, especially for lipsyncing.

  • Lastly, the speed control layer adjusts the pace of head movements to match the audio input, preventing unnaturally fast or slow motions and ensuring a more natural and consistent movement.

    最後に、スピードコントロールレイヤーは、音声入力に合わせて頭の動きのペースを調整し、不自然に速くなったり遅くなったりする動きを防ぎ、より自然で一貫性のある動きを保証する。

  • Now, this AI model opens up a wide range of potential applications from entertainment and education to telepresence and beyond.

    今やこのA Iモデルは、エンターテインメントや教育からテレプレゼンスまで、幅広い応用の可能性を広げている。

  • You can make your photos talk or sing or even create your own vocal avatar.

    写真にしゃべらせたり、歌わせたり、自分のボーカルやアバターを作ることもできる。

  • You can also use EMO to enhance your communication and expression by adding facial animation and emotion to your voice or text messages.

    また、音声やテキストメッセージに顔のアニメーションや感情を加えることで、コミュニケーションや表現力を高めるためにエモを使うこともできる。

  • You can also use it to create immersive and interactive experiences by animating historical figures, celebrities or fictional characters.

    また、歴史上の人物や有名人、架空のキャラクターをアニメーション化することで、没入感のあるインタラクティブな体験を作り出すこともできる。

  • It can also be used for social goods such as preserving cultural heritage, promoting language learning or raising awareness.

    また、文化遺産の保護、言語学習の促進、意識の向上といった社会的財産のためにも利用できる。

  • EMO is a game changer for content creation and it has the potential to revolutionize the way we communicate and interact with each other.

    エモはコンテンツ制作のゲームチェンジャーであり、私たちのコミュニケーションや相互作用の方法に革命を起こす可能性を秘めている。

  • But is EMO really the best out there?

    しかし、本当にエモが最高なのだろうか?

  • Well, according to the researchers, EMO is superior to the current state-of-the-art methods in terms of expressiveness, realism and character identity preservation.

    研究者によれば、エモは表現力、リアルさ、個性、アイデンティティの保持という点で、現在の最先端技術より優れている。

  • Unlike others that might give you something stiff or odd looking, EMO's got the skills to create a wide range of believable facial expressions.

  • It also avoids the common pitfalls like weird glitches or changes in the video that can make it look fake or off.

    また、映像に奇妙な不具合や変化が生じ、それが偽物に見えたり外れたりするような、よくある落とし穴も避けることができる。

  • Plus, EMO's really good at making sure the person or character you start with looks like the same one throughout the video, something other technologies struggle with.

    それにエモは、最初に登場する人物やキャラクターが、ビデオを通して同じ人物に見えるようにするのが本当にうまいんだ。他のテクノロジーが苦労しているのは、チームが裏付けもなしに、ただこのような主張をしていないことだ。

  • The team didn't just make these claims without backing them up. They put Emo through its paces with tests and studies to see how it measures up.

    彼らはエモをテストや研究に使い、その成果を確認した。

  • They used a bunch of different ways to check its performance, including something called expression-FID.

    彼らは、エクスプレッションF IDと呼ばれるものを含む、さまざまな方法でその性能をチェックした。

  • This test looks at how closely the video's expressions match up with the emotions in the audio it's paired with.

    このテストでは、映像の表情と音声の感情がどれだけ一致しているかを見る。

  • EMO came out on top with the lowest expression-FID score, meaning it was the most on point with its expressions.

    エモとのペアは、最も低い表情F IDスコアでトップになった。

  • They also got people to watch the videos and give their thoughts on how natural they seemed, how well they conveyed emotion and how accurately they kept the identity of the characters.

    また、ビデオを見てもらい、どれだけ自然に見えたか、どれだけ感情を伝えられたか、どれだけ正確に登場人物のアイデンティティを保てたかについて感想を述べてもらった。

  • Again, EMO won out, earning the highest marks for making users happy with what they saw.

    ここでもまた、「エモ」が、ユーザーが今見ているものに満足するという点で、最高点を獲得した。

  • Now, is it flawless?

    完璧ですか?

  • No. There are a few bumps in the road for EMO.

    いや、エモにはいくつかの問題がある。

  • Sometimes the videos it creates might have some weird bits or glitches, especially if the picture or sound it's working with isn't super clear, and there are moments when it doesn't quite get those little details right.

    特に、画像や音声がクリアでない場合、細かいディテールがよくわからないことがある。そうだね。

  • Like a quick wink or a smile.

    ウィンクとか、微笑みとか。

  • If someone's turning their head a lot or wearing something like glasses, EMO might not handle that too well.

    誰かが首をよく回したり、眼鏡のようなものをかけていたりすると、エモはそれをあまりうまく扱えないかもしれない。

  • These issues mostly come down to what the system has learned from and how it's built.

    これらの問題のほとんどは、システムが何から学び、どのように構築されているかに起因する。

  • But the folks behind EMO are on it, trying to make it better.

    しかし、『エモ』を支える人々は、それをより良いものにしようと努力している。

  • They're looking into ways to give users more say in how things turn out, add more types of characters and make it even more interactive.

    ユーザーにもっと発言権を与え、登場人物の種類を増やし、さらにインタラクティブにする方法を検討している。

  • It's still a bit of a work in progress, but the future looks bright for EMO.

    まだまだ未完成だが、エモの未来は明るい。

  • Keep in mind, EMO is still evolving.

    Emoはまだ進化を続けており、その背後にいる頭脳たちは、欠点を修正し、機能を拡張するためにたゆまぬ努力を続けている。

  • The brains behind it are working tirelessly to fix any flaws and expand its capabilities, ensuring it only gets better from here.

  • And that wraps up our video for today. I really hope you found EMO as fascinating as I do.

    私同様、エモに魅力を感じていただけたなら幸いだ。

  • It's seriously one of the most mind-blowing pieces of tech I've come across, I'm eager to see where it goes from here.

    私が出会った技術の中で最も衝撃的なもののひとつだ。

  • What about you? Thinking about giving it a whirl? Drop your thoughts in the comments.

    この機会に試してみようと思っている人は、コメント欄に感想を書いてみてはどうだろう。

  • If you enjoyed this dive into EMO and want to keep up with all things AI and tech, smash that like button, hit subscribe and turn on notifications.

    もしあなたがこの記事を楽しんで、エモに飛び込み、A Iやハイテクに関するあらゆることを知りたいなら、「いいね!」ボタンを押し、購読し、通知をオンにしてください。

  • Thanks for watching and I'll catch you in the next video.

    ご視聴ありがとうございました。また次のビデオでお会いしましょう。

You've seen photos come to life before but not like this.

写真に命が吹き込まれるのを見たことはあるだろうが、こんなことはない。

字幕と単語
AI 自動生成字幕

ワンタップで英和辞典検索 単語をクリックすると、意味が表示されます