Placeholder Image

字幕表 動画を再生する

AI 自動生成字幕
  • How's it going?

    調子はどうだい?

  • I'm Megha.

    私はメーガ。

  • Today I'm going to be talking about large language models.

    今日は大規模な言語モデルについてお話しします。

  • Don't know what those are?

    それが何か知らない?

  • Me either.

    僕もだ。

  • Just kidding.

    冗談だよ。

  • I actually know what I'm talking about.

    私は自分が何を話しているのか、実際に知っている。

  • I'm a customer engineer here at Google Cloud, and today I'm going to teach you everything you need to know about LLMs.

    私はGoogle Cloudのカスタマーエンジニアです。今日はLLMについて知っておくべきことをすべてお教えしましょう。

  • That's short for large language models.

    大規模な言語モデルの略だ。

  • In this course, you're going to learn to define large language models, describe LLM use cases, explain prompt tuning, and describe Google's generative AI development tools.

    このコースでは、大規模な言語モデルの定義、LLMの使用例、プロンプトチューニングの説明、GoogleのジェネレーティブAI開発ツールの説明を学びます。

  • Let's get into it.

    さあ、本題に入ろう。

  • Large language models, or LLMs, are a subset of deep learning.

    大規模言語モデル(LLM)は、ディープラーニングのサブセットである。

  • To find out more about deep learning, check out our Introduction to Generative AI course video.

    ディープラーニングの詳細については、生成AI入門コースのビデオをご覧ください。

  • LLMs and generative AI intersect and they are both a part of deep learning.

    LLMと生成AIは交差しており、どちらも深層学習の一部である。

  • Another area of AI you may be hearing a lot about is generative AI.

    AIのもうひとつの分野として、ジェネレーティブAIというものがある。

  • This is a type of artificial intelligence that can produce new content including text, images, audio, and synthetic data.

    これは人工知能の一種で、テキスト、画像、音声、合成データなどの新しいコンテンツを作り出すことができる。

  • All right, back to LLMs.

    よし、LLMに戻ろう。

  • So what are large language models?

    では、大規模言語モデルとは何か?

  • Large language models refer to large, general purpose language models that can be pre-trained and then fine-tuned for specific purposes.

    大規模言語モデルとは、事前に訓練され、特定の目的に合わせて微調整が可能な、大規模で汎用的な言語モデルを指す。

  • What do pre-trained and fine-tuned mean?

    プレトレーニングやファインチューニングとはどういう意味ですか?

  • Great questions.

    素晴らしい質問だ。

  • Let's dive in.

    さあ、飛び込もう。

  • Imagine training a dog.

    犬のしつけを想像してみてほしい。

  • Often you train your dog basic commands such as sit, come, down, and stay.

    多くの場合、お座り、おいで、伏せ、ステイといった基本的なコマンドを犬に訓練する。

  • These commands are normally sufficient for everyday life and help your dog become a good canine citizen.

    これらのコマンドは通常、日常生活には十分であり、愛犬が良き犬市民になるのを助ける。

  • Good boy.

    いい子だ。

  • But if you need special service dogs such as a police dog, a guide dog, or a hunting dog, you add special trainings, right?

    しかし、警察犬や盲導犬、狩猟犬など、特別な介助犬が必要な場合は、特別な訓練を追加しますよね?

  • A similar idea applies to large language models.

    同様の考え方は、大規模な言語モデルにも当てはまる。

  • These models are trained for general purposes to solve common language problems such as text classification, question answering, document summarization, and text generation across industries.

    これらのモデルは、テキスト分類、質問応答、文書要約、業界横断的なテキスト生成など、一般的な言語問題を解決するための一般的な目的で学習される。

  • The models can then be tailored to solve specific problems in different fields such as retail, finance, and entertainment using a relatively small size of field datasets.

    このモデルは、小売、金融、エンターテインメントなど、さまざまな分野の特定の問題を解決するために、比較的小規模なフィールドデータセットを使って調整することができる。

  • So now that you've got that down, let's further break down the concept into three major features of large language models.

    さて、ここまで理解したところで、さらにその概念を大規模言語モデルの3つの大きな特徴に分解してみよう。

  • We'll start with the word large.

    まずはラージという言葉から。

  • Large indicates two meanings.

    ラージには2つの意味がある。

  • First is the enormous size of the training dataset, sometimes at the petabyte scale.

    第一に、トレーニングデータセットのサイズが膨大で、ペタバイト規模になることもある。

  • Second, it refers to the parameter count.

    2つ目は、パラメータ数である。

  • In machine learning, parameters are often called hyperparameters.

    機械学習では、パラメータはしばしばハイパーパラメータと呼ばれる。

  • Parameters are basically the memories and the knowledge the machine learned from the model training.

    パラメータは基本的に、マシンがモデルのトレーニングから学んだ記憶と知識である。

  • Parameters define the skill of a model in solving a problem such as predicting text.

    パラメータは、テキストの予測などの問題を解決するモデルのスキルを定義する。

  • So that's why we use the word large.

    だからラージという言葉を使うんだ。

  • What about general purpose?

    汎用性は?

  • General purpose is when the models are sufficient to solve common problems.

    汎用とは、一般的な問題を解決するのに十分なモデルを指す。

  • Two reasons led to this idea.

    この考えに至った理由は2つある。

  • First is the commonality of human language regardless of the specific tasks.

    第一に、特定のタスクに関係なく、人間の言語には共通性がある。

  • And second is the resource restriction.

    そして2つ目は、リソースの制限だ。

  • Only certain organizations have the capability to train such large language models with huge datasets and a tremendous number of parameters.

    膨大なデータセットと膨大な数のパラメータで、このような大規模な言語モデルを訓練できる能力を持つのは、特定の組織だけである。

  • How about letting them create fundamental language models for others to use?

    他の人が使えるような基本的な言語モデルを作らせるのはどうだろう?

  • So this leaves us with our last terms, pre-trained and fine-tuned, which mean to pre-train a large model for a general purpose with a large dataset and then fine-tune it for specific aims with a much smaller dataset.

    つまり、一般的な目的のために大規模なモデルを大規模なデータセットで事前に学習させ、その後、特定の目的のためにはるかに小規模なデータセットで微調整することを意味する。

  • So now that we've nailed down the definition of what large language models LLMs are, we can move on to describing LLM use cases.

    さて、大規模言語モデルLLMとは何かという定義がはっきりしたところで、LLMの使用例について説明しよう。

  • The benefits of using large language models are straightforward.

    大規模な言語モデルを使うメリットは単純明快だ。

  • First, a single model can be used for different tasks.

    第一に、ひとつのモデルをさまざまなタスクに使うことができる。

  • This is a dream come true.

    これは夢のような話だ。

  • These large language models that are trained with petabytes of data and generate billions of parameters are smart enough to solve different tasks, including language translation, sentence completion, text classification, question answering, and more.

    ペタバイトのデータで訓練され、何十億ものパラメータを生成するこれらの大規模な言語モデルは、言語翻訳、文章完成、テキスト分類、質問応答など、さまざまなタスクを解決するのに十分賢い。

  • Second, large language models require minimal field training data when you tailor them to solve a specific problem.

    第二に、大規模な言語モデルは、特定の問題を解決するためにカスタマイズする場合、最小限のフィールドトレーニングデータしか必要としない。

  • Large language models obtain decent performance even with little domain training data.

    大規模な言語モデルは、少ないドメイン学習データでも十分な性能を発揮する。

  • In other words, they can be used for few-shot or even zero-shot scenarios.

    言い換えれば、数発のシュート、あるいはゼロ発のシュートにも対応できる。

  • In machine learning, few-shot refers to training a model with minimal data, and zero-shot implies that a model can recognize things that have not explicitly been taught in the training before.

    機械学習では、数ショットとは最小限のデータでモデルを訓練することを意味し、ゼロショットとは、モデルが以前の訓練で明示的に教えられていないことを認識できることを意味する。

  • Third, the performance of large language models is continuously growing when you add more data and parameters.

    第三に、大規模な言語モデルの性能は、データとパラメータを追加することで継続的に向上する。

  • Let's take POM as an example.

    POMを例にとってみよう。

  • In April 2022, Google released POM, short for Pathways Language Model, a 540 billion parameter model that achieves a state-of-the-art performance across multiple language tasks.

    2022年4月、グーグルはPOM(Pathways Language Modelの略)を発表した。POMは5,400億のパラメータを持つモデルで、複数の言語タスクにおいて最先端の性能を達成している。

  • POM is a dense decoder-only transformer model.

    POMは密なデコーダのみのトランスフォーマーモデルである。

  • It leverages a new pathway system which enabled Google to efficiently train a single model across multiple TPU v4 pods.

    この新しいパスウェイシステムを活用することで、グーグルは複数のTPU v4ポッドで単一のモデルを効率的にトレーニングできるようになった。

  • Pathways is a new AI architecture that will handle many tasks at once, learn new tasks quickly, and reflect a better understanding of the world.

    パスウェイズは、一度に多くのタスクを処理し、新しいタスクを素早く学習し、より優れた世界理解を反映する新しいAIアーキテクチャである。

  • The system enables POM to orchestrate distributed computation for accelerators, but I'm getting ahead of myself.

    このシステムは、POMがアクセラレーターの分散計算をオーケストレーションすることを可能にする。

  • I previously mentioned that POM is a transformer model.

    POMがトランスフォーマーモデルであることは以前に述べた。

  • Let me explain what that means.

    その意味を説明しよう。

  • A transformer model consists of an encoder and a decoder.

    変圧器モデルはエンコーダーとデコーダーで構成される。

  • The encoder encodes the input sequence and passes it to the decoder, which learns how to decode the representations for a relevant task.

    エンコーダーは入力シーケンスをエンコードしてデコーダーに渡し、デコーダーは関連するタスクのために表現をデコードする方法を学習する。

  • We've come a long way from traditional programming to neural networks to generative models.

    私たちは伝統的なプログラミングからニューラルネットワーク、そして生成モデルへと長い道のりを歩んできた。

  • In traditional programming, we used to have to hard code the rules for distinguishing a cat.

    従来のプログラミングでは、猫を見分けるルールをハードコーディングしなければならなかった。

  • Type, animal, legs 4, ears 2, fur yes, likes, yarn and catnip.

    タイプ、動物、足4、耳2、毛皮あり、毛糸と猫じゃらしが好き。

  • In the wave of neural networks, we could give the network pictures of cats and dogs and ask, is this a cat?

    ニューラルネットワークの波では、猫や犬の写真をネットワークに与えて、これは猫ですか?

  • And they would predict a cat.

    そして、彼らは猫を予言するだろう。

  • What's really cool is that in the generative wave, we as users can generate our own content, whether it be text, images, audio, video, or more.

    本当にクールなのは、ジェネレーティブ・ウェーブでは、テキスト、画像、音声、ビデオなど、私たちユーザーが独自のコンテンツを生成できることだ。

  • For example, models like POM, or pathways language model, or Lambda, language model for dialogue applications, ingest very, very large data from multiple sources across the internet, and build foundation language models we can use simply by asking a question, whether typing it into a prompt or verbally talking into the prompt itself.

    例えば、POM(パスウェイ言語モデル)やLambda(対話アプリケーション用言語モデル)のようなモデルは、インターネット上の複数のソースから非常に大規模なデータを取り込み、プロンプトに入力するかプロンプト自体に口頭で話すか、質問をするだけで使用できる基礎言語モデルを構築する。

  • So when you ask it, what's a cat?

    では、猫とは何か?

  • It can give you everything it has learned about a cat.

    猫について学んだことをすべて教えてくれる。

  • Let's compare LLM development using pre-trained models with traditional ML development.

    事前に訓練されたモデルを使ったLLM開発と、従来のML開発を比較してみよう。

  • First, with LLM development, you don't need to be an expert.

    まず、LLMの開発では、専門家である必要はない。

  • You don't need training examples, and there is no need to train a model.

    訓練例は必要ないし、モデルを訓練する必要もない。

  • All you need to do is think about prompt design, which is a process of creating a prompt that is clear, concise, and informative.

    必要なのは、プロンプトのデザインについて考えることだ。

  • It is an important part of natural language processing, or NLP for short.

    これは自然言語処理、略してNLPの重要な部分である。

  • In traditional machine learning, you need expertise, training examples, compute time, and hardware.

    従来の機械学習では、専門知識、学習例、計算時間、ハードウェアが必要だった。

  • That's a lot more requirements than LLM development.

    それはLLMの開発よりも多くの要件だ。

  • Let's take a look at an example of a text generation use case to really drive the point home.

    テキスト生成のユースケースの例を見て、そのポイントを実感してみよう。

  • Question answering, or QA, is a subfield of natural language processing that deals with the task of automatically answering questions posed in natural language.

    質問応答(QA)は、自然言語で投げかけられた質問に自動的に答えるタスクを扱う自然言語処理のサブフィールドである。

  • QA systems are typically trained on a large amount of text and code, and they are able to answer a wide range of questions, including factual, definitional, and opinion-based questions.

    QAシステムは通常、大量のテキストとコードで訓練され、事実に基づく質問、定義に基づく質問、意見に基づく質問など、幅広い質問に答えることができる。

  • The key here is that you needed domain knowledge to develop these question answering models.

    ここで重要なのは、これらの質問応答モデルを開発するためにドメイン知識が必要だったということだ。

  • Let's make this clear with a real-world example.

    実例を挙げて説明しよう。

  • Domain knowledge is required to develop a question answering model for customer IT support, or healthcare, or supply chain.

    顧客のITサポート、ヘルスケア、サプライチェーンなどの質問応答モデルを開発するには、ドメインの知識が必要である。

  • But using generative QA, the model generates free text directly based on the context.

    しかし生成的QAを使えば、モデルは文脈に基づいて直接自由なテキストを生成する。

  • There's no need for domain knowledge.

    ドメインに関する知識は必要ない。

  • Let me show you a few examples of how cool this is.

    これがいかにクールか、いくつかの例をお見せしよう。

  • Let's look at three questions given to Gemini, a large language model chatbot developed by Google AI.

    グーグルAIが開発した大規模言語モデルチャットボット、ジェミニに与えられた3つの質問を見てみよう。

  • Question one.

    質問1。

  • This year's sales are $100,000.

    今年の売上は10万ドル。

  • Expenses are $60,000.

    経費は6万ドル。

  • How much is net profit?

    純利益はいくらですか?

  • Gemini first shares how net profit is calculated, then performs the calculation.

    ジェミニはまず、純利益の計算方法を共有し、それから計算を行う。

  • Then Gemini provides the definition of net profit.

    そして、ジェミニは純利益の定義を示す。

  • Here's another question.

    もうひとつ質問だ。

  • Inventory on hand is 6,000 units.

    手元在庫は6,000個。

  • A new order requires 8,000 units.

    新しい注文には8000個が必要だ。

  • How many units do I need to fill to complete the order?

    注文を完了するには、何ユニット必要ですか?

  • Again, Gemini answers the question by performing the calculation.

    ここでもジェミニは、計算を行うことで質問に答える。

  • And our last example.

    そして最後の例。

  • We have 1,000 sensors in 10 geographic regions.

    10の地域に1,000台のセンサーを設置している。

  • How many sensors do we have on average in each region?

    各地域の平均センサー数は?

  • Gemini answers the question with an example on how to solve the problem and some additional context.

    ジェミニは、問題を解決する方法についての例と、いくつかの追加的な文脈で質問に答える。

  • So how is that?

    それでどうなんだ?

  • In each of our questions, a desired response was obtained.

    それぞれの質問で、望ましい回答が得られた。

  • This is due to prompt design.

    これは迅速な設計によるものだ。

  • Fancy.

    ファンシーだ。

  • Prompt design and prompt engineering are two closely related concepts in natural language processing.

    プロンプトデザインとプロンプトエンジニアリングは、自然言語処理において密接に関連する2つの概念である。

  • Both involve the process of creating a prompt that is clear, concise, and informative.

    どちらも、明確で簡潔、かつ情報量の多いプロンプトを作成するプロセスを伴う。

  • But there are some key differences between the two.

    しかし、両者にはいくつかの重要な違いがある。

  • Prompt design is the process of creating a prompt that is tailored to the specific task the system is being asked to perform.

    プロンプトのデザインは、システムが実行するよう求められている特定のタスクに合わせたプロンプトを作成するプロセスである。

  • For example, if the system is being asked to translate a text from English to French, the prompt should be written in English and should specify that the translation should be in French.

    例えば、システムがテキストを英語からフランス語に翻訳するよう求められている場合、プロンプトは英語で書かれ、翻訳がフランス語であることを指定すべきである。

  • Prompt engineering is the process of creating a prompt that is designed to improve performance.

    プロンプトエンジニアリングとは、パフォーマンスを向上させるように設計されたプロンプトを作成するプロセスである。

  • This may involve using domain-specific knowledge, providing examples of the desired output, or using keywords that are known to be effective for the specific system.

    これには、ドメイン固有の知識を使ったり、希望する出力の例を示したり、特定のシステムに効果的であることが知られているキーワードを使ったりすることが含まれる。

  • In general, prompt design is a more general concept while prompt engineering is a more specialized concept.

    一般的に、プロンプト・デザインはより一般的な概念であり、プロンプト・エンジニアリングはより専門的な概念である。

  • Prompt design is essential while prompt engineering is only necessary for systems that require a high degree of accuracy or performance.

    迅速な設計が不可欠である一方、迅速なエンジニアリングが必要なのは、高度な精度や性能を必要とするシステムに限られる。

  • There are three kinds of large language models.

    大規模な言語モデルには3種類ある。

  • Generic language models, instruction-tuned, and dialogue-tuned.

    一般的な言語モデル、インストラクション・チューン、ダイアログ・チューン。

  • Each needs prompting in a different way.

    それぞれが異なる方法でプロンプトを必要としている。

  • Let's start with generic language models.

    一般的な言語モデルから始めよう。

  • Generic language models predict the next word based on the language in the training data.

    一般的な言語モデルは、学習データの言語に基づいて次の単語を予測する。

  • Here is a generic language model.

    これが一般的な言語モデルである。

  • In this example, the cat sat on.

    この例では、猫はその上に座った。

  • The next word should be the, and you can see that the is most likely the next word.

    次の単語はtheであるべきで、theが次の単語である可能性が高いことがわかる。

  • Think of this model type as an autocomplete in search.

    このモデルタイプは、検索におけるオートコンプリートのようなものだと考えてほしい。

  • Next, we have instruction-tuned models.

    次に、インストラクション・チューニング・モデルである。

  • This type of model is trained to predict a response to the instructions given in the input.

    このタイプのモデルは、入力で与えられた指示に対する反応を予測するように学習される。

  • For example, summarize a text of x.

    例えば、xの文章を要約する。

  • Generate a poem in the style of x.

    xのスタイルで詩を作る。

  • Give me a list of keywords based on semantic similarity for x.

    xの意味的類似性に基づくキーワードのリストをください。

  • In this example, classify text into neutral, negative, or positive.

    この例では、テキストを中立、否定、肯定に分類する。

  • And finally, we have dialogue-tuned models.

    そして最後に、対話チューニングされたモデルがある。

  • This model is trained to have a dialogue by the next response.

    このモデルは、次の応答までに対話ができるように訓練されている。

  • Dialogue-tuned models are a special case of instruction-tuned where requests are typically framed as questions to a chatbot.

    ダイアログ・チューニング・モデルはインストラクション・チューニングの特別なケースで、リクエストは通常チャットボットへの質問として組み立てられる。

  • Dialogue-tuning is expected to be in the context of a longer back-and-forth conversation and typically works better with natural question-like phrasings.

    ダイアログ・チューニングは、より長い前後の会話の文脈で行われることが予想され、通常、自然な質問のような言い回しがより効果的である。

  • Chain of thought reasoning is the observation that models are better at getting the right answer when they first output text that explains the reason for the answer.

    思考の連鎖推論とは、モデルが最初に答えの理由を説明するテキストを出力した方が、正しい答えを導き出せるという観察である。

  • Let's look at the question.

    質問を見てみよう。

  • Roger has five tennis balls.

    ロジャーはテニスボールを5個持っている。

  • He buys two more cans of tennis balls.

    さらにテニスボールを2缶買う。

  • Each can has three tennis balls.

    各缶にはテニスボールが3個ずつ入っている。

  • How many tennis balls does he have now?

    彼は今、テニスボールをいくつ持っているのだろう?

  • This question is posed initially with no response.

    この質問は、最初は何の反応もなく投げかけられる。

  • The model is less likely to get the correct answer directly.

    モデルが直接正解を導き出す可能性は低い。

  • However, by the time the second question is asked, the output is more likely to end with the correct answer.

    しかし、2問目が出題される頃には、アウトプットは正解で終わる可能性が高くなる。

  • But there is a catch.

    でも、キャッチがある。

  • There's always a that can do everything has practical limitations.

    何でもできるものには必ず現実的な限界がある。

  • But task-specific tuning can make NLMs more reliable.

    しかし、タスクに特化したチューニングは、NLMの信頼性を高めることができる。

  • Vertex AI provides task-specific foundation models.

    バーテックスAIは、タスクに特化した基礎モデルを提供する。

  • Let's get into how you can tune with some real-world examples.

    では、どのようにチューニングすればいいのか、実例を挙げて説明しよう。

  • Let's say you have a use case where you need to gather how your customers are feeling about your product or service.

    例えば、顧客が製品やサービスについてどのように感じているかを収集する必要があるユースケースがあるとしよう。