Placeholder Image

字幕表 動画を再生する

審査済み この字幕は審査済みです
  • Since ChatGPT launched in 2022, large language models have progressed at a rapid pace, often developing unpredictable abilities.

    ChatGPTが2022年に登場して以来、大規模言語モデルは急速に進歩し、予測不可能な能力を頻繁に開発している。

  • When GPT-4 came out, it clearly felt like the chatbot has some level of understanding.

    GPT-4が登場した時、チャットボットにある程度の理解力があることは明らかだった。

  • But do these abilities reflect actual understanding?

    しかし、これらの能力は実際の理解を反映しているのだろうか。

  • Or are the models simply repeating their training data, like so-called stochastic parrots?

    それとも、いわゆる確率的オウム(機械学習による大規模言語モデルはもっともらしい言語を生成できるものの、処理対象の言語の意味を理解してはいないという理論を説明する比喩)のように、モデルは単に訓練データを繰り返しているだけなのだろうか。

  • Recently, researchers from Princeton and Google DeepMind created a mathematically provable argument for how language models develop so many skills.

    最近、プリンストン大学とGoogle DeepMindの研究者たちは、言語モデルがどのように多くのスキルを開発するかについて、数学的に証明可能な論証を作成した。

  • And designed a method for testing them.

    そしてそれらをテストする方法を設計した。

  • The results suggest that the largest models develop new skills in a way that hints at understanding.

    結果は、最大規模のモデルが理解を示唆する方法で新しいスキルを開発することを示している。

  • Language models are basically trained to solve next word prediction tasks.

    言語モデルは基本的に次の単語を予測するタスクを解決するように訓練されている。

  • So they are given a lot of text and at every step it has some idea of what the next word is.

    多くのテキストが与えられ、各ステップで次の単語についてのアイデアを持っている。

  • And that idea is expressed in terms of a probability.

    そのアイデアは確率として表現される。

  • And if the next word didn't get high enough probability, there's a slight adjustment that's done.

    次の単語が十分な確率を得られなかった場合、わずかな調整が行われる。

  • And after many, many, many trillions of such small adjustments, it learns to predict the next word.

    そして何兆回もの小さな調整の後、次の単語を予測することを学習する。

  • Over time, researchers have observed neural scaling laws, an empirical relationship between the performance of language models and the data used to train them.

    時間とともに、研究者たちは言語モデルのパフォーマンスと、それらを訓練するデータの間の経験的な関係であるニューラルスケーリング則を観察してきた。

  • As models improve, they minimize training loss or make fewer errors.

    モデルが改善されるにつれて、訓練損失を最小化するか、エラーを減らす。

  • This sudden increase in performance produces new behaviors, a phenomenon called emergence.

    このパフォーマンスの突然の向上は新しい振る舞いを生み出し、これは創発と呼ばれる現象である。

  • There's no scientific explanation as to why that's happening.

    なぜそれが起こるのかについての科学的な説明はない。

  • So this phenomenon is not well understood.

    そのため、この現象はよく理解されていない。

  • The researchers wondered if GPT-4 sudden improvements could be explained by emergence.

    研究者たちは、GPT-4の突然の改善が創発によって説明できるかどうかを考えた。

  • Perhaps the model had learned compositional generalization, the ability to combine language skills.

    おそらく、モデルは言語スキルを組み合わせる能力である構成的一般化を学習したのだろう。

  • This was some kind of a meta capability.

    これは一種のメタ能力だった。

  • There was no mathematical framework to think about that.

    それについて考えるための数学的フレームワークは存在しなかった。

  • And so we had to come up with a mathematical framework.

    そこで、私たちは数学的フレームワークを考案しなければならなかった。

  • The researchers found their first hint by considering neural scaling laws.

    研究者たちは、ニューラルスケーリング則を考慮することで最初のヒントを見つけた。

  • So those scaling laws already suggest that there's some statistical phenomenon going on.

    そのスケーリング則は、すでに何らかの統計的現象が起きていることを示唆している。

  • So random graphs have a long history in terms of thinking about statistical phenomena.

    ランダムグラフは統計的現象を考える上で長い歴史を持っている。

  • Random graphs are made of nodes which are connected by randomly generated edges.

    ランダムグラフは、ランダムに生成されたエッジで接続されたノードで構成されている。

  • The researchers built their mathematical model with bipartite graphs, which contain two types of nodes, one representing chunks of text and the other language skills.

    研究者たちは、テキストの塊と言語スキルという2つのタイプのノードを含む二部グラフで数学的モデルを構築した。

  • The edges of the graph, the connections correspond to which skill is needed to understand that piece of text.

    グラフのエッジ、つまり接続は、そのテキストの断片を理解するために必要なスキルに対応している。

  • Now, the researchers needed to connect these bipartite graphs to actual language models.

    次に、研究者たちはこれらの二部グラフを実際の言語モデルに接続する必要があった。

  • But there was a problem.

    しかし問題があった。

  • Don't have access to the training data.

    訓練データにアクセスできない。

  • So if I'm evaluating that language model on my evaluation set, how do I know that the language model hasn't seen that data into the training corpus?

    自分の評価セットで言語モデルを評価する場合、言語モデルが訓練コーパスでそのデータを見ていないことをどうやって知ることができるのか。

  • There was one crucial piece of information that the researchers could access.

    研究者たちがアクセスできる重要な情報が1つあった。

  • Using that scaling law, we made a prediction as models get better at predicting the next word, that they will be able to combine more of the underlying skills.

    そのスケーリング則を使って、モデルが次の単語の予測が上手くなるにつれて、より多くの基礎的なスキルを組み合わせることができるようになるという予測を立てた。

  • According to random graph theory, every combination arises from a random sampling of possible skills.

    ランダムグラフ理論によると、すべての組み合わせは可能なスキルのランダムサンプリングから生じる。

  • If there are 100 skill nodes in the graph and you want to combine four skills, then there are about 100 to the fourth power or 100 million ways to combine them.

    グラフに100個のスキルノードがあり、4つのスキルを組み合わせたい場合、100の4乗、つまり1億通りの組み合わせ方がある。

  • The researchers developed a test called SkillMix to evaluate if large language models can generalize to combinations of skills they likely hadn't seen before.

    研究者たちは、大規模言語モデルが以前に見たことのないスキルの組み合わせに一般化できるかを評価するSkillMixというテストを開発した。

  • So the model is given a list of skills and a topic, and then it's supposed to create a piece of text on that topic using that list of skills.

    モデルにはスキルのリストとトピックが与えられ、そのトピックについてそのスキルのリストを使用してテキストを作成することが求められる。

  • For example, the researchers asked GPT-4 to generate a short text about sewing that exhibits spatial reasoning, self-serving bias and metaphor.

    例えば、研究者たちはGPT-4に、空間的推論、自己奉仕的バイアス、比喩を示す裁縫についての短いテキストを生成するように求めた。

  • Here's what it answered.

    これが回答である。

  • In the labyrinth of sewing, I am the needle navigating between the intricate weaves.

    裁縫の迷路の中で、私は複雑な織物の間をナビゲートする針である。

  • Any errors are due to the faulty compass of low quality thread, not my skill.

    エラーは私のスキルではなく、低品質の糸という欠陥のあるコンパスのせいである。

  • We showed in our mathematical framework that as we scale up, the model is able to learn these skills.

    私たちの数学的フレームワークで、スケールアップするにつれてモデルがこれらのスキルを学習できることを示した。

  • You would see this increase in compositional capability as you scale up the models.

    モデルをスケールアップすると、この構成的能力の増加が見られる。

  • When given the SkillMix test, small language models struggled to combine just a couple of skills.

    SkillMixテストを与えられた時、小規模な言語モデルは数個のスキルを組み合わせることにも苦労した。

  • Medium-sized models could combine two skills more comfortably, but the largest models, like GPT-4, could combine five or six skills.

    中規模のモデルはより快適に2つのスキルを組み合わせることができたが、GPT-4のような最大規模のモデルは5つか6つのスキルを組み合わせることができた。

  • Because these models couldn't have seen all possible combinations of skills, the researchers argue that it must have developed compositional generalization through emergence.

    これらのモデルがスキルのすべての可能な組み合わせを見ることができなかったため、研究者たちは創発を通じて構成的一般化を開発したに違いないと主張している。

  • Once the model has learned these language skills, a model can generalize to random, unseen compositions of these skills.

    モデルがこれらの言語スキルを学習すると、ランダムな、見たことのないスキルの構成に一般化できる。

  • What they showed was that their mathematical model had this property of compositionality, and that by itself gives this ability to extrapolate and compose new combinations from existing pieces.

    彼らが示したのは、彼らの数学的モデルがこの構成性という特性を持っており、それ自体が既存の部分から新しい組み合わせを外挿し、構成する能力を与えるということだった。

  • And that is really the hallmark of novelty and the hallmark of creativity.

    そして、それが新規性と創造性の特徴なのである。

  • And so the argument is that large language models can move beyond being stochastic parents.

    したがって、大規模言語モデルは確率的オウムを超えて進化できるという主張である。

  • The researchers are already working to extend the SkillMix evaluation to other domains as part of a larger effort to understand the capabilities of large language models.

    研究者たちは、大規模言語モデルの能力を理解するより大きな取り組みの一環として、すでにSkillMix評価を他の領域に拡張する作業を行っている。

  • Can we create an ecosystem of SkillMix, which is not just valid for language skills, but mathematical skills as well as coding skills?

    言語スキルだけでなく、数学的スキルやコーディングスキルにも有効なSkillMixのエコシステムを作ることができるだろうか。

  • So SkillMix was one example where we made a prediction by just mathematical thinking, and that was correct.

    SkillMixは、数学的思考だけで予測を立て、それが正しかった一例だった。

  • But there are all kinds of other phenomena that we probably are not aware of, and we need some understanding of that.

    しかし、私たちがおそらく気づいていない他の種類の現象がたくさんあり、それについての理解が必要である。

  • Quantum systems are some of the most complex structures in nature.

    量子システムは自然界で最も複雑な構造の1つである。

  • To model them, you need to compute a Hamiltonian, a super equation that describes how particles interact locally to produce the system's possible physical properties.

    それらをモデル化するには、粒子が局所的に相互作用してシステムの可能な物理的特性を生成する方法を記述する超方程式であるハミルトニアンを計算する必要がある。

  • But entanglement spreads information across the system, correlating particles that are far apart.

    しかし、エンタングルメントはシステム全体に情報を広げ、離れた粒子を相関させる。

  • This makes computing Hamiltonians exceptionally difficult.

    これによってハミルトニアンの計算が非常に難しくなる。

  • You have a giant system of atoms.

    原子の巨大なシステムがある。

  • It's a very big problem to learn all those parameters.

    それらのパラメータをすべて学習することは非常に大きな問題である。

  • You could never hope to write down the Hamiltonian.

    ハミルトニアンを書き下すことは決してできないだろう。

  • If you ever even tried to write it down, the game would be over and you wouldn't have an efficient algorithm.

    もし書き下そうとしても、ゲームはおしまいで、効率的なアルゴリズムは得られないだろう。

  • People were actually trying to prove that efficient algorithms were impossible in this regime.

    人々は実際にこの領域では効率的なアルゴリズムが不可能であることを証明しようとしていた。

  • But a team of computer scientists from MIT and UC Berkeley cracked the problem.

    しかし、MITとUC Berkeleyのコンピュータサイエンティストのチームがこの問題を解決した。

  • They created an algorithm that can produce the Hamiltonian of a quantum system at any constant temperature.

    彼らは任意の一定温度での量子システムのハミルトニアンを生成できるアルゴリズムを作成した。

  • The results could have big implications for the future of quantum computing and understanding exotic quantum behavior.

    この結果は、量子コンピューティングの未来と特異な量子的振る舞いの理解に大きな影響を与える可能性がある。

  • So when we have systems that behave and do interesting things like superfluidity and superconductivity, you want to understand the building blocks and how they fit together to create those properties that you want to harness for technological reasons.

    超流動性や超伝導性のような面白いことをする系があるとき、技術的な理由で活用したいそれらの特性を作り出すための構成要素とそれらがどのように組み合わさるかを理解したい。

  • So we're trying to learn this object, which is the Hamiltonian.

    そこで、このハミルトニアンというオブジェクトを学習しようとしている。

  • It's defined by a small set of parameters.

    それは少数のパラメータによって定義される。

  • And what we're trying to do is learn these parameters.

    そして私たちが試みているのは、これらのパラメータを学習することである。

  • What we have access to is these experimental measurements of the quantum system.

    私たちがアクセスできるのは、量子システムのこれらの実験的測定である。

  • So the question then becomes, can you learn a description of the system through experiments?

    そこで問題は、実験を通じてシステムの記述を学習できるかということになる。

  • Previous efforts in Hamiltonian learning produced algorithms that could measure particles at high temperatures.

    ハミルトニアン学習の以前の試みは、高温で粒子を測定できるアルゴリズムを生み出した。

  • But these systems are largely classical, so there's no entanglement between the particles.

    しかし、これらのシステムは主に古典的なものであり、粒子間のエンタングルメントは存在しない。

  • The MIT and Berkeley team set their sights on the low temperature quantum regimes.

    MITとBerkeleyのチームは低温量子領域に焦点を当てた。

  • I wanted to understand what kinds of strategies worked algorithmically on the classical side and what could be manifestations of those strategies on the quantum side.

    古典的な側面でアルゴリズム的にどのような戦略が機能し、量子的な側面でそれらの戦略がどのように現れるかを理解したかった。

  • Once you look at the problem in the right way and you bring to bear these tools, it turns out that you can really make progress on these problems.

    問題を正しい方法で見て、これらのツールを活用すると、これらの問題で本当に進展を遂げることができることが分かる。

  • First, the team ported over a tool from classical machine learning called polynomial optimization.

    まず、チームは古典的な機械学習から多項式最適化と呼ばれるツールを移植した。

  • This allowed them to approximate the measurements of their system as a family of polynomial equations.

    これにより、システムの測定を多項式方程式の族として近似することができた。

  • We were like, maybe we can write Hamiltonian learning as a polynomial optimization problem.

    ハミルトニアン学習を多項式最適化問題として記述できるのではないかと考えた。

  • And if we manage to do this, maybe we can try to optimize this polynomial system efficiently.

    そして、もしそれができれば、この多項式システムを効率的に最適化することを試みることができるかもしれない。

  • So all of a sudden, it's in a domain that's more familiar and you have a bunch of algorithmic tools at your disposal.

    突然、それはより馴染みのある領域に入り、使用できるアルゴリズムツールが多数存在することになる。

  • You can't solve polynomial systems, but what you can do is you can sort of solve a relaxation of them.

    多項式システムを解くことはできないが、それらの緩和を解くことはできる。

  • We use something called the sum of squares relaxation to actually solve this polynomial system.

    この多項式システムを実際に解くために、二乗和緩和と呼ばれるものを使用する。

  • Starting with a challenging polynomial optimization problem, the team used the sum of squares method to relax its constraints.

    困難な多項式最適化問題から始めて、チームは二乗和法を使用して制約を緩和した。

  • This expanded the equations to a larger allowable set of solutions, effectively converting it from a hard problem to an easier one.

    これにより方程式は、より大きな許容解集合に拡張され、実質的に困難な問題から簡単な問題に変換された。

  • The real trick is to argue that when you've expanded the set of solutions, you can still find a good solution inside it.

    本当のコツは、解集合を拡張しても、その中で良い解を見つけることができると主張することである。

  • You need a procedure to take that approximate relaxed solution and round it back into an actual solution to the problem you really cared about.

    近似された緩和解を取り、本当に気にしていた問題の実際の解に丸める手順が必要である。

  • So that's really where the coolest parts of the proof happen.

    それが証明の最も面白い部分が起こる場所である。

  • The researchers proved that the sum of squares relaxation could solve their learning problem, resulting in the first efficient Hamiltonian algorithm in a low temperature regime.

    研究者たちは、二乗和緩和が学習問題を解決できることを証明し、低温領域での最初の効率的なハミルトニアンアルゴリズムが生まれた。

  • So we first make some set of measurements of the macroscopic properties of the system, and then we use these measurements to set up a system of polynomial equations.

    まず、システムの巨視的特性の測定セットを行い、次にこれらの測定を使用して多項式方程式のシステムを設定する。

  • And then we solve the system of polynomial equations.

    そして、その多項式方程式のシステムを解く。

  • So the output is a description of the local interactions in the system.

    出力はシステムにおける局所的な相互作用の記述である。

  • There are actually some very interesting learning problems that are at the heart of understanding quantum systems.

    量子システムを理解する核心には、実際にとても興味深い学習問題がある。

  • And to me, that was the most exciting part was really a connection between two different worlds.

    そして私にとって、最も興奮した部分は2つの異なる世界の間の接続が実現したことだった。

  • This combination of tools is really interesting and something I haven't seen before.

    このツールの組み合わせは本当に興味深く、以前には見たことがないものである。

  • I'm hoping it's like a useful perspective with which to tackle other questions as well.

    他の問題にも取り組むための有用な視点になることを期待している。

  • I think we find ourselves at the start of this new bridge between theoretical computer science and quantum mechanics.

    理論コンピューター科学と量子力学を結ぶ新たな架け橋のスタート地点に立ったのだと思う。

Since ChatGPT launched in 2022, large language models have progressed at a rapid pace, often developing unpredictable abilities.

ChatGPTが2022年に登場して以来、大規模言語モデルは急速に進歩し、予測不可能な能力を頻繁に開発している。

字幕と単語
審査済み この字幕は審査済みです

ワンタップで英和辞典検索 単語をクリックすると、意味が表示されます

B1 中級 日本語

【ChatGPT】2024年で最大のAIの躍進

  • 12469 73
    VoiceTube に公開 2024 年 12 月 24 日
動画の中の単語