字幕表 動画を再生する AI 自動生成字幕 字幕スクリプトをプリント 翻訳字幕をプリント 英語字幕をプリント Since ChatGPT launched in 2022, large language models have progressed at a rapid pace, often developing unpredictable abilities. 2022年にChatGPTが開始されて以来、大規模な言語モデルは急速なペースで進歩し、しばしば予測不可能な能力を開発してきた。 When GPT-4 came out, it clearly felt like the chatbot has some level of understanding. GPT-4が登場したとき、明らかにチャットボットがある程度の理解力を持っていると感じた。 But do these abilities reflect actual understanding? しかし、これらの能力は実際の理解を反映しているのだろうか? Or are the models simply repeating their training data, like so-called stochastic parrots? それとも、いわゆる確率的オウム返しのように、モデルは単に訓練データを繰り返しているだけなのだろうか? Recently, researchers from Princeton and Google DeepMind created a mathematically provable argument for how language models develop so many skills. 最近、プリンストン大学とグーグル・ディープマインドの研究者が、言語モデルがこれほど多くのスキルを身につける方法について、数学的に証明可能な論拠を示した。 And designed a method for testing them. そして、それをテストする方法を考案した。 The results suggest that the largest models develop new skills in a way that hints at understanding. この結果は、最大のモデルが、理解を示唆する形で新しいスキルを開発することを示唆している。 Language models are basically trained to solve next word prediction tasks. 言語モデルは基本的に、次の単語を予測するタスクを解くために学習される。 So they are given a lot of text and at every step it has some idea of what the next word is. そのため、多くのテキストが与えられ、ステップごとに次の単語が何であるかがわかるようになっている。 And that idea is expressed in terms of a probability. そして、その考えは確率という言葉で表現される。 And if the next word didn't get high enough probability, there's a slight adjustment that's done. そして、次の単語が十分な確率を得られなかった場合、若干の調整が行われる。 And after many, many, many trillions of such small adjustments, it learns to predict the next word. そして、そのような小さな調整を何度も何度も何兆回も繰り返すうちに、次の言葉を予測することを学習する。 Over time, researchers have observed neural scaling laws, an empirical relationship between the performance of language models and the data used to train them. 長い年月をかけて、研究者たちはニューラル・スケーリング法則、つまり言語モデルの性能と訓練に使われるデータとの間に経験的な関係があることを観察してきた。 As models improve, they minimize training loss or make fewer errors. モデルが上達するにつれて、トレーニングのロスを最小限に抑えたり、エラーを少なくしたりする。 This sudden increase in performance produces new behaviors, a phenomenon called emergence. この急激なパフォーマンスの向上は、新たな行動を生み出し、創発と呼ばれる現象を引き起こす。 There's no scientific explanation as to why that's happening. なぜそうなるのか、科学的な説明はない。 So this phenomenon is not well understood. だから、この現象はよく理解されていない。 The researchers wondered if GPT-4 sudden improvements could be explained by emergence. 研究者たちは、GPT-4の突然の改善が出現によって説明できるのではないかと考えた。 Perhaps the model had learned compositional generalization, the ability to combine language skills. おそらくこのモデルは、言語能力を組み合わせる能力である構文汎化を学んでいたのだろう。 This was some kind of a meta capability. これはある種のメタ能力だった。 There was no mathematical framework to think about that. それを考える数学的な枠組みはなかった。 And so we had to come up with a mathematical framework. だから、数学的な枠組みを考えなければならなかった。 The researchers found their first hint by considering neural scaling laws. 研究者たちは、神経スケーリングの法則を検討することで最初のヒントを見つけた。 So those scaling laws already suggest that there's some statistical phenomenon going on. つまり、これらのスケーリング法則は、すでに何らかの統計的現象が起きていることを示唆しているのだ。 So random graphs have a long history in terms of thinking about statistical phenomena. ランダムグラフは、統計的現象を考える上で長い歴史を持っているわけだ。 Random graphs are made of nodes which are connected by randomly generated edges. ランダム・グラフは、ランダムに生成された辺で結ばれたノードで構成される。 The researchers built their mathematical model with bipartite graphs, which contain two types of nodes, one representing chunks of text and the other language skills. 研究者たちは、2つのノードを含む2部グラフで数学モデルを構築した。 The edges of the graph, the connections correspond to which skill is needed to understand that piece of text. グラフの辺、つまりつながりは、その文章を理解するために必要なスキルに対応している。 Now, the researchers needed to connect these bipartite graphs to actual language models. さて、研究者たちは、この二分割グラフを実際の言語モデルに接続する必要があった。 But there was a problem. しかし、問題があった。 Don't have access to the training data. トレーニングデータにアクセスできない。 So if I'm evaluating that language model on my evaluation set, how do I know that the language model hasn't seen that data into the training corpus? では、評価セットで言語モデルを評価する場合、その言語モデルがトレーニング・コーパスのデータを見ていないことをどうやって確認すればいいのだろうか? There was one crucial piece of information that the researchers could access. 研究者たちがアクセスできる重要な情報がひとつあった。 Using that scaling law, we made a prediction as models get better at predicting the next word, that they will be able to combine more of the underlying skills. このスケーリング法則を利用して、モデルが次の単語を予測するのがうまくなるにつれて、基礎となるスキルをより多く組み合わせることができるようになるという予測を立てた。 According to random graph theory, every combination arises from a random sampling of possible skills. ランダムグラフ理論によれば、すべての組み合わせは、可能なスキルのランダムなサンプリングから生じる。 If there are 100 skill nodes in the graph and you want to combine four skills, then there are about 100 to the fourth power or 100 million ways to combine them. グラフに100個のスキルノードがあり、4つのスキルを組み合わせたい場合、組み合わせ方は100の4乗、つまり1億通りある。 The researchers developed a test called SkillMix to evaluate if large language models can generalize to combinations of skills they likely hadn't seen before. 研究者たちは、大規模な言語モデルがこれまで見たこともないようなスキルの組み合わせに汎化できるかどうかを評価するために、SkillMixと呼ばれるテストを開発した。 So the model is given a list of skills and a topic, and then it's supposed to create a piece of text on that topic using that list of skills. つまり、モデルにはスキルのリストとトピックが与えられ、そのスキルのリストを使ってそのトピックに関する文章を作成することになっている。 For example, the researchers asked GPT-4 to generate a short text about sewing that exhibits spatial reasoning, self-serving bias and metaphor. たとえば、研究者たちはGPT-4に、空間的推論、利己的バイアス、メタファーを示す裁縫に関する短い文章を作成するよう求めた。 Here's what it answered. その答えはこうだ。 In the labyrinth of sewing, I am the needle navigating between the intricate weaves. 縫製の迷宮の中で、私は複雑な織物の間を進む針である。 Any errors are due to the faulty compass of low quality thread, not my skill. 誤差は、私の技術ではなく、低品質の糸によるコンパスの不具合によるものだ。 We showed in our mathematical framework that as we scale up, the model is able to learn these skills. 私たちは数学的フレームワークで、規模を拡大すればするほど、モデルがこれらのスキルを学習できることを示した。 You would see this increase in compositional capability as you scale up the models. モデルを拡大すればするほど、このように構成能力が向上していくのがわかるだろう。 When given the SkillMix test, small language models struggled to combine just a couple of skills. SkillMixテストでは、小さな言語モデルは2、3のスキルを組み合わせるのに苦労した。 Medium-sized models could combine two skills more comfortably, but the largest models, like GPT-4, could combine five or six skills. GPT-4のような大型モデルは、5~6つのスキルを組み合わせることができる。 Because these models couldn't have seen all possible combinations of skills, the researchers argue that it must have developed compositional generalization through emergence. 研究者たちは、これらのモデルはすべての可能なスキルの組み合わせを見ることはできなかったため、創発によって構成的汎化を発達させたに違いないと主張している。 Once the model has learned these language skills, a model can generalize to random, unseen compositions of these skills. 一旦モデルがこれらの言語スキルを学習すれば、モデルはこれらのスキルのランダムで未知の構成に汎化することができる。 What they showed was that their mathematical model had this property of compositionality, and that by itself gives this ability to extrapolate and compose new combinations from existing pieces. 彼らが示したのは、彼らの数学的モデルには構成性という性質があり、それ自体が、既存のピースから新しい組み合わせを推定し、構成する能力を与えるということだった。 And that is really the hallmark of novelty and the hallmark of creativity. そしてそれこそが新しさの特徴であり、創造性の特徴なのだ。 And so the argument is that large language models can move beyond being stochastic parents. つまり、大規模な言語モデルは、確率的な親であることを超えられるということだ。 The researchers are already working to extend the SkillMix evaluation to other domains as part of a larger effort to understand the capabilities of large language models. 研究者たちはすでに、大規模な言語モデルの能力を理解するための大きな取り組みの一環として、SkillMixの評価を他のドメインに拡張する作業を行っている。 Can we create an ecosystem of SkillMix, which is not just valid for language skills, but mathematical skills as well as coding skills? 言語スキルだけでなく、数学スキルやコーディングスキルにも有効なスキルミックスのエコシステムを作ることはできないだろうか? So SkillMix was one example where we made a prediction by just mathematical thinking, and that was correct. スキルミックスは、数学的思考だけで予測を立て、それが的中した例のひとつだ。 But there are all kinds of other phenomena that we probably are not aware of, and we need some understanding of that. しかし、おそらく私たちが気づいていないような現象が他にもいろいろあるはずで、それをある程度理解する必要がある。 Quantum systems are some of the most complex structures in nature. 量子系は自然界で最も複雑な構造のひとつである。 To model them, you need to compute a Hamiltonian, a super equation that describes how particles interact locally to produce the system's possible physical properties. それらをモデル化するには、ハミルトニアンを計算する必要がある。ハミルトニアンとは、粒子がどのように局所的に相互作用し、システムの可能な物理的特性を生み出すかを記述する超方程式である。 But entanglement spreads information across the system, correlating particles that are far apart. しかし、エンタングルメントはシステム全体に情報を広げ、離れている粒子を相関させる。 This makes computing Hamiltonians exceptionally difficult. これはハミルトニアンの計算を例外的に難しくしている。 You have a giant system of atoms. あなたは巨大な原子のシステムを持っている。 It's a very big problem to learn all those parameters. すべてのパラメーターを覚えるのはとても大きな問題だ。 You could never hope to write down the Hamiltonian. ハミルトニアンを書き記すことは不可能だ。 If you ever even tried to write it down, the game would be over and you wouldn't have an efficient algorithm. それを書き留めようとしても、ゲームは終わってしまうし、効率的なアルゴリズムもできない。 People were actually trying to prove that efficient algorithms were impossible in this regime. 人々は実際に、この体制では効率的なアルゴリズムが不可能であることを証明しようとしていた。 But a team of computer scientists from MIT and UC Berkeley cracked the problem. しかし、マサチューセッツ工科大学(MIT)とカリフォルニア大学バークレー校のコンピューター科学者チームがこの問題を解明した。 They created an algorithm that can produce the Hamiltonian of a quantum system at any constant temperature. 彼らは、任意の一定温度における量子系のハミルトニアンを生成できるアルゴリズムを作成した。 The results could have big implications for the future of quantum computing and understanding exotic quantum behavior. この結果は、量子コンピューティングの将来やエキゾチックな量子現象の理解に大きな影響を与える可能性がある。 So when we have systems that behave and do interesting things like superfluidity and superconductivity, you want to understand the building blocks and how they fit together to create those properties that you want to harness for technological reasons. だから、超流動や超伝導のような興味深い振る舞いをするシステムがある場合、その構成要素を理解し、それらがどのように組み合わさって、技術的な理由で利用したい特性を生み出すのかを理解したい。 So we're trying to learn this object, which is the Hamiltonian. つまり、ハミルトニアンというオブジェクトを学ぼうとしているわけだ。 It's defined by a small set of parameters. それは小さなパラメータのセットによって定義される。 And what we're trying to do is learn these parameters. 私たちがやろうとしているのは、これらのパラメーターを学ぶことだ。 What we have access to is these experimental measurements of the quantum system. 私たちがアクセスできるのは、量子システムの実験的測定である。 So the question then becomes, can you learn a description of the system through experiments? では、実験を通してシステムの説明を学ぶことはできるのか? Previous efforts in Hamiltonian learning produced algorithms that could measure particles at high temperatures. ハミルトニアン学習におけるこれまでの努力は、高温で粒子を測定できるアルゴリズムを生み出した。 But these systems are largely classical, so there's no entanglement between the particles. しかし、これらのシステムはほとんど古典的なものなので、粒子間のもつれはない。 The MIT and Berkeley team set their sights on the low temperature quantum regimes. マサチューセッツ工科大学(MIT)とバークレー校の研究チームは、低温量子領域に狙いを定めた。 I wanted to understand what kinds of strategies worked algorithmically on the classical side and what could be manifestations of those strategies on the quantum side. 私は、古典的な側ではどのような戦略がアルゴリズム的に機能し、量子的な側では何がその戦略の現れとなり得るかを理解したかった。 Once you look at the problem in the right way and you bring to bear these tools, it turns out that you can really make progress on these problems. ひとたび正しい方法で問題をとらえ、これらのツールを駆使すれば、これらの問題を本当に前進させることができるのだ。 First, the team ported over a tool from classical machine learning called polynomial optimization. まずチームは、多項式最適化と呼ばれる古典的な機械学習のツールを移植した。 This allowed them to approximate the measurements of their system as a family of polynomial equations. これにより、彼らはシステムの測定値を多項式方程式の族として近似することができた。 We were like, maybe we can write Hamiltonian learning as a polynomial optimization problem. 私たちは、ハミルトニアン学習を多項式最適化問題として書けるかもしれない、と考えた。 And if we manage to do this, maybe we can try to optimize this polynomial system efficiently. もしこれができれば、この多項式システムを効率的に最適化することができるだろう。 So all of a sudden, it's in a domain that's more familiar and you have a bunch of algorithmic tools at your disposal. つまり、突然、より馴染みのある領域で、自由に使えるアルゴリズムツールがたくさんあるわけだ。 You can't solve polynomial systems, but what you can do is you can sort of solve a relaxation of them. 多項式を解くことはできないが、その緩和を解くことはできる。 We use something called the sum of squares relaxation to actually solve this polynomial system. この多項式システムを実際に解くには、二乗和緩和と呼ばれるものを使う。 Starting with a challenging polynomial optimization problem, the team used the sum of squares method to relax its constraints. 難易度の高い多項式最適化問題からスタートし、チームは二乗和法を用いて制約条件を緩和した。 This expanded the equations to a larger allowable set of solutions, effectively converting it from a hard problem to an easier one. これにより、方程式の解の許容範囲が広がり、事実上、難しい問題から簡単な問題に変わった。 The real trick is to argue that when you've expanded the set of solutions, you can still find a good solution inside it. 本当のコツは、解の集合を広げたとしても、その中でまだ良い解を見つけることができると主張することだ。 You need a procedure to take that approximate relaxed solution and round it back into an actual solution to the problem you really cared about. その近似的なリラックスした解決策を、あなたが本当に気にかけていた問題に対する実際の解決策に丸め直す手順が必要なのだ。 So that's really where the coolest parts of the proof happen. だから、証明の最もクールな部分はそこにあるんだ。 The researchers proved that the sum of squares relaxation could solve their learning problem, resulting in the first efficient Hamiltonian algorithm in a low temperature regime. 研究者たちは、二乗和緩和が学習問題を解決できることを証明し、低温領域で初の効率的なハミルトニアンアルゴリズムを生み出した。 So we first make some set of measurements of the macroscopic properties of the system, and then we use these measurements to set up a system of polynomial equations. そこでまず、システムの巨視的な特性についていくつかの測定を行い、次にこれらの測定値を用いて多項式方程式系を設定する。 And then we solve the system of polynomial equations. そして、多項式方程式系を解く。 So the output is a description of the local interactions in the system. つまり、出力はシステム内の局所的な相互作用の記述である。 There are actually some very interesting learning problems that are at the heart of understanding quantum systems. 実は、量子システムを理解するための核心となる、非常に興味深い学習問題がある。 And to me, that was the most exciting part was really a connection between two different worlds. 私にとって、それが最もエキサイティングな部分だった。 This combination of tools is really interesting and something I haven't seen before. このツールの組み合わせは実に興味深く、これまでに見たことがないものだ。 I'm hoping it's like a useful perspective with which to tackle other questions as well. 他の問題にも取り組むための有益な視点のようなものであってほしいと思っている。 I think we find ourselves at the start of this new bridge between theoretical computer science and quantum mechanics. 理論コンピューター科学と量子力学を結ぶ新たな架け橋のスタート地点に立ったのだと思う。
B1 中級 日本語 米 2024年、コンピューター科学における最大のブレークスルー (2024's Biggest Breakthroughs in Computer Science) 459 1 VoiceTube に公開 2024 年 12 月 23 日 シェア シェア 保存 報告 動画の中の単語