Placeholder Image

字幕表 動画を再生する

AI 自動生成字幕
  • I thought it plateaued.

    停滞したと思っていた。

  • I thought the bubble was about to burst and the hype train was derailing.

    バブルがはじけ、誇大広告列車が脱線しているのだと思った。

  • I even thought my software engineering job might be safe from Devon.

    私のソフトウェア・エンジニアリングの仕事は、デボンから安全かもしれないとさえ思っていた。

  • But I couldn't have been more wrong.

    だが、これ以上の間違いはない。

  • Yesterday, OpenAI released a new terrifying state-of-the-art model named O1.

    昨日、OpenAIはO1という名の恐ろしい最新モデルを発表した。

  • And it's not just another basic GPT, it's a new paradigm of deep thinking or reasoning models that obliterate all past benchmarks on math, coding, and PhD level science.

    そして、それは単なる基本的なGPTではなく、数学、コーディング、博士号レベルの科学に関する過去のベンチマークをすべて消し去る、深い思考や推論モデルの新しいパラダイムなのだ。

  • And Sam Altman had a message for all AI haters out there.

    そしてサム・アルトマンは、AI嫌いの人たちにメッセージを送った。

  • Before we get too hopeful that O1 will unburden us from our programming jobs though, there are many reasons to doubt this new model.

    O1が私たちをプログラミングの仕事から解放してくれると期待しすぎる前に、この新モデルを疑う理由はたくさんある。

  • It's definitely not ASI, it's not AGI, and not even good enough to be called GPT-5.

    ASIでもAGIでもないし、GPT-5と呼ばれるほどのものでもない。

  • Following its mission of openness, OpenAI is keeping all the interesting details closed off, but in today's video, we'll try to figure out O1 actually works and what it means for the future of humanity.

    オープンというミッションに従い、OpenAIは興味深い詳細をすべて非公開にしているが、今日のビデオでは、O1が実際に機能し、人類の未来にとって何を意味するのかを解明してみよう。

  • It is Friday the 13th, and you're watching The Code Report.

    今日は13日の金曜日、あなたは『コード・レポート』を見ている。

  • GPT-5, Orion, Q-Star, Strawberry.

    GPT-5、オリオン、Q-Star、ストロベリー。

  • These are all names that leaked out of OpenAI in recent months, but yesterday the world was shocked when they released O1 ahead of schedule.

    これらはすべて、ここ数カ月の間にOpenAIから漏れた名前だが、昨日、予定より早くO1がリリースされ、世界中に衝撃が走った。

  • GPT stands for Generative Pre-trained Transformer, and O stands for Oh S*** We're All Gonna Die.

    GPTはGenerative Pre-trained Transformerの略で、OはOh S*** We're All Gonna Dieの略である。

  • First, let's admire these dubious benchmarks.

    まず、この怪しげなベンチマークを賞賛しよう。

  • Compared to GPT-4, it achieves massive gains on accuracy, most notably in PhD level physics, and on the massive multitask language understanding benchmarks for math and formal logic.

    GPT-4と比較すると、特に博士号レベルの物理学や、数学と形式論理学の大規模なマルチタスク言語理解ベンチマークで、精度の大幅な向上を達成している。

  • But the craziest improvements come in its coding ability.

    しかし、最もクレイジーな改良点はコーディング能力である。

  • At the International Olympiad in Informatics, it was in the 49th percentile when allowed 50 submissions per problem, but then broke the gold medal submission when it was allowed 10,000 submissions.

    国際情報オリンピックでは、1問題あたり50件の提出が許された時点で49%台だったが、1万件の提出が許された時点で金メダル提出を突破した。

  • And compared to GPT-4, its code forces ELO went from the 11th percentile all the way up to the 93rd percentile.

    GPT-4と比較すると、コードフォースELOは11パーセンタイルから93パーセンタイルまで上昇した。

  • Impressive, but they've also secretly been working with Cognition Labs, the company that wants to replace programmers with this greasy pirate gigolo named Devin.

    印象的だが、彼らはコグニション・ラボと密かに協力している。コグニション・ラボは、プログラマーをデヴィンという名の脂ぎった海賊ジゴロに置き換えようとしている会社だ。

  • When using the GPT-4 brain, it only solved 25% of problems, but with GPT-01, the chart went up to 75%.

    GPT-4ブレーンを使用した場合、25%しか問題を解決できなかったが、GPT-01を使用した場合、チャートは75%まで上昇した。

  • That's crazy, and our only hope is that these internal closed source benchmarks from a VC-funded company desperate to raise more money are actually just BS.

    そして唯一の希望は、より多くの資金を集めようと必死になっているVC出資企業の、この社内クローズドソースのベンチマークが、実は単なるBSであるということだ。

  • Only time will tell, but O1 is no doubt a huge leap forward in the AI race.

    時間が経ってみなければわからないが、O1がAI競争で大きな飛躍を遂げたことは間違いない。

  • And the timing is perfect, because many people have been switching from ChatGPT to Claude, and OpenAI is in talks to raise more money at a $150 billion valuation.

    そして、多くの人々がChatGPTからClaudeに乗り換えており、OpenAIは1500億ドルの評価額でさらなる資金調達の交渉に入っているため、タイミングは完璧だ。

  • But how does a deep thinking model actually work?

    しかし、ディープ・シンキング・モデルは実際にどのように機能するのだろうか?

  • Well technically, they released three new models, O1 Mini, O1 Preview, and O1 Regular.

    厳密には、O1 Mini、O1 Preview、O1 Regularの3つの新モデルが発表された。

  • Us plebs only have access to Mini and Preview, and O1 Regular is still locked in a cage, although they have hinted at a $2,000 premium plus plan to access it.

    我々庶民がアクセスできるのはミニとプレビューのみで、O1レギュラーはまだ檻の中に閉じ込められている。

  • What makes these models special though is that they rely on reinforcement learning to perform complex reasoning.

    しかし、これらのモデルが特別なのは、複雑な推論を行うために強化学習に依存していることだ。

  • That means when presented with a problem, they produce a chain of thought before presenting the answer to the user.

    つまり、問題を提示されたとき、ユーザーに答えを提示する前に、思考の連鎖を生み出すのだ。

  • In other words, they think.

    つまり、彼らは考えている。

  • Descartes said, I think, therefore I am, but O1 is still not a sentient life form.

    デカルトは「我思う、ゆえに我あり」と言ったが、O1はまだ感覚を持った生命体ではない。

  • Just like a human though, it will go through a series of thoughts before reaching a final conclusion, and in the process produce what are called reasoning tokens.

    しかし、人間と同じように、最終的な結論に達するまでに一連の思考を経て、その過程で推論トークンと呼ばれるものを生成する。

  • These are like outputs that help the model refine its steps and backtrack when necessary, which allows it to produce complex solutions with fewer hallucinations.

    これらは、モデルがステップを洗練させ、必要に応じて後戻りするのを助けるアウトプットのようなものだ。

  • But the tradeoff is that the response requires more time, computing power, and money.

    しかし、その代償として、対応にはより多くの時間、計算能力、資金が必要となる。

  • OpenAI released a bunch of examples, like this guy making a playable snake game in a single shot, or this guy creating a nonogram puzzle.

    例えば、一発でプレイ可能なスネークゲームを作った男や、ノノグラムパズルを作った男などだ。

  • And the model can even reliably tell you how many R's are in the word strawberry, a question that has baffled LLMs in the past.

    そして、このモデルは、過去に法学修士を困惑させた質問である、ストロベリーという単語にRがいくつあるかということまで確実に教えてくれる。

  • Actually, just kidding, it failed that test when I tried to run it myself.

    というのは冗談で、自分でやってみたら失敗したんだ。

  • And the actual chain of thought is hidden from the end user, even though you do have to pay for those tokens at a price of $60 per 1 million.

    そして、実際の思考の連鎖はエンドユーザーからは隠されている。たとえ100万ドルあたり60ドルという価格でトークンを購入しなければならないとしても。

  • However, they do provide some examples of chain of thought, like in this coding example that transposes a matrix in Bash.

    しかし、Bashで行列を転置するこのコーディング例のように、思考の連鎖の例をいくつか提供してくれる。

  • You'll notice that it first looks at the shape of the inputs and outputs, then considers the constraints of the programming language, and goes through a bunch of other steps before regurgitating a response.

    まず入力と出力の形状に注目し、次にプログラミング言語の制約を考慮し、レスポンスを返す前に他の多くのステップを踏むことに気づくだろう。

  • But this is actually not a novel concept.

    しかし、実はこれは斬新なコンセプトではない。

  • Google has been dominating math and coding competitions with AlphaProof and AlphaCoder for the last few years using reinforcement learning by producing synthetic data.

    グーグルはここ数年、AlphaProofやAlphaCoderで、合成データを生成する強化学習を使って数学とコーディングの競技会を席巻している。

  • But this is the first time a model like this has become generally available to the public.

    しかし、このようなモデルが一般に公開されたのは今回が初めてである。

  • Let's go ahead and find out if it slaps.

    さあ、パタパタするかどうか確かめよう。

  • I remember years ago when I first learned code, I recreated the classic MS-DOS game Dog Wars, a turn-based strategy game where you play the role of a traveling salesman and have random encounters with Officer Hardass.

    数年前、初めてコードを覚えたとき、MS-DOSの名作ゲーム『Dog Wars』を再現したのを覚えている。このゲームはターン制の戦略ゲームで、巡回セールスマンに扮し、ハードアス巡査とランダムに遭遇する。

  • As a biological human, it took me like a hundred hours to build.

    生物学的な人間として、作るのに100時間はかかった。

  • But let's first see how GPT-4-0 does with it.

    しかし、まずはGPT-4-0がどう動くか見てみよう。

  • When I ask it to build this game in C with a GUI, it produces code that almost works, but I wasn't able to get it to compile, and after a couple of follow-up prompts, I finally got something working, but the game logic was very limited.

    このゲームをGUI付きでC言語でビルドするように頼むと、ほとんど動くコードを生成してくれるのだが、コンパイルさせることができなかった。何度かフォローアップのプロンプトを出した後、ようやく何かが動くようになったが、ゲームロジックは非常に限られていた。

  • Now let's give the new 0-1 that exact same prompt.

    では、新しい0-1にもまったく同じプロンプトを出してみよう。

  • What you'll notice is that it goes through the chain of thought, like it's thinking, then assessing compliance, and so on, but what it's actually doing under the hood is creating those reasoning tokens, which should lead to a more comprehensive and accurate result.

    しかし、実際には、より包括的で正確な結果をもたらすはずの推論トークンを作成することなのだ。

  • In contrast to GPT-4, 0-1 compiled right away, and it followed the game requirements to a T.

    GPT-4とは対照的に、0-1はすぐにコンパイルされ、ゲームの要求に忠実に従った。

  • At first glance, it actually seemed like a flawless game, but it turns out the app was actually pretty buggy.

    一見、完璧なゲームのように思えたが、実はこのアプリはかなりバグが多いことが判明した。

  • I kept getting into this infinite loop with Officer Hardass, and the UI was also terrible.

    ハードアス巡査と無限ループに陥り続けたし、UIもひどかった。

  • I tried to fix these issues with additional follow-up prompts, but they actually led to more hallucinations and more bugs, and it's pretty clear that this model isn't truly intelligent.

    これらの問題を解決するためにフォローアップのプロンプトを追加してみたが、実際には幻覚やバグの増加につながった。

  • That being said though, there's a huge amount of potential with this chain of thought approach, and by potential, I mean potential to overstate its capabilities.

    とはいえ、この思考の連鎖のアプローチには大きな可能性がある。

  • In 2019, they were telling us GPT-2 was too dangerous to release.

    2019年には、GPT-2はリリースするには危険すぎると言われていた。

  • Now five years later, you've got Sam Altman begging the feds to regulate his strawberry.

    それから5年後、サム・アルトマンは連邦政府にイチゴの規制を懇願している。

  • It's scary stuff, but until proven otherwise, 0-1 is just another benign AI tool.

    恐ろしいことだが、そうでないことが証明されるまでは、0-1は良性のAIツールに過ぎない。

  • It's basically just like GPT-4, with the ability to recursively prompt itself.

    基本的にはGPT-4と同じで、再帰的にプロンプトを表示する機能を備えている。

  • It's not fundamentally game-changing, but you really shouldn't listen to me.

    根本的にゲームを変えるようなものではないが、私の言うことは聞かない方がいい。

  • I'm just like a horse influencer in 1910 telling horses a car won't take your job, but another horse driving a car will.

    私は1910年の馬のインフルエンサーのように、馬に自動車はあなたの仕事を取らないが、自動車を運転する別の馬はあなたの仕事を取ると言っているようなものだ。

  • This has been The Code Report.

    以上、『コード・レポート』をお届けした。

  • Thanks for watching, and I will see you in the next one.

    見てくれてありがとう。

I thought it plateaued.

停滞したと思っていた。

字幕と単語
AI 自動生成字幕

ワンタップで英和辞典検索 単語をクリックすると、意味が表示されます