Placeholder Image

字幕表 動画を再生する

AI 自動生成字幕
  • How many calculations do you think your graphics card performs every second while running video games with incredibly realistic graphics?

    驚くほどリアルなグラフィックでビデオゲームをプレイしている間、あなたのグラフィックカードは1秒間にどれだけの計算を行っていると思いますか?

  • Maybe a hundred million?

    億人くらい?

  • Well, a hundred million calculations a second is what's required to run Mario 64 from 1996.

    1996年の『マリオ64』を動かすには、1秒間に1億回の計算が必要なんだ。

  • We need more power.

    もっとパワーが必要だ。

  • Maybe a hundred billion calculations a second?

    1秒間に1,000億回くらい計算するのかな?

  • Well, then you would have a computer that could run Minecraft back in 2011.

    それなら、2011年にマインクラフトを動かせるコンピューターがあったはずだ。

  • In order to run the most realistic video games, such as Cyberpunk 2077, you need a graphics card that can perform around 36 trillion calculations a second.

    サイバーパンク2077のような最もリアルなビデオゲームを動かすには、1秒間に約36兆回の計算ができるグラフィックカードが必要だ。

  • This is an unimaginably large number, so let's take a second to try to conceptualize it.

    これは想像を絶するほど大きな数字なので、少し時間をとって概念化してみよう。

  • Imagine doing a long multiplication problem once every second.

    長い掛け算の問題を1秒に1回解くことを想像してみてほしい。

  • Now let's say everyone on the planet does a similar type of calculation, but with different numbers.

    では、地球上の誰もが同じような計算をするとしよう。

  • To reach the equivalent computational power of this graphics card and its 36 trillion calculations a second, we would need about 4,400 Earths filled with people.

    このグラフィックカードと同等の計算能力を持ち、1秒間に36兆回の計算ができるようになるには、人間でいっぱいの地球が約4,400個必要になる。

  • All working together and completing one calculation each every second.

    全員が協力し、1秒ごとに1つずつ計算を完了する。

  • It's rather mind-boggling to think that a device can manage all these calculations, so in this video we'll see how graphics cards work in two parts.

    このビデオでは、グラフィックスカードがどのように機能するのかを2つのパートに分けて紹介する。

  • First, we'll open up this graphics card and explore the different components inside, as well as the physical design and architecture of the GPU, or graphics processing unit.

    まず、このグラフィックスカードを開き、内部のさまざまなコンポーネントを探るとともに、GPU(グラフィックス・プロセッシング・ユニット)の物理的な設計とアーキテクチャについて説明します。

  • Second, we'll explore the computational architecture and see how GPUs process mountains of data and why they're ideal for running video game graphics, Bitcoin mining, neural networks, and AI.

    次に、GPUがどのように大量のデータを処理するのか、そしてなぜGPUがビデオゲームのグラフィックス、ビットコインのマイニング、ニューラルネットワーク、AIの実行に理想的なのか、計算アーキテクチャを探ります。

  • So, stick around and let's jump right in.

    では、さっそく飛び込んでみよう。

  • This video is sponsored by Micron, which manufactures the graphics memory inside this graphics card.

    このビデオは、このグラフィックス・カードに内蔵されているグラフィックス・メモリーを製造しているマイクロン社の提供によるものです。

  • Before we dive into all the parts of the GPU, let's first understand the differences between GPUs and CPUs.

    GPUのすべてのパーツに飛び込む前に、まずGPUとCPUの違いを理解しよう。

  • Inside this graphics card, the graphics processing unit, or GPU, has over 10,000 cores.

    このグラフィックカードの内部には、グラフィック・プロセッシング・ユニット(GPU)が1万コア以上搭載されている。

  • However, when we look at the CPU, or central processing unit that's mounted to the motherboard, we find an integrated circuit or chip with only 24 cores.

    しかし、マザーボードに搭載されているCPU(中央演算処理装置)を見ると、24コアしかない集積回路やチップがある。

  • So, which one is more powerful?

    では、どちらがより強力なのか?

  • 10,000 is a lot more than 24, so you would think the GPU is more powerful.

    10,000ドルというのは24,000ドルよりもずっと多いので、GPUはよりパワフルだと思うだろう。

  • However, it's more complicated than that.

    しかし、それはもっと複雑だ。

  • A useful analogy is to think of a GPU as a massive cargo ship and a CPU as a jumbo jet airplane.

    GPUを巨大な貨物船、CPUをジャンボジェット機と考えるとわかりやすい。

  • The amount of cargo capacity is the amount of calculations and data that can be processed, and the speed of the ship or airplane is the rate at which how quickly those calculations and data are being processed.

    貨物の容量は、処理できる計算やデータの量であり、船や飛行機の速度は、それらの計算やデータを処理する速さである。

  • Essentially, it's a tradeoff between a massive number of calculations that are executed at a slower rate versus a few calculations that can be performed at a much faster rate.

    本質的には、遅い速度で実行される膨大な数の計算と、はるかに速い速度で実行できる少数の計算とのトレードオフなのだ。

  • Another key difference is that airplanes are a lot more flexible since they can carry passengers, packages, or containers and can take off and land at any one of tens of thousands of airports.

    もうひとつの大きな違いは、飛行機は乗客、荷物、コンテナを運ぶことができ、何万とある空港のどれでも離着陸できるため、より柔軟性があるということだ。

  • Likewise, CPUs are flexible in that they can run a variety of programs and instructions.

    同様に、CPUはさまざまなプログラムや命令を実行できるという点で柔軟性がある。

  • However, giant cargo ships carry only containers with bulk contents inside and are limited to traveling between ports.

    しかし、巨大な貨物船は中身がバルクのコンテナしか積んでおらず、港と港の間の移動に限られている。

  • Similarly, GPUs are a lot less flexible than CPUs and can only run simple instructions like basic arithmetic.

    同様に、GPUはCPUに比べて柔軟性に欠け、基本的な演算のような単純な命令しか実行できない。

  • Additionally, GPUs can't run operating systems or interface with input devices or networks.

    さらに、GPUはオペレーティング・システムを実行したり、入力デバイスやネットワークとインターフェースしたりすることはできない。

  • This analogy isn't perfect, but it helps to answer the question of which is faster, a CPU or a GPU?

    この例えは完璧ではないが、CPUとGPUのどちらが速いかという問いに答えるのに役立つ。

  • Essentially, if you want to perform a set of calculations across mountains of data, then a GPU will be faster at completing the task.

    基本的に、山のようなデータに対して一連の計算を行いたい場合、GPUの方が速くタスクを完了できる。

  • However, if you have a lot less data that needs to be evaluated quickly, then a CPU will be faster.

    しかし、素早く評価する必要があるデータが少なければ、CPUの方が速い。

  • Furthermore, if you need to run an operating system or support network connections in a wide range of different applications and hardware, then you'll want a CPU.

    さらに、さまざまなアプリケーションやハードウェアでオペレーティングシステムを実行したり、ネットワーク接続をサポートしたりする必要がある場合は、CPUが必要になる。

  • We're planning a separate video on CPU architecture, so make sure to subscribe so you don't miss it.

    CPUアーキテクチャーについては別のビデオを予定しているので、見逃さないように購読をお忘れなく。

  • But let's now dive into this graphics card and see how it works.

    しかし、ここではこのグラフィックカードに飛び込み、どのように機能するかを見てみよう。

  • In the center of this graphics card is the printed circuit board, or PCB, with all the various components mounted on it.

    このグラフィックスカードの中央には、プリント基板(PCB)があり、その上にさまざまな部品が搭載されている。

  • And we'll start by exploring the brains, which is the graphics processing unit, or GPU.

    まずは、グラフィック・プロセッシング・ユニット(GPU)である頭脳から探っていこう。

  • When we open it up, we find a large chip, or die, named GA-102, built from 28.3 billion transistors.

    開けてみると、GA-102と名付けられた283億個のトランジスタで作られた大きなチップ(ダイ)がある。

  • The majority of the area of the chip is taken up by the processing cores, which have a hierarchical organization.

    チップの面積の大半は、階層構造を持つプロセッシング・コアが占めている。

  • Specifically, the chip is divided into seven graphics processing clusters, or GPCs, and within each processing cluster are 12 streaming multiprocessors, or SMs.

    具体的には、チップは7つのグラフィックス・プロセッシング・クラスター(GPC)に分割され、各プロセッシング・クラスター内には12のストリーミング・マルチプロセッサ(SM)が配置されている。

  • Next, inside each of these streaming multiprocessors are four warps and one ray tracing core, and then inside each warp are 32 CUDA, or shading cores, and one tensor core.

    次に、それぞれのストリーミング・マルチプロセッサの内部には、4つのワープと1つのレイトレーシング・コアがあり、さらにそれぞれのワープの内部には、32のCUDA(シェーディング・コア)と1つのテンソル・コアがある。

  • Across the entire GPU are 10,752 CUDA cores, 336 tensor cores, and 84 ray tracing cores.

    GPU全体では、10,752個のCUDAコア、336個のテンソルコア、84個のレイトレーシング・コアがある。

  • These three types of cores execute all the calculations of the GPU, and each has a different function.

    これら3種類のコアはGPUのすべての計算を実行し、それぞれ異なる機能を持っています。

  • CUDA cores can be thought of as simple binary calculators, with an addition button, a multiply button, and a few others, and are used the most when running video games.

    CUDAコアは、加算ボタン、乗算ボタン、その他いくつかのボタンを備えた単純な2進数の計算機と考えることができ、ビデオゲームを実行するときに最も使用される。

  • Tensor cores are matrix multiplication and addition calculators, and are used for geometric transformations and working with neural networks and AI.

    テンソルコアは行列の乗算と加算の計算機で、幾何学的変換やニューラルネットワークやAIの作業に使用される。

  • And ray tracing cores are the largest, but the fewest, and are used to execute ray tracing algorithms.

    そして、レイトレーシング・コアは最大だが最も数が少なく、レイトレーシング・アルゴリズムの実行に使用される。

  • Now that we understand the computational resources inside this chip, one rather interesting fact is that the 3080, 3090, 3080 Ti, and 3090 Ti graphics cards all use the same GA102 chip design for their GPU.

    このチップ内の計算リソースがわかったところで、かなり興味深い事実として、3080、3090、3080 Ti、3090 Tiの各グラフィックスカードはすべて、GPUに同じGA102チップ設計を採用しています。

  • This might be counterintuitive, because they have different prices and were released in different years, but it's true.

    価格も発売年も違うのだから、これは直感に反するかもしれないが、事実なのだ。

  • So why is this?

    では、これはなぜなのか?

  • Well, during the manufacturing process, sometimes patterning errors, dust particles, or other manufacturing issues cause damage and create defective areas of the circuit.

    製造工程では、パターン・エラーやホコリ、その他の製造上の問題によって、回路に欠陥が生じることがある。

  • Instead of throwing out the entire chip because of a small defect, engineers find the defective region and permanently isolate and deactivate the nearby circuitry.

    小さな欠陥のためにチップ全体を廃棄するのではなく、エンジニアは欠陥領域を見つけ、その近くの回路を永久的に分離して機能停止させる。

  • By having a GPU with a highly repetitive design, a small defect in one core only damages that particular streaming multiprocessor circuit, and doesn't affect the other areas of the chip.

    GPUを高度に反復設計することで、1つのコアに小さな欠陥があっても、その特定のストリーミング・マルチプロセッサ回路にダメージを与えるだけで、チップの他の領域には影響を与えない。

  • As a result, these chips are tested and categorized, or binned, according to the number of defects.

    その結果、これらのチップは検査され、欠陥の数によって分類(ビニング)される。

  • The 3090 Ti graphics card have flawless GA102 chips, with all 10,752 CUDA cores working properly.

    3090 TiグラフィックカードはGA102チップを完璧に搭載しており、10,752個のCUDAコアがすべて正常に動作する。

  • The 3090 has 10,496 cores working.

    3090は10,496コアが動作している。

  • The 3080 Ti has 10,240, and the 3080 has 8,704 CUDA cores working, which is equivalent to having 16 damaged and deactivated streaming multiprocessors.

    3080Tiは10,240個、3080は8,704個のCUDAコアが動作しており、これは16個の損傷し非活性化されたストリーミング・マルチプロセッサを搭載していることに相当する。

  • Additionally, different graphics cards differ by their maximum clock speed, and the quantity and generation of graphics memory that supports the GPU, which we'll explore in a little bit.

    さらに、グラフィックスカードによって、最大クロック速度や、GPUをサポートするグラフィックスメモリの量や世代が異なります。

  • Because we've been focusing on the physical architecture of this GA102 GPU chip, let's zoom into one of these CUDA cores and see what it looks like.

    このGA102 GPUチップの物理的なアーキテクチャに注目してきたので、これらのCUDAコアの1つにズームインして見てみよう。

  • Inside this simple calculator is a layout of approximately 410,000 transistors.

    このシンプルな計算機の内部には、約41万個のトランジスタがレイアウトされている。

  • This section of 50,000 transistors performs the operation of A times B plus C, which is called fused multiply and add, or FMA, and is the most common operation performed by graphics cards.

    50,000個のトランジスタで構成されるこのセクションは、A×B×Cの演算を実行します。これは、Fused Multiply and Add(FMA)と呼ばれ、グラフィックスカードで最も一般的に実行される演算です。

  • Half of the CUDA cores execute FMA using 32-bit floating-point numbers, which is essentially scientific notation, and the other half of the cores use either 32-bit integers or 32-bit floating-point numbers.

    CUDAコアの半分は、32ビット浮動小数点数(基本的に科学的記法)を使用してFMAを実行し、残りの半分は32ビット整数または32ビット浮動小数点数を使用します。

  • Other sections of this core accommodate negative numbers and perform other simple functions like bit-shifting and bit-masking, as well as collecting and queuing the incoming instructions and operands, and then accumulating and outputting the results.

    このコアの他のセクションは、負の数に対応し、ビットシフトやビットマスクのような他の単純な機能を実行し、入力される命令やオペランドを集めてキューに入れ、結果を累積して出力する。

  • As a result, this single core is just a simple calculator with a limited number of functions.

    その結果、このシングルコアは、限られた機能を持つシンプルな電卓に過ぎない。

  • This calculator completes one multiply and one add operation each clock cycle, and therefore with this 3090 graphics card and its 10,496 cores and 1.7 GHz clock, we get 35.6 trillion calculations a second.

    したがって、この3090グラフィックス・カードと10,496コア、1.7GHzのクロックを使えば、1秒間に35.6兆回の計算が可能になる。

  • However, if you're wondering how the GPU handles more complicated operations like division, square root, and trigonometric functions, well, these calculator operations are performed by the special function units, which are far fewer, as only four of them can be found in each streaming multiprocessor.

    しかし、GPUが除算、平方根、三角関数などの複雑な演算をどのように処理するのかと疑問に思うかもしれないが、これらの計算機演算は特殊関数ユニットによって実行される。特殊関数ユニットは、ストリーミング・マルチプロセッサ1つにつき4つしかないため、その数ははるかに少ない。

  • Now that we have an understanding of what's inside a single core, let's zoom out and take a look at the other sections of the GA102 chip.

    シングルコアの中身を理解したところで、GA102チップの他の部分を拡大して見てみよう。

  • Around the edge, we find 12 graphics memory controllers, the NVLink controllers, and the PCIe interface.

    周辺には、12個のグラフィックスメモリコントローラ、NVLinkコントローラ、PCIeインターフェイスがあります。

  • On the bottom is a 6MB Level 2 SRAM memory cache, and here's the Gigathread engine, which manages all the graphics processing clusters and streaming multiprocessors inside.

    底部には6MBのレベル2 SRAMメモリーキャッシュがあり、ここには内部のすべてのグラフィック処理クラスタとストリーミング・マルチプロセッサを管理するギガスレッド・エンジンがある。

  • Now that we've explored this GA102 GPU's physical architecture, let's zoom out and take a look at the other parts inside the graphics card.

    さて、GA102 GPUの物理的なアーキテクチャを探ったところで、グラフィックスカード内部の他のパーツを拡大して見てみましょう。

  • On this side are the various ports for the displays to be plugged into.

    こちら側には、ディスプレイを接続するためのさまざまなポートがある。

  • On the other side is the incoming 12V power connector, and then here are the PCIe pins that plug into the motherboard.

    反対側には12V電源コネクターがあり、ここにマザーボードに差し込むPCIeピンがある。

  • On the PCB, the majority of the smaller components constitute the voltage regulator module, which takes the incoming 12V and converts it to 1.1V and supplies hundreds of watts of power to the GPU.

    PCB上では、小型部品の大半が電圧レギュレーター・モジュールを構成しており、入力される12Vを1.1Vに変換し、数百ワットの電力をGPUに供給する。

  • Because all this power heats up the GPU, most of the weight of the graphics card is in the form of a heat sink, with four heat pipes that carry heat from the GPU and memory chips to the radiator fins where fans then help to remove the heat.

    このようなパワーはGPUを加熱するため、グラフィックスカードの重量のほとんどはヒートシンクの形をしており、4本のヒートパイプがGPUとメモリチップの熱をラジエーターフィンに運び、ファンが熱を取り除きます。

  • Perhaps some of the most important components, aside from the GPU, are the 24GB of graphics memory chips, which are technically called GDD R6X SD-RAM, and were manufactured by Micron, which is the sponsor of this video.

    GPU以外で最も重要なコンポーネントは、おそらく24GBのグラフィックメモリチップだろう。これは技術的にはGDD R6X SD-RAMと呼ばれ、このビデオのスポンサーであるマイクロンが製造したものだ。

  • Whenever you start up a video game or wait for a loading screen, the time it takes to load is mostly spent moving all the 3D models of a particular scene or environment from the solid-state drive into these graphics memory chips.

    ビデオゲームを起動したり、ロード画面を待ったりするとき、ロードにかかる時間のほとんどは、特定のシーンや環境のすべての3Dモデルをソリッドステートドライブからこれらのグラフィックメモリチップに移動するのに費やされる。

  • As mentioned earlier, the GPU has a small amount of data storage in its 6MB shared Level 2 cache, which can hold the equivalent of about this much of the video game's environment.

    前述したように、GPUは6MBの共有レベル2キャッシュに少量のデータストレージを持っており、ビデオゲームの環境と同程度のデータを保持できる。

  • Therefore, in order to render a video game, different chunks of scene are continuously being transferred between the graphics memory and the GPU.

    したがって、ビデオゲームをレンダリングするためには、シーンのさまざまなチャンクがグラフィックメモリとGPUの間で連続的に転送される。

  • Because the cores are constantly performing tens of trillions of calculations a second, GPUs are data-hungry machines and need to be continuously fed terabytes upon terabytes of data.

    コアは1秒間に数十兆回の計算を常に行っているため、GPUはデータを大量に消費するマシンであり、テラバイト単位のデータを継続的に供給する必要がある。

  • And thus, these graphics memory chips are designed kind of like multiple cranes loading a cargo ship at the same time.

    このように、グラフィックス・メモリー・チップは、複数のクレーンが同時に貨物船に積み込むように設計されている。

  • Specifically, these 24 chips transfer a combined 384 bits at a time, which is called the bus width, and the total data that can be transferred, or the bandwidth, is about 1.15 terabytes a second.

    具体的には、これらの24個のチップは一度に合計384ビットを転送する。これはバス幅と呼ばれ、転送可能なデータの合計、つまり帯域幅は1秒間に約1.15テラバイトである。

  • In contrast, the sticks of DRAM that support the CPU only have a 64-bit bus width and a maximum bandwidth closer to 64 gigabytes a second.

    対照的に、CPUをサポートするDRAMのスティックは64ビットのバス幅しか持たず、最大帯域幅は毎秒64ギガバイトに近い。

  • One rather interesting thing is that you may think that computers only work using binary 1s and 0s.

    コンピューターは1か0の2進数でしか動作しないと思っているかもしれない。

  • However, in order to increase static transfer rates, GDDR6X and the latest graphics memory, GDDR7, send and receive data across the bus wires using multiple voltage levels beyond just 0 and 1.

    しかし、静的転送速度を高めるため、GDDR6Xと最新のグラフィックスメモリであるGDDR7は、0と1だけでなく、複数の電圧レベルを使用してバスワイヤーを介してデータを送受信します。

  • For example, GDDR7 uses three different encoding schemes to combine binary bits into ternary digits, or PAM3 symbols with voltages of 0, 1, and negative 1.

    例えば、GDDR7は3つの異なる符号化方式を使い、2進ビットを3進数、すなわち0、1、負1の電圧を持つPAM3シンボルに結合する。

  • Here's the encoding scheme on how three binary bits are encoded into two ternary digits, and this scheme is combined with an 11-bit to 7-ternary digit encoding scheme, resulting in sending 276 binary bits using only 176 ternary digits.

    これは、3つの2進ビットを2つの3進数字にエンコードするスキームであり、このスキームを11ビットから7進数字へのエンコードスキームと組み合わせることで、わずか176の3進数字を使って276の2進ビットを送信することになる。

  • The previous generation GDDR6X, which is the memory in this 3090 graphics card, used a different encoding scheme called PAM4 to send two bits of data using four different voltage levels.

    この3090グラフィックスカードのメモリである前世代のGDDR6Xは、4つの異なる電圧レベルを使用して2ビットのデータを送信するために、PAM4と呼ばれる異なる符号化方式を使用していました。

  • However, engineers in the graphics memory industry agreed to switch to PAM3 for future generations of graphics chips in order to reduce encoder complexity, improve the signal-to-noise ratio, and improve power efficiency.

    しかし、グラフィックス・メモリ業界の技術者たちは、エンコーダの複雑さを軽減し、S/N比を改善し、電力効率を向上させるために、将来の世代のグラフィックス・チップをPAM3に切り替えることに合意した。

  • Micron delivers consistent innovation to push the boundaries on how much data can be transferred every second and to design cutting-edge memory chips.

    マイクロンは、毎秒のデータ転送量の限界を押し広げ、最先端のメモリチップを設計するために、一貫したイノベーションを提供しています。

  • Another advancement by Micron is the development of HBM, or the high-bandwidth memory that surrounds AI chips.

    マイクロンによるもう一つの進歩は、HBM、つまりAIチップを取り囲む高帯域幅メモリの開発である。

  • HBM is built from stacks of DRAM memory chips and uses TSVs, or through-silicon vias, to connect the stack into a single chip, essentially forming a cube of AI memory.

    HBMは、DRAMメモリチップのスタックから構築され、TSV(シリコン貫通ビア)を使用してスタックを1つのチップに接続し、実質的にAIメモリの立方体を形成する。

  • For the latest generation of high-bandwidth memory, which is HBM3E, a single cube can have up to 24 to 36 gigabytes of memory, thus yielding 192 gigabytes of high-speed memory around the AI chip.

    最新世代の高帯域幅メモリであるHBM3Eでは、1つのキューブに最大24ギガバイトから36ギガバイトのメモリを搭載できるため、AIチップの周囲には192ギガバイトの高速メモリが搭載されることになる。

  • Next time you buy an AI accelerator system, make sure it uses Micron's HBM3E, which uses 30% less power than the competitive products.

    次にAIアクセラレーター・システムを購入する際には、競合製品よりも消費電力が30%少ないマイクロンのHBM3Eが使われていることを確認してほしい。

  • However, unless you're building an AI data center, you're likely not in the market to buy one of these systems, which cost between $25,000 to $40,000 and are on backorder for a few years.

    しかし、AIデータセンターを構築するのでなければ、このようなシステムを購入することはないだろう。

  • If you're curious about high-bandwidth memory or Micron's next generation of graphics memory, take a look at one of these links in the description.

    高帯域幅メモリやマイクロンの次世代グラフィックスメモリに興味がある方は、説明文中のリンクのいずれかをご覧ください。

  • Alternatively, if designing the next generation of memory chips interests you, Micron is always looking for talented scientists and engineers to help innovate on cutting-edge chips, and you can find out more about working for Micron using this link.

    また、次世代のメモリー・チップの設計に興味があるなら、マイクロンでは、最先端のチップの技術革新に貢献する有能な科学者やエンジニアを常に募集しています。

  • Now that we've explored many of the physical components inside this graphics card and GPU, let's next explore the computational architecture and see how applications like video game graphics and Bitcoin mining run what's called embarrassingly parallel operations.

    さて、このグラフィックスカードとGPU内部の物理的なコンポーネントの多くを探ったので、次は計算アーキテクチャを探り、ビデオゲームのグラフィックスやビットコインのマイニングのようなアプリケーションが、恥ずかしいほど並列なオペレーションと呼ばれるものをどのように実行しているかを見てみよう。

  • Although it may sound like a silly name, embarrassingly parallel is actually a technical classification of computer problems where little or no effort is needed to divide the problem into parallel tasks, and video game rendering and Bitcoin mining easily fall into this category.

    ばかばかしい名前に聞こえるかもしれないが、恥ずかしいほど並列というのは、実際には、問題を並列タスクに分割する努力がほとんど、あるいはまったく必要ないコンピュータ問題の技術的分類であり、ビデオゲームのレンダリングやビットコインのマイニングは、簡単にこのカテゴリーに入る。

  • Essentially, GPUs solve embarrassingly parallel problems using a principle called SIMD, which stands for Single Instruction Multiple Data, where the same instructions or steps are repeated across thousands to millions of different numbers.

    基本的にGPUは、SIMD(Single Instruction Multiple Dataの略)と呼ばれる原理を使って、恥ずかしいほど並列な問題を解決する。

  • Let's see an example of how SIMD, or Single Instruction Multiple Data, is used to create this 3D video game environment.

    SIMD(単一命令複数データ)がどのようにこの3Dビデオゲーム環境の作成に使われているか、例を見てみよう。

  • As you may know already, this cowboy hat on the table is composed of approximately 28,000 triangles built by connecting together around 14,000 vertices, each with X, Y, and Z coordinates.

    すでにご存じかもしれないが、このテーブルの上のカウボーイハットは、約14,000個の頂点を結んで作られた約28,000個の三角形で構成されており、それぞれがX、Y、Zの座標を持っている。

  • These vertex coordinates are built using a coordinate system called model space, with the origin of 0, 0, 0 being at the center of the hat.

    これらの頂点座標は、ハットの中心を原点とする0, 0, 0のモデル空間と呼ばれる座標系を使って構築される。

  • To build a 3D world, we place hundreds of objects, each with their own model space, into the world environment, and, in order for the camera to be able to tell where each object is relative to other objects, we have to convert or transform all the vertices from each separate model space into the shared world coordinate system, or world space.

    3D世界を構築するためには、それぞれのモデル空間を持つ何百ものオブジェクトをワールド環境に配置し、カメラが各オブジェクトの位置を他のオブジェクトとの相対的な位置関係で把握できるようにするために、それぞれの個別のモデル空間からすべての頂点を共有のワールド座標系(ワールド空間)に変換または変換する必要がある。

  • So, as an example, how do we convert the 14,000 vertices of the cowboy hat from model space into world space?

    では、例として、カウボーイハットの14,000個の頂点をモデル空間からワールド空間にどのように変換するのか?

  • Well, we use a single instruction which adds the position of the origin of the hat in world space to the corresponding X, Y, and Z coordinate of a single vertex in model space.

    つまり、ワールド空間における帽子の原点の位置を、モデル空間における1つの頂点の対応するX、Y、Z座標に加える命令を1つ使う。

  • Next, we copy this instruction to multiple data, which is all the remaining X, Y, and Z coordinates of the other thousands of vertices that are used to build the hat.

    次に、この命令をマルチプル・データにコピーする。マルチプル・データとは、帽子を作るのに使われる、残りの何千もの頂点のX、Y、Z座標のことである。

  • Next, we do the same for the table and the rest of the hundreds of other objects in the scene, each time using the same instructions but with the different objects' coordinates in world space, and each object's thousands of vertices in model space.

    次に、テーブルとシーン内の他の数百のオブジェクトに対して同じことを行う。その都度、同じ命令を使用するが、ワールド空間では異なるオブジェクトの座標を使用し、モデル空間では各オブジェクトの数千の頂点を使用する。

  • As a result, all the vertices and triangles of all the objects are converted to a common world space coordinate system, and the camera can now determine which objects are in front and which are behind.

    その結果、すべてのオブジェクトの頂点と三角形が共通のワールド空間座標系に変換され、カメラはどのオブジェクトが前にあり、どのオブジェクトが後ろにあるかを判断できるようになる。

  • This example illustrates the power of SIMD, or Single Instruction Multiple Data, and how a single instruction is applied to 5,629 different objects with a total of 8.3 million vertices within the scene, resulting in 25 million addition calculations.

    この例は、SIMD(Single Instruction Multiple Data:単一命令複数データ)の威力を示しており、1つの命令がシーン内の5,629個の異なるオブジェクト、合計830万個の頂点に適用され、2,500万回の加算計算が行われる様子を示している。

  • The key to SIMD and embarrassingly parallel programs is that every one of these millions of calculations has no dependency on any other calculation, and thus all these calculations can be distributed to the thousands of cores of the GPU and completed in parallel with one another.

    SIMDと恥ずかしくなるほど並列なプログラムの鍵は、これらの何百万もの計算のひとつひとつが、他のどの計算にも依存しないことです。したがって、これらのすべての計算は、GPUの何千ものコアに分散され、互いに並列に完了することができます。

  • It's important to note that vertex transformation from model space to world space is just one of the first steps of a rather complicated video game graphics rendering pipeline, and we have a separate video that delves deeper into each of these other steps.

    モデル空間からワールド空間への頂点変換は、かなり複雑なビデオゲームグラフィックスのレンダリングパイプラインの最初のステップの1つに過ぎないことに注意することが重要です。

  • Also, we skipped over the transformations for the rotation and scale of each object, but factoring in these values is a similar process that requires additional SIMD calculations.

    また、各オブジェクトの回転とスケールのための変換は省略したが、これらの値の因数分解も同様の処理であり、追加のSIMD計算を必要とする。

  • Now that we have a simple understanding of SIMD, let's discuss how this computational architecture matches up with the physical architecture.

    SIMDについて簡単に理解したところで、この計算アーキテクチャーが物理アーキテクチャーとどのようにマッチするのかについて説明しよう。

  • Essentially, each instruction is completed by a thread, and this thread is matched to a single CUDA core.

    基本的に、各命令はスレッドによって完了し、このスレッドは1つのCUDAコアに対応する。

  • Threads are bundled into groups of 32 called warps, and the same sequence of instructions is issued to all the threads in a warp.

    スレッドはワープと呼ばれる32のグループにまとめられ、ワープ内のすべてのスレッドに同じ命令シーケンスが発行される。

  • Next, warps are grouped into thread blocks, which are handled by the streaming multiprocessor.

    次に、ワープはスレッドブロックにグループ化され、ストリーミングマルチプロセッサによって処理される。

  • And then finally, thread blocks are grouped into grids, which are computed across the overall GPU.

    そして最後に、スレッドブロックはグリッドにグループ化され、GPU全体で計算される。

  • All these computations are managed or scheduled by the gigathread engine, which efficiently maps thread blocks to the available streaming multiprocessors.

    これらの計算はすべて、利用可能なストリーミング・マルチプロセッサにスレッドブロックを効率的にマッピングするギガスレッド・エンジンによって管理またはスケジューリングされる。

  • One important distinction is that within SIMD architecture, all 32 threads in a warp follow the same instructions and are in lockstep with each other, kind of like a phalanx of soldiers moving together.

    重要な違いのひとつは、SIMDアーキテクチャの場合、ワープ内の32スレッドすべてが同じ命令に従い、互いに歩調を合わせることである。

  • This lockstep execution applied to GPUs up until around 2016.

    このロックステップ実行は2016年頃までGPUに適用されていた。

  • However, newer GPUs follow a SIMT architecture, or single instruction multiple threads.

    しかし、新しいGPUはSIMTアーキテクチャ、つまり単一命令マルチスレッドに従っている。

  • The difference between SIMD and SIMT is that while both send the same set of instructions to each thread, with SIMT, the individual threads don't need to be in lockstep with each other and can progress at different rates.

    SIMDとSIMTの違いは、どちらも同じ命令セットを各スレッドに送るが、SIMTの場合、個々のスレッドは互いに同期する必要がなく、異なる速度で処理できることだ。

  • In technical jargon, each thread is given its own program counter.

    専門用語では、各スレッドには独自のプログラム・カウンターが与えられている。

  • Additionally, with SIMT, all the threads within a streaming multiprocessor use a shared 128 kilobyte L1 cache, and thus data that's output by one thread can be subsequently used by a separate thread.

    さらにSIMTでは、ストリーミング・マルチプロセッサ内のすべてのスレッドが128キロバイトの共有L1キャッシュを使用するため、あるスレッドが出力したデータを別のスレッドがその後使用することができる。

  • This improvement from SIMD to SIMT allows for more flexibility when encountering warp divergence via data-dependent conditional branching and easier reconvergence for the threads to reach the barrier synchronization.

    このSIMDからSIMTへの改善により、データ依存の条件分岐によるワープ分岐に遭遇したときの柔軟性が増し、スレッドがバリア同期に到達するための再コンバージェンスが容易になる。

  • Essentially, newer architectures of GPUs are more flexible and efficient, especially when encountering branches in code.

    基本的に、GPUの新しいアーキテクチャーは、特にコードの分岐に遭遇したときに、より柔軟で効率的です。

  • One additional note is that although you may think that the term warp is derived from warp drives, it actually comes from weaving, and specifically the Jacquard loom.

    ひとつ補足しておくと、タテ糸という言葉はタテ糸ドライブに由来すると思われるかもしれないが、実際は織物、特にジャカード織機に由来する。

  • This loom from 1804 used programmable punch cards to select specific threads out of a set to weave together intricate patterns.

    1804年に作られたこの織機は、プログラム可能なパンチカードを使って、一組の糸から特定の糸を選び出し、複雑な模様を織り上げる。

  • As fascinating as looms are, let's move on.

    織機も魅力的だが、先に進もう。

  • The final topics we'll explore are Bitcoin mining, tensor cores, and neural networks.

    最後のトピックは、ビットコインマイニング、テンソルコア、そしてニューラルネットワークだ。

  • But first, we'd like to ask you to like this video, write a quick comment below, share it with a colleague, friend, or on social media, and subscribe if you haven't already.

    その前に、このビデオに「いいね!」を押して、下に簡単なコメントを書いて、同僚や友人、あるいはソーシャルメディアでシェアしてください。

  • The dream of Branch Education is to make free and accessible, visually engaging educational videos that dive deeply into a variety of topics on science, engineering, and how technology works, and then to combine multiple videos into an entirely free engineering curriculum for high school and college students.

    ブランチ・エデュケーションの夢は、科学、工学、テクノロジーの仕組みに関するさまざまなトピックに深く切り込んだ、無料でアクセス可能な視覚的に魅力的な教育ビデオを制作し、複数のビデオを組み合わせて、高校生や大学生向けのまったく無料の工学カリキュラムを作ることだ。

  • Taking a few seconds to like, subscribe, and comment below helps us a ton.

    いいね!」、「購読」、「コメント」に数秒を割いていただけると、とても助かります。

  • Additionally, we have a Patreon page with AMAs and behind-the-scenes footage, and if you find what we do useful, we would appreciate any support.

    さらに、AMAや舞台裏を紹介するPatreonのページもあるので、もし私たちの活動が有益だと感じていただけたら、ぜひご支援をお願いしたい。

  • Thank you.

    ありがとう。

  • So, now that we've explored how single instruction multiple threads is used in video games, let's briefly discuss why GPUs were initially used for mining Bitcoin.

    さて、ビデオゲームで単一命令マルチスレッドがどのように使われているかを探ったところで、なぜGPUが当初ビットコインのマイニングに使われたのかを簡単に説明しよう。

  • We're not going to get too far into the algorithm behind the blockchain, and we'll save it for a separate episode.

    ブロックチェーンの背後にあるアルゴリズムにはあまり立ち入るつもりはない。

  • But essentially, to create a block on the blockchain, the SHA-256 hashing algorithm is run on a set of data that includes transactions, a timestamp, additional data, and a random number called a nonce.

    しかし、基本的には、ブロックチェーン上にブロックを作成するために、SHA-256ハッシュアルゴリズムが、トランザクション、タイムスタンプ、追加データ、およびノンスと呼ばれる乱数を含む一連のデータに対して実行される。

  • After feeding these values through the SHA-256 hashing algorithm, a random 256-bit value is output.

    これらの値をSHA-256ハッシュ・アルゴリズムに通すと、256ビットのランダムな値が出力される。

  • You can kind of think of this algorithm as a lottery ticket generator, where you can't pick the lottery number, but based on the input data, the SHA-256 algorithm generates a random lottery ticket number.

    このアルゴリズムは宝くじジェネレーターのようなもので、宝くじ番号を選ぶことはできないが、入力データに基づいてSHA-256アルゴリズムがランダムな宝くじ番号を生成すると考えることができる。

  • Therefore, if you change the nonce value and keep the rest of the transaction data the same, you'll generate a new random lottery ticket number.

    したがって、nonce値を変更し、残りのトランザクションデータを同じに保つと、新しいランダムな宝くじ番号が生成されます。

  • The winner of this Bitcoin mining lottery is the first randomly generated lottery number to have the first 80 bits all zeros, while the rest of the 176 values don't matter.

    このビットコインマイニング宝くじの当選者は、最初の80ビットがすべてゼロである最初のランダムに生成された抽選番号であり、176値の残りの部分は重要ではありません。

  • And once a winning Bitcoin lottery ticket is found, the reward is 3 Bitcoin, and the lottery resets with a new set of transactions and input values.

    そして、勝利ビットコイン宝くじが発見されると、報酬は3ビットコインであり、宝くじはトランザクションと入力値の新しいセットでリセットされます。

  • So, why were graphics cards used?

    では、なぜグラフィックカードが使われたのか?

  • Well, GPUs ran thousands of iterations of the SHA-256 algorithm, with the same transactions, timestamp, other data, but with different nonce values.

    GPUは、同じトランザクション、タイムスタンプ、その他のデータで、異なるnonce値を使用して、SHA-256アルゴリズムの何千もの反復を実行しました。

  • As a result, a graphics card like this one could generate around 95 million SHA-256 hashes, or 95 million randomly numbered lottery tickets every second.

    その結果、このようなグラフィックカードは、約9,500万個のSHA-256ハッシュ、つまり毎秒9,500万枚の乱数付き宝くじを生成することができる。

  • And hopefully, one of those lottery numbers would have the first 80 digits as all zeros.

    そして願わくば、その抽選番号の最初の80桁がすべてゼロであってほしい。

  • However, nowadays computers filled with ASICs, or Application Specific Integrated Circuits, perform 250 trillion hashes a second, or the equivalent of 2,600 graphics cards, thereby making graphics cards look like a spoon when mining Bitcoin, next to an excavator that is an ASIC mining computer.

    しかし、現在ではASIC(特定用途向け集積回路)を搭載したコンピューターは、1秒間に250兆ハッシュ、つまり2600枚のグラフィックカードに相当するハッシュを実行するため、ビットコインをマイニングする際、ASICマイニングコンピューターである掘削機の隣では、グラフィックカードがスプーンにしか見えなくなっている。

  • Let's next discuss the design of the tensor cores.

    次にテンソルコアの設計について説明しよう。

  • It'll take multiple full-length videos to cover generative AI and neural networks, so we'll focus on the exact matrix math that tensor cores solve.

    ジェネレーティブAIとニューラルネットワークをカバーするには、長編のビデオが何本も必要になるので、テンソル・コアが解く正確な行列計算に焦点を当てることにする。

  • Essentially, tensor cores take three matrices and multiply the first two, add in the third, and then output the result.

    基本的に、テンソルコアは3つの行列を受け取り、最初の2つを乗算し、3つ目を加算して結果を出力する。

  • Let's look at one value of the output.

    出力の1つの値を見てみよう。

  • This value is equal to the sum of values of the first row of the first matrix, multiplied by the values from the first column of the second matrix, and then the corresponding value of the third matrix is added in.

    この値は、最初の行列の1行目の値の合計に、2番目の行列の1列目の値を掛け合わせ、さらに3番目の行列の対応する値を足したものに等しい。

  • Because all the values of the three input matrices are ready at the same time, the tensor cores complete all of the matrix multiplication and addition calculations concurrently.

    3つの入力行列のすべての値が同時に準備できるため、テンソルコアはすべての行列の乗算と加算の計算を同時に完了する。

  • Neural networks and generative AI require trillions to quadrillions of matrix multiplication and addition operations, and typically uses much larger matrices.

    ニューラル・ネットワークと生成AIは、数兆から数十兆回の行列の乗算と加算演算を必要とし、通常ははるかに大きな行列を使用する。

  • Finally, there are ray-tracing cores, which we explored in a separate video that's already been released.

    最後にレイトレーシング・コアだが、これはすでに公開された別のビデオで紹介した。

  • That's pretty much it for graphics cards.

    グラフィックカードについては、これでほとんど終わりです。

  • We're thankful to all our Patreon and YouTube membership sponsors for supporting our videos.

    PatreonとYouTubeメンバーシップのスポンサーに感謝します。

  • If you want to financially support our work, you can find the links in the description below.

    私たちの活動を資金面で支援したい方は、以下のリンク先をご覧ください。

  • This is Branch Education, and we create 3D animations that dive deeply into the technology that drives our modern world.

    ブランチ・エデュケーションは、現代社会を動かすテクノロジーに深く切り込んだ3Dアニメーションを制作しています。

  • Watch another Branch video by clicking one of these cards, or click here to subscribe.

    ブランチの他のビデオを見るには、これらのカードのいずれかをクリックしてください。

  • Thanks for watching to the end.

    最後まで見てくれてありがとう。

How many calculations do you think your graphics card performs every second while running video games with incredibly realistic graphics?

驚くほどリアルなグラフィックでビデオゲームをプレイしている間、あなたのグラフィックカードは1秒間にどれだけの計算を行っていると思いますか?

字幕と単語
AI 自動生成字幕

ワンタップで英和辞典検索 単語をクリックすると、意味が表示されます

B1 中級 日本語

グラフィックカードの仕組み GPUアーキテクチャを探る (How do Graphics Cards Work? Exploring GPU Architecture)

  • 16 1
    Rick に公開 2025 年 01 月 18 日
動画の中の単語