Placeholder Image

字幕表 動画を再生する

AI 自動生成字幕
  • For many years, data science has been called the sexiest job of the 21st century.

    何年もの間、データサイエンスは21世紀で最もセクシーな仕事と呼ばれてきた。

  • But in recent years, it seems like there's a new job vying for that title, the AI engineer.

    しかし近年、AIエンジニアという新しい職種がその肩書きを争っているようだ。

  • So who even are these new kids on the block?

    では、このブロックの新しい子供たちは誰なのか?

  • Are they just data scientists in disguise?

    彼らは変装したデータサイエンティストなのだろうか?

  • What's up y'all? I'm Isaac Key, and I'm a former data scientist turned AI engineer at IBM.

    こんにちは。元データサイエンティストで、IBMのAIエンジニアに転身したアイザック・キーです。

  • To answer these questions,

    これらの質問に答える、

  • I'm going to lay out four key areas in which the work of a data scientist differs from an AI engineer, specifically a generative AI engineer.

    データサイエンティストの仕事がAIエンジニア、特にジェネレーティブAIエンジニアと異なる4つの重要な点を整理してみよう。

  • But before I dive into these differences, we first have to understand more about what's happening in the industry.

    しかし、これらの違いについて掘り下げる前に、まず業界で何が起きているのかをもっと理解する必要がある。

  • So traditionally, data scientists have always used AI models to do their analysis.

    そのため従来、データサイエンティストは常にAIモデルを使って分析を行ってきた。

  • So what's changed? Well, with the advent of generative AI, the boundaries of what AI can do are being pushed in ways that we've never seen before.

    では何が変わったのか?ジェネレイティブAIの登場により、AIができることの境界は、これまでに見たこともないような方法で押し広げられつつある。

  • So these breakthroughs have been so groundbreaking, that generative AI has split off into its own distinct field, and we call that AI engineering.

    このようなブレークスルーは非常に画期的であったため、ジェネレーティブAIは独自の分野に分裂し、私たちはそれをAIエンジニアリングと呼んでいる。

  • Okay. So now that we understand the landscape, let's dive into the differences.

    さて、このような状況を理解したところで、その違いに飛び込んでみよう。

  • The first area of difference lies in the use cases.

    最初の違いはユースケースにある。

  • So at a very high level, think of a data scientist as a data storyteller.

    つまり、データサイエンティストとは、データのストーリーテラーなのだ。

  • They take massive amounts of messy real-world data, and they use mathematical models to translate this data into insights.

    彼らは大量の厄介な現実世界のデータを取得し、数理モデルを使ってこのデータを洞察に変換する。

  • On the other hand, think of an AI engineer as an AI system builder.

    一方、AIエンジニアはAIシステム構築者だと考えてほしい。

  • They use foundation models to build generative AI systems that help to transform business processes.

    彼らは、ビジネスプロセスの変革を支援する生成的AIシステムを構築するために、基礎モデルを使用している。

  • So since data scientists are fantastic storytellers, they use a lot of descriptive analytics to describe the past.

    データサイエンティストは素晴らしいストーリーテラーなので、過去を記述するために記述分析を多用する。

  • One example of this is through what's called Exploratory Data Analysis or EDA, which is all about graphing the data and doing statistical inference.

    その一例が、探索的データ分析(Exploratory Data Analysis、EDA)と呼ばれるもので、データをグラフ化し、統計的推論を行うものだ。

  • They can also do this through what's called clustering, which group similar data points based off of similar characteristics such as say doing customer segmentation.

    また、顧客セグメンテーションのように、似たような特徴に基づいて似たようなデータポイントをグループ化する、クラスタリングと呼ばれる方法によってもこれを行うことができる。

  • Now, every good story has a reader trying to figure out what's going to come next, and that's where predictive use cases comes in.

    さて、どんな優れた物語でも、読者は次に何が出てくるか考えようとするもので、そこで予測的な使用例が登場する。

  • As opposed to a book, however, a data scientist does not have the end already written, so they have to use what are called machine learning models to make their predictions.

    しかし、本とは対照的に、データサイエンティストは終わりがすでに書かれているわけではないので、機械学習モデルと呼ばれるものを使って予測を立てなければならない。

  • An example of this is called regression models, which predict a numeric value such as say a temperature or revenue.

    この例は回帰モデルと呼ばれるもので、気温や収入などの数値を予測する。

  • Another type of these models are classification models, which predict a categorical value such as a success or a failure.

    これらのモデルのもう一つのタイプは分類モデルであり、成功や失敗のようなカテゴリー値を予測する。

  • So putting on the AI engineering hat now, one of the main use cases that AI engineers work on are called prescriptive use cases, which are all about choosing the best course of action.

    AIエンジニアが取り組む主なユースケースのひとつは、処方的ユースケースと呼ばれるもので、最善の行動を選択することです。

  • An example of this is a technique called decision optimization, which enables businesses to assess a set of possible actions and then choose the most optimal path based off a set of requirements or standards.

    その一例が意思決定最適化と呼ばれる手法で、企業が一連の可能な行動を評価し、一連の要件や基準に基づいて最適な経路を選択することを可能にする。

  • Another example of a prescriptive use case is through creating what are called recommendation engines.

    また、レコメンデーション・エンジン(推奨エンジン)と呼ばれるものを作成することも、処方的な使用例のひとつである。

  • As an example, this can involve suggesting targeted marketing campaigns for a select customer base.

    例えば、特定の顧客層にターゲットを絞ったマーケティング・キャンペーンを提案することも含まれる。

  • In addition to prescriptive use cases, there are also generative use cases, hence the name generative AI.

    処方的なユースケースに加えて、生成的なユースケースもあり、これが生成的AIという名前の由来である。

  • Now, foundation models, which I will touch on more in a bit, enable the creation of what are called intelligent assistants.

    さて、もう少し詳しく触れるが、基礎モデルはインテリジェント・アシスタントと呼ばれる人たちの創造を可能にする。

  • For example, a coding assistant or a digital advisor.

    例えば、コーディング・アシスタントやデジタル・アドバイザーなどだ。

  • They also enable the creation of chatbots, as an example.

    また、一例としてチャットボットの作成も可能だ。

  • Which enable conversational search through information retrieval and the summarization of various content.

    情報検索や様々なコンテンツの要約を通じて会話型検索を可能にする。

  • So after we have a use case identified, we need data.

    ユースケースを特定したら、データが必要だ。

  • Now, people say that data is a new oil because like oil, you have to search for and find the right data and then use the right processes to transform it into various products, which then power various processes.

    なぜなら、石油のように適切なデータを探して見つけ、適切なプロセスでそれを様々な製品に変換し、様々なプロセスに活用する必要があるからだ。

  • For a data scientist, the oil of choice is often structured data, aka tabular data.

    データサイエンティストにとって、構造化されたデータ、つまり表形式のデータが選択されることが多い。

  • Do note that data scientists still work with unstructured data, but not as much as AI engineers.

    データサイエンティストは今でも非構造化データを扱っているが、AIエンジニアほどではないことに注意してほしい。

  • Now, these tables are often in the order of hundreds to hundreds of thousands of observations.

    さて、これらの表は、しばしば数百から数十万のオブザベーションのオーダーになる。

  • They require a lot of cleaning and pre-processing before the data can be modeled.

    データをモデル化する前に、多くのクリーニングと前処理を必要とする。

  • Some of the cleaning involved, for example, involves removing outliers or joining and filtering on a new table or even creating new features altogether.

    例えば、異常値の除去、新しいテーブルでの結合とフィルタリング、あるいは新しいフィーチャーの作成などである。

  • This clean data is then used to train various machine learning models.

    このクリーンなデータは、様々な機械学習モデルの学習に使用される。

  • Now, on the other hand, an AI engineer, for them, the oil of choice is mainly unstructured data, such as text, images, videos, audio files, etc.

    一方、AIエンジニアは、テキスト、画像、動画、音声ファイルなど、主に非構造化データを選択する。

  • Let's take a text-based foundation model called an LLM or large language model as an example.

    LLM(大規模言語モデル)と呼ばれるテキストベースの基礎モデルを例にとってみよう。

  • These models require anywhere between billions to trillions of tokens of text to be trained on, which is a lot larger scale compared to traditional machine learning models.

    これらのモデルは、数十億から数兆のテキスト・トークンを学習させる必要があり、これは従来の機械学習モデルに比べてはるかに大規模である。

  • This leads me to the next area of difference, which is the underlying models.

    これが次の違い、つまり基礎となるモデルの違いにつながる。

  • So the data science toolbox consists of hundreds of different models and different algorithms that they can choose from.

    つまり、データサイエンスのツールボックスは、何百もの異なるモデルと、そこから選択できる異なるアルゴリズムで構成されているのだ。

  • Due to the nature of these models, each different use case requires gathering a different data set, and thus requires training a different model.

    これらのモデルの性質上、異なるユースケースごとに異なるデータセットを収集する必要があり、したがって異なるモデルをトレーニングする必要がある。

  • So as a result, the scope of these individual models is a lot more narrow, meaning that it's harder for them to generalize past the domain of data that they've been trained on.

    その結果、個々のモデルの範囲はかなり狭くなり、トレーニングしたデータの領域を超えて一般化することは難しくなる。

  • Generally speaking, these models are a lot smaller in size in terms of the number of parameters.

    一般的に言って、これらのモデルはパラメーターの数という点ではかなり小さい。

  • They take less compute power to train and do inference, and they require less time to train, anywhere between seconds to hours.

    学習や推論に必要な計算能力も少なく、学習時間も数秒から数時間と短い。

  • Now, on the other hand, the generative AI toolbox is a lot less cluttered, and it really only contains one type of model, and that is called the foundation model.

    一方、ジェネレーティブAIのツールボックスは、それほどごちゃごちゃしておらず、本当に1種類のモデルしか含まれていない。

  • Now, foundation models are revolutionary because they allow for one single type of model to generalize to a wide range of tasks without having to be retrained.

    今、基礎モデルは画期的である。なぜなら、1種類のモデルで、再学習することなく幅広いタスクに汎化できるからだ。

  • Thus, their scope is called more wide.

    したがって、その範囲はより広いと言える。

  • Due to the sophistication of these models, they are a lot larger in size, often billions of parameters.

    これらのモデルは洗練されているため、サイズはかなり大きくなり、数十億のパラメータを持つこともある。

  • They require a lot more compute power to train.

    トレーニングにはより多くの計算能力を必要とする。

  • We're talking hundreds to thousands of GPUs, and they require a lot more training time.

    数百から数千のGPUが必要で、トレーニングに多くの時間がかかる。

  • Now, we're talking anywhere between weeks to months.

    今は数週間から数ヶ月の話だ。

  • Due to the differences in the intrinsic nature between traditional machine learning models and foundation models, this also means that the underlying processes and techniques that are used to develop solutions with these also differ.

    伝統的な機械学習モデルと基盤モデルとの本質的な性質の違いにより、これらのソリューションを開発するために使用される根本的なプロセスや技術もまた異なることを意味する。

  • So, a typical data science process will look something like this.

    つまり、典型的なデータサイエンスのプロセスは次のようなものだ。

  • You start off with a use case, and then from that use case, you pick the right data.

    まずユースケースを設定し、そのユースケースから適切なデータを選ぶ。

  • Then, after that data is prepared, you use it to train and validate a model using techniques such as feature engineering, cross-validation, or hyperparameter tuning, as an example.

    そして、データを準備した後、それを使って、特徴エンジニアリング、クロスバリデーション、ハイパーパラメータチューニングなどのテクニックを使って、モデルの訓練と検証を行う。

  • This model then is deployed at some endpoint, for example, in the Cloud to do real-time prediction and inference.

    このモデルは、例えばクラウド上のエンドポイントに配置され、リアルタイムの予測と推論を行う。

  • Now, on the other hand, the generative AI process also starts off with a use case, but then we can skip directly to working with a pre-trained model.

    一方、ジェネレーティブAIのプロセスもユースケースから始まるが、その場合、事前に訓練されたモデルを直接扱うことになる。

  • What makes this possible is a phenomenon called AI democratization, which is a big fancy word that simply means making AI more widely accessible to everyday users.

    これを可能にしているのは、AIの民主化と呼ばれる現象であり、これは単にAIを日常的なユーザーに広く利用できるようにすることを意味する大仰な言葉である。

  • Some of the best foundation models out there are published to open source communities such as Hugging Face.

    世の中には、Hugging Faceのようなオープンソースコミュニティで公開されている最高のファンデーションモデルもある。

  • Since these models are so generalizable and so powerful out of the box, they make it easy for developers to get started.

    これらのモデルは非常に汎用性が高く、箱から出してもパワフルなので、開発者は簡単に始めることができる。

  • AI engineers interact with these foundation models via natural language instructions to prompt them to do various tasks.

    AIエンジニアは、自然言語の指示によってこれらの基礎モデルと対話し、さまざまなタスクを行うよう促す。

  • This process is known as prompt engineering.

    このプロセスはプロンプト・エンジニアリングとして知られている。

  • Now, prompt engineering can be used in conjunction with different frameworks to then build larger AI systems.

    現在では、プロンプト・エンジニアリングをさまざまなフレームワークと組み合わせて使用し、より大規模なAIシステムを構築することができる。

  • An example of these frameworks include as one, chaining different prompts together or doing what's called parameter-efficient fine-tuning or PEFT on domain-specific data, or doing retrieval augmented generation, aka RAG, to ground answers and truth, or even by creating autonomous agents to reason through very complex multi-step problems.

    これらのフレームワークの一例としては、異なるプロンプトを連鎖させたり、ドメイン固有のデータでPEFT(Parameter-Efficient Fine-Tuning)と呼ばれる微調整を行ったり、RAG(Retrieval Augmented Generation)と呼ばれる検索拡張生成を行い、答えと真実を導き出したり、あるいは非常に複雑なマルチステップの問題を推論する自律エージェントを作成したりすることが挙げられる。

  • So these are just a few of the examples of the building blocks that can be used to build larger AI applications.

    これらは、より大規模なAIアプリケーションを構築するために使用できるビルディング・ブロックのほんの一例に過ぎない。

  • The last step is to then embed the AI in a larger system or workflow.

    最後のステップは、より大きなシステムやワークフローにAIを組み込むことだ。

  • This can take on the form of creating assistants or virtual agents, building a larger application with a UI, or even doing some sort of automation.

    これは、アシスタントやバーチャルエージェントを作成したり、UIを備えた大規模なアプリケーションを構築したり、あるいはある種の自動化を行うといった形をとることができる。

  • So, okay, let's take a step back and let's look at all the differences at a very high level.

    では、一歩引いて、すべての違いを非常に高いレベルで見てみよう。

  • As we can see, the breakthroughs in generative AI underpin many of the differences in the use cases, data, models, and processes that data scientists and AI engineers work on.

    このように、データサイエンティストとAIエンジニアが取り組むユースケース、データ、モデル、プロセスの違いの多くは、ジェネレーティブAIのブレークスルーが下支えしている。

  • It's important to note that there is still overlap between the two fields.

    重要なのは、この2つの分野にはまだ重複があるということだ。

  • For example, data scientists will still work on prescriptive use cases or an AI engineer will still work with structured data.

    例えば、データサイエンティストは依然として処方的ユースケースに取り組むだろうし、AIエンジニアは依然として構造化データを扱うだろう。

  • Regardless of these differences, both of these fields are continuing to evolve at a blazing fast pace with new research papers, new models, new tools coming out every single day.

    こうした違いにかかわらず、両分野は日々新しい研究論文、新しいモデル、新しいツールが発表され、猛烈なスピードで進化し続けている。

  • With data, AI, and a creative mind, really anything is possible with these.

    データ、AI、そしてクリエイティブなマインドがあれば、本当に何でも可能なのだ。

  • Thank you for tuning in. I hope this was helpful.

    ご視聴ありがとうございました。お役に立てたなら幸いです。

  • Until next time, peace.

    次回まで、平和を。

  • If you like this video and want to see more like it, please like and subscribe.

    このビデオが気に入り、このようなビデオをもっと見たい方は、「いいね!」と「購読」をお願いします。

  • If you have any questions or want to share your thoughts about this topic, please leave a comment below.

    このトピックについてご質問やご意見がありましたら、以下にコメントをお寄せください。

For many years, data science has been called the sexiest job of the 21st century.

何年もの間、データサイエンスは21世紀で最もセクシーな仕事と呼ばれてきた。

字幕と単語
AI 自動生成字幕

ワンタップで英和辞典検索 単語をクリックすると、意味が表示されます