生成 AI モデルの説明
公開: 2024-04-15生成 AI モデルについて考えるとき、おそらく、近年非常に注目を集めている大規模言語モデル (LLM) を思い浮かべるでしょう。 ただし、生成 AI 自体の歴史は何十年も前に遡り、LLM は最新の進化にすぎません。 また、LLM と並行して、画像生成に使用される拡散モデルなど、さまざまな種類の生成 AI モデルがさまざまな生成 AI ツールやユースケースに使用されます。
この記事では、生成 AI モデルとは何か、その開発方法について説明し、今日最も一般的な生成 AI モデルのいくつかについて詳しく説明します。これにより、これらのモデルの概念を理解するのに十分であり、ユーザーに感動を与えることができます。大学の機械学習コースを受講する必要なく、友人や同僚と共有できます。
目次
- 生成 AI モデルとは何ですか?
- 生成 AI モデルの仕組み
- 生成 AI モデルはどのように開発されるのでしょうか?
- 生成 AI モデルの種類
- 結論
生成 AI モデルとは何ですか?
生成 AI モデルは、トレーニング データの特性を反映した新しいオリジナル コンテンツの作成に特化した人工知能システムのサブセットです。 これらのモデルは、データ内のパターンや関係から学習することで、ソース素材のスタイル、トーン、ニュアンスに似たテキスト、画像、サウンド、ビデオなどの出力を生成できます。 この機能により、生成 AI がイノベーションの中心に位置し、入力データを解釈して新しい作品に変換することで、さまざまな分野にわたる創造的で動的なアプリケーションが可能になります。
生成 AI モデルの仕組み
生成 AI モデルは、ニューラル ネットワークとして知られる高度な形式の機械学習アルゴリズムを活用することで機能します。 ニューラル ネットワークは、相互接続されたノードの複数の層で構成され、各層はコンピューター コードの断片で表されます。 これらのノードは小規模な個別のタスクを実行しますが、集合的に複雑な意思決定に貢献し、人間の脳のニューロン機能を反映しています。
例として、パイとケーキの画像を区別する任務を負ったニューラル ネットワークを考えてみましょう。 ネットワークは画像を細かいレベルで分析し、ピクセルに分割します。 非常に基本的なレベルでは、さまざまなピクセルおよびピクセルのグループを理解するための専用のさまざまなノードがネットワーク内に存在します。 おそらく、デザートに層があるかどうかを見る人もいれば、フロスティングやクラストがあるかどうかを判断する人もいます。 それぞれのノードには、パイとケーキがどのように見えるかの特徴に関する情報が保存されており、新しい画像が登場するたびに、各ノードを通じて処理されて最終的な予測が出力されます。
生成 AI の文脈では、この原則は単なる認識を超えて、新しいオリジナルのコンテンツの作成にまで及びます。 生成モデルは単に特徴を識別するのではなく、ニューラル ネットワークを使用して、トレーニングの対象となるデータの基礎となるパターンと構造を理解します。 このプロセスには、生成される出力の創造性と精度を最適化するように設計されたアルゴリズムによって導かれる、ニューラル ネットワーク内の複雑な相互作用と調整が含まれます。
生成 AI モデルはどのように開発されるのでしょうか?
生成 AI モデルの開発には、一連の複雑で相互に関連するステップが含まれており、通常は研究者とエンジニアのチームによって実行されます。 OpenAI の GPT (Generative Pre-Trained Transformer) や他の同様のアーキテクチャなどのこれらのモデルは、トレーニングされたデータの分布を模倣する新しいコンテンツを生成するように設計されています。
そのプロセスを段階的に詳しく説明します。
1データ収集
データ サイエンティストとエンジニアはまずプロジェクトの目標と要件を決定し、それによって広範で適切なデータセットを収集します。 彼らは多くの場合、ニーズに合わせて大量のテキストや画像を提供する公開データセットを使用します。 たとえば、ChatGPT (GPT-3.5) のトレーニングには、Wikipedia のほぼすべてのコンテンツを含む、公共のインターネット ソースからの 3,000 億語に相当する 570 GB のデータの処理が含まれていました。
2機種の選定
適切なモデル アーキテクチャを選択することは、生成 AI システムの開発において重要なステップです。 決定は、当面のタスクの性質、利用可能なデータの種類、出力の望ましい品質、および計算上の制約によって決まります。 VAE、GAN、トランスベースおよび拡散モデルなどの特定のアーキテクチャについては、この記事の後半で詳しく説明します。 この段階では、新しいモデルは既存のアーキテクチャ フレームワークから始まることが多いことを理解することが重要です。 このアプローチでは、実証済みの構造を基盤として活用し、当面のプロジェクト固有の要件に合わせた改良と革新を可能にします。
3モデルのトレーニング
選択したモデルは、最初のステップで収集されたデータセットを使用してトレーニングされます。 生成 AI モデルのトレーニングには、多くの場合、GPU (グラフィックス プロセッシング ユニット) や TPU (テンソル プロセッシング ユニット) などの特殊なハードウェアを使用して、大量のコンピューティング能力が必要になります。 トレーニングのアプローチはモデルのアーキテクチャによって異なりますが、すべてのモデルはハイパーパラメーター調整と呼ばれるプロセスを経ます。 ここで、データ サイエンティストは特定のパフォーマンス設定を調整して最良の結果を達成します。
4評価と微調整
最後に、モデルのパフォーマンスが現実世界で評価またはテストされます。 生成 AI モデルの評価は、従来の機械学習モデルの評価とは少し異なります。生成 AI はまったく新しい出力を作成し、この出力の品質は主観的なものになる傾向があるためです。 メトリクスはモデルが作成するものによって異なり、生成 AI の評価手法には通常、人間の評価者の使用が含まれ、生成 AI モデルを相互に評価させる戦略が採用される場合もあります。 評価段階での学習は通常、モデルの微調整や再トレーニングに適用されます。 モデルのパフォーマンスが検証された後、生産の準備が整います。
生成 AI モデルの種類
生成 AI モデルとそれを動かすニューラル ネットワークに関する基礎的な知識を基に、2010 年代初頭以降に登場した特定のタイプのモデル アーキテクチャを詳しく見ていきます。 各モデルの固有の長所と短所、および実際のアプリケーションについて探っていきます。
ここで説明するモデルの簡単な概要は次のとおりです。
- 変分オートエンコーダ (VAE) は、複雑なデータ分布の学習に優れており、画像の生成や編集などのタスクによく使用されます。
- 敵対的生成ネットワーク (GAN) は、非常にリアルな画像を作成できることで知られており、さまざまなクリエイティブなアプリケーションで人気があります。
- 拡散モデルは、ノイズを徐々に追加して除去するプロセスを通じて高品質のサンプルを生成する新しいクラスのモデルです。
- 言語モデルは人間の言語の理解と生成に優れているため、チャットボットやテキスト補完などのアプリケーションに役立ちます。
- トランスフォーマー ベースのモデルは、当初は自然言語処理 (NLP) タスク用に設計されましたが、シーケンシャル データを処理する強力な機能により、生成モデルでの使用に適応されています。
これらの各アーキテクチャをさらに深く掘り下げて、それらがどのように機能するのか、どこに最適に適用できるのかを理解しましょう。
変分オートエンコーダ (VAE)
変分オートエンコーダは、2013 年に Max Welling と Diederik P. Kingma によって発明されました。それらは、ニューラル ネットワークがトレーニング ステップ中にモデルが学習する高レベルの概念をエンコードできるという事実に依存しています。 これは、生データの「圧縮」または「投影」と呼ばれることもあります。
たとえば、モデルがケーキの画像を見た場合、それを、スプリンクル、つや消しの色、スポンジの層など、画像のすべての特徴を含むエンコーディングに変換する可能性があります。このエンコーディングは、次のことが理解できる一連の数値のように見えます。モデルではありますが、人間ではありません。 さらに別のニューラル ネットワークでデコードして、元の画像の再作成を試みることもできます。ただし、エンコードは圧縮であるため、多少のギャップは生じます。 エンコーダー部分とデコーダー部分が連携して動作するこのタイプのモデルは、オートエンコーダーと呼ばれます。
変分オートエンコーダーは、オートエンコーダーのアイデアをひねって新しい出力を生成します。 VAE は、エンコーディングを生成するときに、離散的な数値の代わりに確率を使用します。 結局のところ、ホイップクリームはフロスティングとしてカウントされますか? 時々そうです。 時々いいえ。
これらの確率的エンコーディングを作成するためにニューラル ネットワークをトレーニングし、それをデコードするために別のニューラル ネットワークをトレーニングすると、非常に興味深い結果が得られることがわかりました。 デコーダは、変分符号化「空間」内の点をサンプリングし、トレーニング データの確率的関係が保存されているため、依然として現実的に見えるまったく新しい出力を作成できます。
長所と短所
変分オートエンコーダーは教師なし学習を使用します。これは、人間がさまざまな特徴や結果にラベルを付ける必要がなく、モデルが生データから独自に学習することを意味します。 このようなモデルは、元のコンテンツからわずかに逸脱したコンテンツの作成に特に成功します。 エンコーディングの操作方法により、トレーニング データの特徴に基づいて、「ケーキとパイの完璧な中間点を表すデザートを見せて」といった具体的な指示を与えることもできます。 とはいえ、VAE は予想される結果に合わせて最適化するため、非常に独創的または画期的なコンテンツの作成に優れる可能性は低いです。
VAE に関するよくある不満の 1 つは、エンコードとデコードには情報の損失が生じる圧縮が含まれるため、ノイズの多い (つまり、ぼやけた) 画像が生成される可能性があることです。
ユースケース
変分オートエンコーダはあらゆる種類のデータを処理しますが、主に画像、音声、テキストの生成に使用されます。 興味深いアプリケーションの 1 つは異常検出です。データセット内で、VAE は標準から最も逸脱しているデータ ポイントを見つけることができます。これは、それらのポイントの再構成誤差が最も大きくなるからです。つまり、VAE がエンコードした確率から最も遠いデータ ポイントになるからです。
敵対的生成ネットワーク (GAN)
敵対的生成ネットワークは、2014 年にイアン グッドフェローによって開発されました。それ以前からニューラル ネットワークは画像を生成できましたが、結果は不鮮明で説得力に欠ける傾向がありました。 GAN の背後にある中心的な質問 (および洞察) は次のとおりです。2 つのニューラル ネットワークを互いに戦わせたらどうなるでしょうか? ジェネレーターと呼ばれる 1 つは新しいコンテンツを生成するように訓練され、もう 1 つはディスクリミネーターと呼ばれ、本物のコンテンツと偽のコンテンツの違いを知るように訓練されます。
ジェネレーターは候補画像を作成し、それらをディスクリミネーターに表示します。 フィードバックに基づいて、ジェネレーターはそれに応じて予測を更新し、ディスクリミネーターを「だます」ことがますますうまくなります。 50% の確率で弁別器をだますことができると (本物と偽物の間でコインを投げるのと同じくらい)、フィードバック トレーニング ループは停止します。 これで、GAN のジェネレーター部分の評価と実稼働の準備が整います。
2014 年以来、GAN の固有の長所と短所のバランスをとるために、さまざまなユースケースに合わせて数百種類の GAN のバリエーションが開発されてきました。
長所と短所
敵対的生成ネットワークは、VAE とともに、当初、生成 AI の可能性について多くの話題を引き起こしました。 彼らは教師なし学習を使用しているため、研究者が出力の良し悪しをモデルに伝える必要がなく、モデルは自動的に改善されます。 敵対的生成ネットワークも非常に迅速に学習します。 最初にリリースされた他の既存のソリューションと比較して、はるかに少ないトレーニング データ (数千ではなく数百の画像) で良好な結果を得ることができました。
ただし、GAN は一般に、トレーニング データに似ていないコンテンツを作成するのに苦労します。GAN はクリエイターではなくなりすまし者です。 また、猫のミームを大量に見せられたために GAN が文字を含む猫の写真の画像を作成した場合など、トレーニング データを「過剰適合」する場合もあります。
GAN のトレーニングは困難です。 トレーニング中に 2 つのネットワークをやりくりする必要があります。 また、ディスクリミネーターが優れすぎてトレーニング サイクルが終了しない場合や、ディスクリミネーターが十分ではない場合に問題が発生し、結果が悪くなる場合もあります。 また、ジェネレーターがディスクリミネーターを騙すいくつかの方法を学習し、他の戦略を排除してそれらの戦略に焦点を当てるため、多様な出力を生成できない、いわゆるモード崩壊に悩まされる可能性があります。
ユースケース
敵対的生成ネットワークは主に、オリジナルに非常によく似たコンテンツを生成するために使用されます。 たとえば、ストックフォトやビデオゲームで使用するために、説得力のある人間の顔やインテリアや風景のリアルな写真を作成できます。 また、画像をカラーから白黒に変更したり、画像内の顔を老化させたりするなど、何らかの方法で変更された画像を作成することもできます。 とはいえ、すべての GAN が画像を生成するわけではありません。 たとえば、一部の GAN は、テキスト読み上げ出力の生成に使用されています。
普及モデル
普及モデルも 2010 年代半ばに登場し、2020 年代初頭までにパフォーマンスの向上をもたらすいくつかのブレークスルーを提供しました。 これらは、DALL-E、Stable Diffusion、Midjourney などの画像生成ツールを強化します。
拡散モデルは、画像にガウス ノイズを導入し、一連のステップで画像を歪ませ、次にこれらのステップを逆にして「ノイズの多い」画像を鮮明な画像に変換するようにモデルをトレーニングすることによって機能します。 (「ガウス ノイズ」とは、確率の釣鐘曲線を使用してノイズがランダムに追加されることを意味します。)
ノイズの多い画像は VAE エンコーディングのようなものと考えることができ、実際、VAE と拡散モデルには関連性があります。 たとえば、キー ライム パイのトレーニング データ画像は、かなり似たノイズの多いバージョンになります。 ただし、モデルは途中で知識に基づいた推測を行っているため、同じノイズの多い画像であっても、毎回同じものに「ノイズ除去」されるわけではありません。
生成部分がどこに入るのかはすでに理解しているかもしれません。モデルにノイズの多い空間内のイメージの表現を与えると、モデルはイメージのノイズを除去し、まったく新しい鮮明なイメージを思いつくことができます。 これは、デコーダがエンコードからサンプリングする方法に似ています。 ただし、重要な違いが 1 つあります。それは、途中で圧縮が行われていないことです。 したがって、データの実際の損失はなく、得られる画像はより高品質になります。
テキスト プロンプトから画像に変換する生成 AI ツールは、「ユニコーンをテーマにした誕生日ケーキ」のようなものがさまざまな画像の特徴にどのようにマッピングされるかを理解する別のモデルの助けを借りてこれを行います。 これらの特徴のノイズの多いバージョンが反転されて、鮮明な画像が表示されます。
長所と短所
拡散モデルはトレーニング データを圧縮しないため、非常にリアルで高品質の画像を作成できます。 ただし、トレーニングには他のモデルよりもはるかに多くのリソースと時間がかかります。 とはいえ、GAN のモード崩壊や敵対的ネットワークのその他の欠点に遭遇しないため、トレーニング自体はより簡単です。 また、VAE のようにデータの損失 (およびその結果として生じる低品質の出力) の影響を受けることもありません。
ユースケース
拡散モデルは主に画像、サウンド、ビデオの生成に使用されます。 テキストの生成にも使用できない固有の理由はありませんが、これまでのところ、トランスフォーマー ベースのモデルは自然言語に対してより効果的です。
言語モデル
言語モデルとは、自然言語の確率モデルを生成する機械学習技術を指します。 現在、最もよく知られているタイプの言語モデルは大規模言語モデル (LLM) です。LLM は、大量の生データでトレーニングされ、トランスフォーマー ベースのアーキテクチャを使用してテキストを生成します。 (変圧器については次のセクションで詳しく説明します。)
トランスフォーマーベースのモデルが登場する以前は、ほとんどの最先端の言語モデルではリカレント ニューラル ネットワーク (RNN) が使用されていました。 リカレント ニューラル ネットワークでは、ノード間の相互接続に小さなループが導入されるため、従来のフィードフォワード ニューラル ネットワークのように現在の信号から学習するだけでなく、ノードは最近の過去からも学習できます。 これは、テキストのストリームや音声入力などの自然言語を処理または生成する場合に重要です。 画像とは異なり、言語は非常に文脈に左右されます。言語をどのように解釈するかは、これまでに起こったことに依存します。
長所と短所
「言語モデル」は非常に大きなモデルのグループを指すため、その利点と欠点について一般化することは困難です。 言語モデリングの課題には、言語が非常に高次元であるという事実が含まれます。どの言語にも膨大な数の異なる単語があり、一部の組み合わせはトレーニング データに決して現れない可能性があります。
さらに、言語はシーケンスの前にあるもののコンテキストに大きく依存するため、ネットワークがそのコンテキストを何らかの方法で処理または表現する必要があります。 このニーズに対処する能力により、長期および短期記憶を備えた RNN と、その後で文全体を全体として処理できるトランスフォーマーが、言語モデルの最先端のアーキテクチャとして浮上しました。
ユースケース
言語モデルは、翻訳、要約、文法エラーの修正、音声認識、その他多くのタスクに使用できます。 これらは、多くのアプリケーションで新しいクリエイティブなテキスト コンテンツを生成するために使用され、データの分析や論理パズルの解決など、高度な推論が可能であることが証明されています。 興味深いことに、LLM は完全にテキストで訓練されているにもかかわらず、LLM の新たな能力は空間認識と基本的な図面を作成する能力であることが研究で判明しました。
トランスベースのモデル
トランスフォーマーは、2017 年に Google とトロント大学の研究者によって発明され、ディープラーニングの分野に革命をもたらしました。 ChatGPT のような大規模な言語モデルはトランスフォーマー ベースのモデルであり、Google 検索結果もトランスフォーマーを利用しています。
トランスフォーマーベースのモデルは、トレーニング データを使用して、さまざまな単語がどのように関連しているかを学習します。 たとえば、ケーキとパイは概念的に似ているが、ケーキとケープは直接関連していないことを学習する可能性があります。 また、特にこれらの単語が近くに出現する場合、スライスがケーキとパイにリンクされる可能性があることを学習する可能性があります。
テキストを分析するとき、モデルはこのベースラインの理解を使用して、大規模なスプレッドシートに似たものを構築します。 テキスト内の任意の 2 つの単語を検索し、それらがどの程度関連しているかについての答えを得ることができます。
これらの文脈上の手がかりを活用することで、トランスフォーマー モデルは言語を適切に解釈し、会話の潜在的な連続性を予測します。 たとえば、誰かが 1 つのセグメントでケーキについて言及し、次のセグメントで誕生日の話題に移った場合、モデルは確立された言語的つながりに基づいて、最終的にキャンドルやパーティーについて言及することを予測します。
長所と短所
言語の分析と生成に関しては、トランスフォーマーには、前任者である RNNS に比べていくつかの利点があります。 各単語を順番に処理するのではなく、ネットワーク全体でテキストを並行して処理できます。 これにより、非常に大規模なデータセットでのトレーニングがより高速かつ効率的に行われます。 また、単語間の距離に関係なく単語間の接続を確立できるため、テキストからより多くのコンテキストを活用できるようになります。
ただし、トランスフォーマーが適切に動作するには大量のデータが必要であり、データセットが小さい場合は、より従来のニューラル ネットワーク アーキテクチャの方が適切に動作する可能性があります。
ユースケース
Transformers には、多くの生成 AI アプリケーションがあります。 トランスベースのモデルは通常、テキストや音声の生成に使用されますが、拡散モデルよりも計算量が少ないため、研究者は画像生成への使用を検討しています。
最も有名なのは、LLM はトランスベースのモデルです。 言語モデルは、アーキテクチャのデコーダ部分のみを使用します。 プロンプトは、エンコード (前述した数値、確率、および注意データのセット) としてモデルに入力されます。 モデルは、セルフ アテンション メカニズムを使用し、プロンプト内のすべての単語を並行して調べることによって、入力をデコードします。 モデルの目標は、文内の次の単語の予測を出力することです。
トランスフォーマーには、自然言語処理でのテキストの生成以外にも多くの用途があります。 実際、これらは元々、テキストをある言語から別の言語に翻訳または変換するために考案されました。 Grammarly は、トランスフォーマーを使用して文法の間違いを修正する研究に貢献しました。
結論
生成 AI モデルは、過去 10 年間で大きな進歩を遂げました。 これらのモデルの進化、モデルがどのように機能するか、さまざまなユースケースにどのように適用できるかについて、もう少し理解していただけたでしょうか。 ただし、この記事は表面をなぞっただけであり、平均的な読者に概要を提供することを目的として多くの重要な詳細を省略しています。 これらのモデルの基礎となっている研究論文を研究し、確率的および統計的な観点からモデルがどのように機能するかをさらに学ぶことで、これらのモデルの背後にある数学と科学について学び続けることをお勧めします。