AI 幻覚: その正体となぜ起こるのか

公開: 2024-06-27

AI幻覚とは何ですか?

AI 幻覚は、AI ツールが自信を持っているように見せながら、誤った情報を生成するときに発生します。 これらのエラーは、歴史的な日付の誤りなどの軽微な誤りから、時代遅れまたは有害な健康療法の推奨など、重大な誤解を招く情報までさまざまです。 AI 幻覚は、大規模言語モデル (LLM) や画像生成システムなどの他の AI テクノロジーを利用したシステムで発生する可能性があります。

たとえば、AI ツールは、エッフェル塔の実際の高さ 330 メートルではなく、高さ 335 メートルであると誤って報告する可能性があります。 カジュアルな会話ではこのような誤差は問題にならないかもしれませんが、医療上のアドバイスを提供するなど、一か八かの状況では正確な測定が非常に重要です。

AI の幻覚を減らすために、開発者は 2 つの主な手法を使用します。1 つは敵対的な例を使用したトレーニングでモデルを強化し、もう 1 つはエラーをペナルティするメトリクスで微調整します。 これらの方法を理解することで、ユーザーは AI ツールをより効果的に活用し、AI ツールが生成する情報を批判的に評価することができます。

Grammarly で賢く仕事をする
仕事を持つすべての人のための AI ライティング パートナー

AIの幻覚の例

初期の世代の AI モデルでは、現在のシステムよりも頻繁に幻覚が発生しました。 注目すべき事件としては、MicrosoftのAIボット「Sydney」が技術記者のKevin Rooseに「彼に恋をしていた」と語った事件や、GoogleのGemini AI画像ジェネレーターが歴史的に不正確な画像を生成した事件などが挙げられる。

しかし、今日の AI ツールは改善されていますが、依然として幻覚は発生します。 AI の幻覚の一般的なタイプをいくつか示します。

  • 歴史的事実: AI ツールは、最初の月面着陸が実際に起こったのは 1969 年であるにもかかわらず、1968 年に起こったと述べている可能性があります。このような不正確さは、人類の歴史における重要な出来事の誤った表現につながる可能性があります。
  • 地理的エラー:実際の首都はオタワであるにもかかわらず、AI が誤ってトロントをカナダの首都と呼ぶ可能性があります。この誤った情報は、カナダの地理について学ぼうとしている学生や旅行者を混乱させる可能性があります。
  • 財務データ: AI モデルは、企業の株価が 1 日に 30% 上昇したと主張するなど、実際にはその変化ははるかに小さいなど、財務指標を幻覚させる可能性があります。誤った財務上のアドバイスのみに依存すると、不適切な投資決定につながる可能性があります。
  • 法的ガイダンス: AI モデルは、口頭による合意はあらゆる状況において書面による契約と同様に法的拘束力があるという誤解をユーザーに与える可能性があります。これは、特定の取引 (不動産取引など) の有効性と強制力を確保するために書面による契約が必要であるという事実を見落としています。
  • 科学研究の誤った情報: AI ツールは、そのような研究が存在しないにもかかわらず、科学的進歩を裏付けると思われる研究を引用する可能性があります。この種の幻覚は、重要な科学的成果について研究者や一般の人々を誤解させる可能性があります。

AIの幻覚はなぜ起こるのか?

AI で幻覚が発生する理由を理解するには、LLM の基本的な仕組みを認識することが重要です。 これらのモデルは、テキスト (またはトークン) を処理し、シーケンス内の次のトークンを予測する、いわゆるトランスフォーマー アーキテクチャに基づいて構築されています。 人間の脳とは異なり、歴史、物理学、その他の主題を本質的に理解する「世界モデル」を持っていません。

AI 幻覚は、モデルが不正確ではあるが、事実として正しいデータと統計的に類似した応答を生成したときに発生します。 これは、応答が偽であるにもかかわらず、モデルが可能性が高いと予測したものと意味論的または構造的に類似していることを意味します。

AI 幻覚のその他の理由には次のようなものがあります。

不完全なトレーニング データ

AI モデルは、トレーニングに使用されるデータの範囲と品質に大きく依存します。 トレーニング データが不完全であるか多様性に欠けている場合、正確でバランスのとれた応答を生成するモデルの能力が制限されます。 これらのモデルは例によって学習します。その例が十分に広い範囲のシナリオ、視点、反事実をカバーしていない場合、その出力はこれらのギャップを反映する可能性があります。

AI モデルが不足している情報をもっともらしいが不正確な詳細で埋める可能性があるため、この制限は幻覚として現れることがよくあります。 たとえば、AI が主に 1 つの地理的地域 (たとえば、公共交通機関が充実している場所) からのデータにさらされている場合、AI は、これらの特性がグローバルではないにもかかわらず、グローバルであると想定する応答を生成する可能性があります。 AI は、トレーニングされた範囲を超えて冒険していることを認識する能力を備えていません。 したがって、モデルは根拠のない、または偏見のある自信に満ちた主張を行う可能性があります。

トレーニングデータの偏り

トレーニング データの偏りは完全性に関係しますが、同じではありません。 不完全なデータは AI に提供される情報のギャップを指しますが、偏ったデータは利用可能な情報が何らかの形で偏っていることを意味します。 これらのモデルは主にインターネット上でトレーニングされており、インターネットには固有のバイアスがあることを考えると、これはある程度は避けられません。 たとえば、多くの国や人口はオンラインで過小評価されており、世界中で 30 億人近くの人が依然としてインターネットにアクセスできません。 これは、トレーニング データがこれらのオフライン コミュニティの視点、言語、文化的規範を適切に反映していない可能性があることを意味します。

オンライン人口の間でも、誰がコンテンツを作成して共有するか、どのようなトピックが議論されるか、その情報がどのように提示されるかについては格差があります。 こうしたデータの偏りにより、AI モデルが学習し、その出力にバイアスが永続化する可能性があります。 ある程度の偏りは避けられませんが、データの偏りの範囲と影響は大幅に異なる可能性があります。 したがって、AI 開発者の目標は、これらのバイアスを認識し、可能な限り軽減するよう努め、データセットが意図したユースケースに適しているかどうかを評価することです。

形式知の表現の欠如

AI モデルは統計的なパターン マッチングを通じて学習しますが、事実や概念の構造化された表現が欠けています。 事実に基づく記述を生成したとしても、何が真実で何がそうでないかを追跡するメカニズムがないため、それらが真実であるとは「わかりません」。

この明確な事実フレームワークの欠如は、LLM が信頼性の高い情報を生成できる一方で、人間が持つ事実の真の理解や検証なしに人間の言語を模倣することに優れていることを意味します。 この根本的な制限が、AI と人間の認知の重要な違いです。 AI が発展し続ける中、開発者にとって AI システムの信頼性を高めるには、この課題に対処することが依然として重要です。

文脈理解の欠如

人間のコミュニケーションにおいてコンテキストは極めて重要ですが、AI モデルはコンテキストに苦戦することがよくあります。 自然言語で促されたとき、彼らの反応は過度に文字通りであったり、的外れなものになることがあります。それは、人間が文脈から導き出す深い理解、つまり世界についての知識、生きた経験、行間を読む能力、暗黙の仮定の把握が欠けているためです。

過去 1 年間で、AI モデルは人間の状況を理解する能力が向上しましたが、感情的な内訳、皮肉、皮肉、文化的言及などの要素には依然として苦労しています。 意味が進化した俗語や口語のフレーズは、最近更新されていない AI モデルによって誤って解釈される可能性があります。 AI モデルが人間の経験と感情の複雑な網目を解釈できるようになるまで、幻覚は依然として大きな課題となるでしょう。

AI チャットボットはどのくらいの頻度で幻覚を見ますか?

AI の幻覚の頻度を正確に判断するのは困難です。 この割合は、AI ツールが使用されるモデルやコンテキストによって大きく異なります。 AI スタートアップの Vectara の推定によると、GitHub 上の Vectara の公開幻覚リーダーボードによると、チャットボットは 3% から 27% の確率で幻覚を起こします。このリーダーボードは、文書を要約するときに人気のあるチャットボットの幻覚の頻度を追跡しています。

テクノロジー企業は、潜在的な不正確さや追加の検証の必要性について人々に警告する免責条項をチャットボットに実装しています。 開発者はモデルの改良に積極的に取り組んでおり、昨年すでに進歩が見られました。 たとえば、OpenAI は、GPT-4 は以前のバージョンよりも事実に基づく応答を生成する可能性が 40% 高いと指摘しています。

AIの幻覚を防ぐには

AI の幻覚を完全に根絶することは不可能ですが、いくつかの戦略によってその発生と影響を軽減することができます。 これらの方法の中には、AI モデルの改善に取り組んでいる研究者や開発者により適用可能なものもあれば、AI ツールを使用する一般の人々に適用できるものもあります。

トレーニングデータの品質を向上させる

AI の幻覚を防ぐには、高品質で多様なデータを確保することが重要です。 トレーニング データが不完全、偏りがある、または十分な多様性に欠けている場合、モデルは新しいケースや特殊なケースに直面したときに正確な出力を生成するのに苦労します。 研究者や開発者は、さまざまな観点をカバーする包括的で代表的なデータセットを厳選するよう努める必要があります。

結果の数を制限する

場合によっては、モデルが大量の応答を生成すると、AI の幻覚が発生します。 たとえば、モデルに創造的な文章のプロンプトの例を 20 個質問すると、セットの終わりに向かって結果の品質が低下することに気づくかもしれません。 これを軽減するには、結果セットをより小さい数に制限し、最も有望で一貫性のある応答に焦点を当てるように AI ツールに指示して、突飛な結果や一貫性のない結果が応答する可能性を減らします。

テストと検証

開発者とユーザーの両方が AI ツールをテストして検証し、信頼性を確保する必要があります。 開発者は、幻覚パターンを特定するために、既知の真実、専門家の判断、および評価ヒューリスティックに照らしてモデルの出力を体系的に評価する必要があります。 すべての幻覚が同じというわけではありません。 完全な捏造は、文脈の手掛かりの欠如による誤解とは異なります。

ユーザーは、ツールの出力を信頼する前に、特定の目的に対するツールのパフォーマンスを検証する必要があります。 AI ツールは、テキストの要約、テキスト生成、コーディングなどのタスクには優れていますが、すべてにおいて完璧ではありません。 テスト中に望ましい出力と望ましくない出力の例を提供すると、AI がユーザーの好みを学習するのに役立ちます。 テストと検証に時間を投資すると、アプリケーションにおける AI 幻覚のリスクを大幅に軽減できます。

構造化された出力用のテンプレートを提供する

AI モデルに情報を表示するための正確な形式または構造を伝えるデータ テンプレートを提供できます。 結果をどのように編成するか、どの主要な要素を含めるかを正確に指定することで、AI システムがより焦点を絞った関連性の高い応答を生成するように導くことができます。 たとえば、AI ツールを使用して Amazon 製品をレビューしている場合は、製品ページからすべてのテキストをコピーし、次のサンプル テンプレートを使用して製品を分類するように AI ツールに指示します。

プロンプト:提供された Amazon 製品ページのテキストを分析し、以下のテンプレートに入力します。関連する詳細を抽出し、情報を簡潔かつ正確に保ち、​​最も重要な側面に焦点を当てます。情報が不足している場合は、「N/A」と記入してください。 本文中で直接参照されていない情報は追加しないでください。

  • 商品名:【AIが推定した商品名はこちら】
  • 製品カテゴリ:[AI推定製品カテゴリはこちら]
  • 価格帯: [AI による推定価格はこちら] [米ドル]
  • 主な機能: [簡単な説明はこちら]
  • 長所 [箇条書きトップ 3]
  • 短所 [箇条書きトップ 3]
  • 総合評価: [1 ~ 5 段階でランク付け]
  • 製品概要: [最大 2 ~ 3 文]

結果として得られる出力には、誤った出力や、指定した仕様を満たさない情報が含まれる可能性が大幅に低くなります。

AI ツールを責任を持って使用する

上記の戦略は全身レベルで AI 幻覚を防ぐのに役立ちますが、個々のユーザーはより責任を持って AI ツールを使用する方法を学ぶことができます。 これらの習慣は幻覚を防ぐことはできないかもしれませんが、AI システムから信頼できる正確な情報を取得する可能性を高めることができます。

  • 結果を相互参照し、ソースを多様化する:重要な情報を単一の AI ツールだけに依存しないでください。情報の正確性と完全性を検証するために、確立された報道機関、学術出版物、信頼できる人間の専門家、政府の報告書など、他の信頼できる情報源と出力を相互参照します。
  • ご自身の判断で行ってください。AIツールは、たとえ最先端のものであっても限界があり、エラーが発生しやすいことを認識してください。彼らの出力を自動的に信頼しないでください。 批判的な目で彼らにアプローチし、AI が生成した情報に基づいて意思決定を行うときは、自分自身の判断を下してください。
  • AI を出発点として使用する: AI ツールによって生成された出力を、最終的な答えとしてではなく、さらなる調査と分析の出発点として扱います。AI を使用してアイデアを探索し、仮説を生成し、関連情報を特定しますが、人間の専門知識と追加の調査を通じて、生成された洞察を常に検証し、拡張します。

結論

AI の幻覚は、小さな不正確さから完全な捏造に至るまで、LLM システムの現在の制限から発生します。 これらは、不完全または偏ったトレーニング データ、限定された文脈理解、および明示的な知識の欠如によって発生します。

AI テクノロジーは困難ではありますが、依然として強力であり、継続的に改善されています。 研究者たちは幻覚を減らすことに取り組んでおり、大きな進歩が見られます。 構造化されたテンプレートを提供し、出力を制限し、ユースケースに合わせてモデルを検証することで、幻覚を制限できます。

偏見を持たずに AI ツールを検討してください。 これらは、人間の創意工夫と生産性を向上させる素晴らしい機能を提供します。 ただし、AI が生成した結果と信頼できる情報源との相互参照情報を使用して判断してください。 幻覚に注意しながら、AI の可能性を受け入れましょう。