人工智慧幻覺:它們是什麼以及為什麼會發生

已發表: 2024-06-27

什麼是人工智慧幻覺?

當人工智慧工具在表現出自信的同時產生錯誤訊息時,就會出現人工智慧幻覺。 這些錯誤可能包括輕微的不準確(例如錯誤陳述歷史日期)到嚴重誤導性的信息(例如推薦過時或有害的健康療法)。 AI 幻覺可能發生在由大型語言模型 (LLM) 和其他 AI 技術(包括影像生成系統)支援的系統中。

例如,AI 工具可能會錯誤地指出艾菲爾鐵塔高 335 米,而不是實際高度 330 米。 雖然這樣的錯誤在隨意交談中可能無關緊要,但在高風險情況下(例如提供醫療建議),準確的測量至關重要。

為了減少人工智慧中的幻覺,開發人員使用兩種主要技術:使用對抗性範例進行訓練,以增強模型,並使用懲罰錯誤的指標對其進行微調。 了解這些方法可以幫助使用者更有效地利用人工智慧工具並批判性地評估它們產生的資訊。

使用 Grammarly 更聰明地工作
任何有工作要做的人的人工智慧寫作夥伴

AI 幻覺的例子

早期的人工智慧模型比目前的系統更頻繁地出現幻覺。 值得注意的事件包括微軟的人工智慧機器人雪梨告訴科技記者凱文·羅斯,它“愛上了他”,以及谷歌的雙子座人工智慧圖像生成器生成了歷史上不准確的圖像。

然而,今天的人工智慧工具已經改進,儘管幻覺仍然會發生。 以下是一些常見的人工智慧幻覺類型:

  • 歷史事實:人工智慧工具可能會聲稱首次登月發生在 1968 年,但實際上發生在 1969 年。
  • 地理錯誤:人工智慧可能會錯誤地將多倫多稱為加拿大的首都,儘管實際首都是渥太華。這種錯誤訊息可能會讓想要了解加拿大地理的學生和旅行者感到困惑。
  • 財務數據:人工智慧模型可能會產生財務指標的幻覺,例如聲稱一家公司的股價一天內上漲了 30%,而事實上,變化要低得多。僅依賴錯誤的財務建議可能會導致錯誤的投資決策。
  • 法律指導:人工智慧模型可能會誤導用戶,認為口頭協議在所有情況下都與書面合約一樣具有法律約束力。這忽略了這樣一個事實,即某些交易(例如房地產交易)需要書面合約來確保有效性和可執行性。
  • 科學研究錯誤訊息:人工智慧工具可能會引用一項據稱證實科學突破的研究,但實際上並不存在此類研究。這種幻覺可能會誤導研究人員和公眾對重大科學成就的認識。

AI為何會產生幻覺?

要理解人工智慧中為什麼會出現幻覺,重要的是要了解法學碩士的基本運作原理。 這些模型建立在所謂的轉換器架構之上,該架構處理文字(或標記)並預測序列中的下一個標記。 與人類大腦不同,它們沒有本質上理解歷史、物理或其他學科的「世界模型」。

當模型產生不準確但在統計上與實際正確數據相似的響應時,就會出現人工智慧幻覺。 這意味著雖然響應是錯誤的,但它與模型預測的可能內容具有語義或結構相似性。

人工智慧幻覺的其他原因包括:

訓練資料不完整

人工智慧模型在很大程度上依賴訓練資料的廣度和品質。 當訓練資料不完整或缺乏多樣性時,它會限制模型產生準確且全面的反應的能力。 這些模型透過範例進行學習,如果它們的範例沒有涵蓋足夠廣泛的場景、觀點和反事實,它們的輸出可以反映這些差距。

這種限制通常表現為幻覺,因為人工智慧模型可能會用看似合理但不正確的細節來填充缺失的資訊。 例如,如果人工智慧主要接觸來自某個地理區域(例如公共交通發達的地方)的數據,它可能會產生假設這些特徵是全球性的回應,但事實並非如此。 人工智慧不知道自己正在冒險超出其訓練範圍。 因此,該模型可能會做出毫無根據或有偏見的自信斷言。

訓練資料中的偏差

訓練資料中的偏差與完整性有關,但並不相同。 不完整的數據是指提供給人工智慧的資訊存在差距,而有偏差的數據則意味著可用的資訊在某種程度上存在偏差。 這在某種程度上是不可避免的,因為這些模型主要是在互聯網上訓練的,而互聯網具有固有的偏見。 例如,許多國家和人口的上網人數不足——全球仍有近 30 億人無法上網。 這意味著培訓數據可能無法充分反映這些線下社群的觀點、語言和文化規範。

即使在網路人群中,誰創建和分享內容、討論哪些主題以及如何呈現資訊也存在差異。 這些數據偏差可能會導致人工智慧模型學習並在其輸出中永久存在偏差。 一定程度的偏差是不可避免的,但數據偏差的程度和影響可能會大不相同。 因此,人工智慧開發人員的目標是意識到這些偏差,盡可能減輕它們,並評估資料集是否適合預期的用例。

缺乏明確的知識表示

人工智慧模型透過統計模式匹配進行學習,但缺乏事實和概念的結構化表示。 即使他們產生事實陳述,他們也不「知道」這些陳述是真實的,因為他們沒有機制來追蹤什麼是真實的,什麼是不是。

缺乏明確的事實框架意味著,雖然法學碩士可以產生高度可靠的訊息,但他們擅長模仿人類語言,而無需真正理解或驗證人類所擁有的事實。 這個根本限制是人工智慧和人類認知之間的關鍵區別。 隨著人工智慧的不斷發展,解決這項挑戰對於開發人員增強人工智慧系統的可信度仍然至關重要。

缺乏對上下文的理解

語境在人類溝通中至關重要,但人工智慧模型卻常常遇到困難。 當用自然語言提示時,他們的反應可能過於字面意思或脫節,因為他們缺乏人類從上下文中獲得的更深入的理解——我們對世界的了解、生活經歷、解讀字裡行間的能力以及對不言而喻的假設的把握。

在過去的一年裡,人工智慧模型在理解人類背景方面取得了進步,但它們仍然難以應對情感潛台詞、諷刺、諷刺和文化參考等元素。 意義演變的俚語或口語短語可能會被最近未更新的人工智慧模型誤解。 在人工智慧模型能夠解釋人類經驗和情感的複雜網路之前,幻覺仍將是一個重大挑戰。

人工智慧聊天機器人多久會產生幻覺?

確定人工智慧幻覺的確切頻率具有挑戰性。 根據人工智慧工具使用的模型或環境,該比率差異很大。 人工智慧新創公司Vectara 的一項估計表明,根據Vectara 在GitHub 上的公共幻覺排行榜(該排行榜追蹤熱門聊天機器人在總結文件時出現幻覺的頻率),聊天機器人產生幻覺的機率在3% 到27 % 之間。

科技公司在其聊天機器人中實施了免責聲明,警告人們潛在的不準確之處以及需要進行額外驗證。 開發人員正在積極努力完善模型,我們在去年已經看到了進展。 例如,OpenAI 指出,GPT-4 產生事實反應的可能性比其前身高 40%。

如何預防人工智慧幻覺

雖然不可能完全消除人工智慧幻覺,但有幾種策略可以減少其發生和影響。 其中一些方法更適用於致力於改進人工智慧模型的研究人員和開發人員,而另一些方法則適合使用人工智慧工具的普通人。

提高訓練資料的質量

在試圖防止人工智慧幻覺時,確保高品質和多樣化的數據至關重要。 如果訓練資料不完整、有偏差或缺乏足夠的多樣性,則模型在面對新穎或邊緣情況時將難以產生準確的輸出。 研究人員和開發人員應努力整理涵蓋各種觀點的全面且具代表性的資料集。

限制結果的數量

在某些情況下,當模型產生大量反應時,人工智慧幻覺就會發生。 例如,如果您向模型詢問 20 個創意寫作提示的範例,您可能會意識到結果品質在該組結束時下降。 為了緩解這種情況,您可以將結果集限制為較小的數量,並指示 AI 工具專注於最有希望和一致的回應,從而減少其回應牽強或不一致結果的機會。

測試和驗證

開發人員和使用者都必須測試和驗證人工智慧工具以確保可靠性。 開發人員必須根據已知事實、專家判斷和評估啟發法系統地評估模型的輸出,以識別幻覺模式。 並非所有的幻覺都是一樣的; 完整的捏造與缺乏上下文線索而造成的誤解不同。

在信任其輸出之前,使用者應驗證該工具針對特定用途的效能。 人工智慧工具擅長文字摘要、文字生成和編碼等任務,但並非在所有方面都是完美的。 在測試期間提供所需和不需要的輸出範例有助於人工智慧了解您的偏好。 投入時間進行測試和驗證可以顯著降低應用程式中人工智慧幻覺的風險。

提供結構化輸出的模板

您可以提供資料模板,告訴 AI 模型您希望呈現資訊的精確格式或結構。 透過準確指定結果應如何組織以及應包含哪些關鍵元素,您可以指導人工智慧系統產生更有針對性和相關的回應。 例如,如果您使用 AI 工具評論亞馬遜產品,只需複製產品頁面中的所有文本,然後指示 AI 工具使用以下範例範本對產品進行分類:

提示:分析提供的亞馬遜產品頁面文字並填寫下面的範本。提取相關細節,保持資訊簡潔準確,專注於最重要的方面。如果缺少任何訊息,請寫“N/A”。 不要添加文本中未直接引用的任何資訊。

  • 產品名稱:[此處為人工智慧推導的產品名稱]
  • 產品類別:[此處為AI推導的產品類別]
  • 價格範圍:[這裡以人工智慧推算的價格][美元]
  • 主要特點:[此處簡要描述]
  • 優點 [要點中的前 3 名]
  • 缺點 [要點中的前 3 名]
  • 整體評分:[依 1-5 等級排名]
  • 產品摘要:[最多 2-3 句]

產生的輸出不太可能涉及錯誤輸出和不符合您提供的規範的資訊。

負責任地使用人工智慧工具

雖然上述策略可以幫助在系統層面防止人工智慧幻覺,但個人使用者可以學會更負責任地使用人工智慧工具。 這些做法可能無法防止幻覺,但它們可以提高您從人工智慧系統獲得可靠和準確資訊的機會。

  • 交叉引用結果並使來源多樣化:不要僅依賴單一人工智慧工具來獲取關鍵資訊。將產出與其他信譽良好的來源(例如知名新聞機構、學術出版物、值得信賴的人類專家和政府報告)進行交叉引用,以驗證資訊的準確性和完整性。
  • 運用你的判斷:認識人工智慧工具,即使是最先進的工具,也有限制且容易出錯。不要自動相信他們的輸出。 以批判的眼光對待他們,並在根據人工智慧產生的資訊做出決策時運用自己的判斷。
  • 使用人工智慧作為起點:將人工智慧工具產生的輸出視為進一步研究和分析的起點,而不是作為明確的答案。使用人工智慧探索想法、產生假設並識別相關信息,但始終透過人類專業知識和其他研究來驗證和擴展其產生的見解。

結論

人工智慧幻覺源自於法學碩士系統目前的局限性,從輕微的不準確到完全的捏造。 這些問題的發生是由於訓練資料不完整或有偏見、上下文理解有限、缺乏明確的知識。

儘管充滿挑戰,但人工智慧技術仍然強大且不斷改進。 研究人員正在努力減少幻覺,並已取得重大進展。 您可以透過提供結構化模板、約束輸出並驗證用例的模型來限制幻覺。

以開放的心態探索人工智慧工具。 它們提供了令人印象深刻的功能,可以提高人類的創造力和生產力。 但是,請根據人工智慧產生的結果進行判斷,並與可靠來源交叉引用資訊。 擁抱人工智慧的潛力,同時對幻覺保持警戒。