人工智能幻觉:它们是什么以及为什么会发生

已发表: 2024-06-27

什么是人工智能幻觉?

当人工智能工具在表现出自信的同时生成错误信息时,就会出现人工智能幻觉。 这些错误可能包括轻微的不准确(例如错误陈述历史日期)到严重误导性的信息(例如推荐过时或有害的健康疗法)。 AI 幻觉可能发生在由大型语言模型 (LLM) 和其他 AI 技术(包括图像生成系统)支持的系统中。

例如,AI 工具可能会错误地指出埃菲尔铁塔高 335 米,而不是实际高度 330 米。 虽然这样的错误在随意交谈中可能无关紧要,但在高风险情况下(例如提供医疗建议),准确的测量至关重要。

为了减少人工智能中的幻觉,开发人员使用两种主要技术:使用对抗性示例进行训练,以增强模型,并使用惩罚错误的指标对其进行微调。 了解这些方法可以帮助用户更有效地利用人工智能工具并批判性地评估它们产生的信息。

使用 Grammarly 更智能地工作
任何有工作要做的人的人工智能写作伙伴

AI 幻觉的例子

早期的人工智能模型比当前的系统更频繁地出现幻觉。 值得注意的事件包括微软的人工智能机器人悉尼告诉科技记者凯文·罗斯,它“爱上了他”,以及谷歌的双子座人工智能图像生成器生成了历史上不准确的图像。

然而,今天的人工智能工具已经改进,尽管幻觉仍然会发生。 以下是一些常见的人工智能幻觉类型:

  • 历史事实:人工智能工具可能会声称首次登月发生在 1968 年,但实际上发生在 1969 年。这种不准确可能会导致对人类历史上重大事件的误传。
  • 地理错误:人工智能可能会错误地将多伦多称为加拿大的首都,尽管实际首都是渥太华。这种错误信息可能会让想要了解加拿大地理的学生和旅行者感到困惑。
  • 财务数据:人工智能模型可能会产生财务指标的幻觉,例如声称一家公司的股价一天内上涨了 30%,而事实上,变化要低得多。仅仅依赖错误的财务建议可能会导致错误的投资决策。
  • 法律指导:人工智能模型可能会误导用户,认为口头协议在所有情况下都与书面合同一样具有法律约束力。这忽视了这样一个事实,即某些交易(例如房地产交易)需要书面合同来确保有效性和可执行性。
  • 科学研究错误信息:人工智能工具可能会引用一项据称证实科学突破的研究,但实际上并不存在此类研究。这种幻觉可能会误导研究人员和公众对重大科学成就的认识。

AI为何会产生幻觉?

要理解人工智能中为什么会出现幻觉,重要的是要了解法学硕士的基本运作原理。 这些模型建立在所谓的转换器架构之上,该架构处理文本(或标记)并预测序列中的下一个标记。 与人类大脑不同,它们没有本质上理解历史、物理或其他学科的“世界模型”。

当模型生成不准确但在统计上与实际正确数据相似的响应时,就会出现人工智能幻觉。 这意味着虽然响应是错误的,但它与模型预测的可能内容具有语义或结构相似性。

人工智能幻觉的其他原因包括:

训练数据不完整

人工智能模型在很大程度上依赖于训练数据的广度和质量。 当训练数据不完整或缺乏多样性时,它会限制模型生成准确且全面的响应的能力。 这些模型通过示例进行学习,如果它们的示例没有涵盖足够广泛的场景、观点和反事实,它们的输出可以反映这些差距。

这种限制通常表现为幻觉,因为人工智能模型可能会用看似合理但不正确的细节来填充缺失的信息。 例如,如果人工智能主要接触来自某个地理区域(例如公共交通发达的地方)的数据,它可能会生成假设这些特征是全球性的响应,但事实并非如此。 人工智能不知道自己正在冒险超出其训练范围。 因此,该模型可能会做出毫无根据或有偏见的自信断言。

训练数据中的偏差

训练数据中的偏差与完整性有关,但并不相同。 不完整的数据是指提供给人工智能的信息存在差距,而有偏差的数据则意味着可用的信息在某种程度上存在偏差。 这在某种程度上是不可避免的,因为这些模型主要是在互联网上训练的,而互联网具有固有的偏见。 例如,许多国家和人口的上网人数不足——全球仍有近 30 亿人无法访问互联网。 这意味着培训数据可能无法充分反映这些线下社区的观点、语言和文化规范。

即使在网络人群中,谁创建和共享内容、讨论哪些主题以及如何呈现信息也存在差异。 这些数据偏差可能会导致人工智能模型学习并在其输出中永久存在偏差。 一定程度的偏差是不可避免的,但数据偏差的程度和影响可能会有很大差异。 因此,人工智能开发人员的目标是意识到这些偏差,尽可能减轻它们,并评估数据集是否适合预期的用例。

缺乏明确的知识表示

人工智能模型通过统计模式匹配进行学习,但缺乏事实和概念的结构化表示。 即使他们生成事实陈述,他们也不“知道”这些陈述是真实的,因为他们没有机制来跟踪什么是真实的,什么是不是。

缺乏明确的事实框架意味着,虽然法学硕士可以产生高度可靠的信息,但他们擅长模仿人类语言,而无需真正理解或验证人类所拥有的事实。 这一根本限制是人工智能和人类认知之间的一个关键区别。 随着人工智能的不断发展,解决这一挑战对于开发人员增强人工智能系统的可信度仍然至关重要。

缺乏对上下文的理解

语境在人类交流中至关重要,但人工智能模型却常常遇到困难。 当用自然语言提示时,他们的反应可能过于字面意思或脱节,因为他们缺乏人类从上下文中获得的更深入的理解——我们对世界的了解、生活经历、解读字里行间的能力以及对不言而喻的假设的把握。

在过去的一年里,人工智能模型在理解人类背景方面取得了进步,但它们仍然难以应对情感潜台词、讽刺、讽刺和文化参考等元素。 意义演变的俚语或口语短语可能会被最近未更新的人工智能模型误解。 在人工智能模型能够解释人类经验和情感的复杂网络之前,幻觉仍将是一个重大挑战。

人工智能聊天机器人多久会产生幻觉?

确定人工智能幻觉的确切频率具有挑战性。 根据人工智能工具使用的模型或环境,该比率差异很大。 人工智能初创公司 Vectara 的一项估计表明,根据 Vectara 在 GitHub 上的公共幻觉排行榜(该排行榜跟踪热门聊天机器人在总结文档时出现幻觉的频率),聊天机器人产生幻觉的概率在 3% 到 27% 之间。

科技公司在其聊天机器人中实施了免责声明,警告人们潜在的不准确之处以及需要进行额外验证。 开发人员正在积极努力完善模型,我们在去年已经看到了进展。 例如,OpenAI 指出,GPT-4 产生事实响应的可能性比其前身高 40%。

如何预防人工智能幻觉

虽然不可能完全消除人工智能幻觉,但有几种策略可以减少其发生和影响。 其中一些方法更适用于致力于改进人工智能模型的研究人员和开发人员,而另一些方法则适合使用人工智能工具的普通人。

提高训练数据的质量

在试图防止人工智能幻觉时,确保高质量和多样化的数据至关重要。 如果训练数据不完整、有偏差或缺乏足够的多样性,则模型在面对新颖或边缘情况时将难以生成准确的输出。 研究人员和开发人员应努力整理涵盖各种观点的全面且具有代表性的数据集。

限制结果的数量

在某些情况下,当模型产生大量响应时,人工智能幻觉就会发生。 例如,如果您向模型询问 20 个创意写作提示的示例,您可能会意识到结果质量在该组结束时下降。 为了缓解这种情况,您可以将结果集限制为较小的数量,并指示 AI 工具专注于最有希望和一致的响应,从而减少其响应牵强或不一致结果的机会。

测试和验证

开发人员和用户都必须测试和验证人工智能工具以确保可靠性。 开发人员必须根据已知事实、专家判断和评估启发法系统地评估模型的输出,以识别幻觉模式。 并非所有的幻觉都是一样的; 完整的捏造与由于缺少上下文线索而造成的误解不同。

在信任其输出之前,用户应验证该工具针对特定用途的性能。 人工智能工具擅长文本摘要、文本生成和编码等任务,但并非在所有方面都是完美的。 在测试期间提供所需和不需要的输出示例有助于人工智能了解您的偏好。 投入时间进行测试和验证可以显着降低应用程序中人工智能幻觉的风险。

提供结构化输出的模板

您可以提供数据模板,告诉 AI 模型您希望呈现信息的精确格式或结构。 通过准确指定结果应如何组织以及应包含哪些关键元素,您可以指导人工智能系统生成更有针对性和相关的响应。 例如,如果您使用 AI 工具评论亚马逊产品,只需复制产品页面中的所有文本,然后指示 AI 工具使用以下示例模板对产品进行分类:

提示:分析提供的亚马逊产品页面文本并填写下面的模板。提取相关细节,保持信息简洁准确,关注最重要的方面。如果缺少任何信息,请写“N/A”。 不要添加文本中未直接引用的任何信息。

  • 产品名称:[此处为人工智能推导的产品名称]
  • 产品类别:[此处为AI推导的产品类别]
  • 价格范围:[这里人工智能推算的价格][美元]
  • 主要特点:[此处简要描述]
  • 优点 [要点中的前 3 名]
  • 缺点 [要点中的前 3 名]
  • 总体评分:[按 1-5 等级排名]
  • 产品摘要:[最多 2-3 句话]

生成的输出不太可能涉及错误输出和不符合您提供的规范的信息。

负责任地使用人工智能工具

虽然上述策略可以帮助在系统层面防止人工智能幻觉,但个人用户可以学会更负责任地使用人工智能工具。 这些做法可能无法防止幻觉,但它们可以提高您从人工智能系统获取可靠和准确信息的机会。

  • 交叉引用结果并使来源多样化:不要仅仅依赖单一人工智能工具来获取关键信息。将输出与其他信誉良好的来源(例如知名新闻机构、学术出版物、值得信赖的人类专家和政府报告)进行交叉引用,以验证信息的准确性和完整性。
  • 运用你的判断:认识到人工智能工具,即使是最先进的工具,也有局限性并且容易出错。不要自动相信他们的输出。 以批判的眼光对待他们,并在根据人工智能生成的信息做出决策时运用自己的判断。
  • 使用人工智能作为起点:将人工智能工具生成的输出视为进一步研究和分析的起点,而不是作为明确的答案。使用人工智能探索想法、生成假设并识别相关信息,但始终通过人类专业知识和其他研究来验证和扩展其生成的见解。

结论

人工智能幻觉源于法学硕士系统当前的局限性,从轻微的不准确到完全的捏造。 这些问题的发生是由于训练数据不完整或有偏见、上下文理解有限以及缺乏明确的知识。

尽管充满挑战,但人工智能技术仍然强大且不断改进。 研究人员正在努力减少幻觉,并已取得重大进展。 您可以通过提供结构化模板、约束输出并验证用例的模型来限制幻觉。

以开放的心态探索人工智能工具。 它们提供了令人印象深刻的功能,可以提高人类的创造力和生产力。 但是,请根据人工智能生成的结果进行判断,并与可靠来源交叉引用信息。 拥抱人工智能的潜力,同时对幻觉保持警惕。