研究表明，即使是最好的人工智能模型也会出现许多幻觉

一句话总结

研究发现AI模型仍频繁产生幻觉，与厂商声称的改进相悖。

核心要点

Cornell等机构的研究者对多个AI模型进行了事实核查基准测试
即使是最佳模型也只能在35%的情况下生成无幻觉文本
模型在名人和金融相关问题上表现最差，地理和计算机科学问题表现最佳
模型规模大小与幻觉频率无明显关联
研究者建议加强人工参与验证和开发高级事实核查工具

新闻简报

近期由Cornell、华盛顿大学、滑铁卢大学和非营利研究机构AI2的研究人员进行的一项研究，对包括GPT-4o、Llama 3 70B、Mixtral 8x22B等在内的多个流行AI模型进行了事实核查基准测试。研究发现，尽管AI公司声称已有改进，但模型仍频繁产生”幻觉”（即生成不实信息）。测试结果显示，即使是表现最佳的模型，也仅能在约35%的情况下生成无幻觉文本。研究还发现，模型在回答与名人和金融相关的问题时表现最差，而在地理和计算机科学问题上表现最佳。有趣的是，模型的规模大小与幻觉频率并无明显关联。研究者Wenting Zhao指出，这个问题可能会长期存在，并建议通过人工参与事实核查、开发高级事实核查工具等方式来缓解这一问题。同时，她呼吁制定相关政策和法规，确保在生成式AI模型的使用过程中始终有人类专家参与验证和确认信息的准确性。

信息来源：techcrunch

{{userData.name}}已认证

一句话总结

核心要点

新闻简报