一句话总结
研究发现AI模型仍频繁产生幻觉,与厂商声称的改进相悖。
核心要点
- Cornell等机构的研究者对多个AI模型进行了事实核查基准测试
- 即使是最佳模型也只能在35%的情况下生成无幻觉文本
- 模型在名人和金融相关问题上表现最差,地理和计算机科学问题表现最佳
- 模型规模大小与幻觉频率无明显关联
- 研究者建议加强人工参与验证和开发高级事实核查工具
新闻简报
近期由Cornell、华盛顿大学、滑铁卢大学和非营利研究机构AI2的研究人员进行的一项研究,对包括GPT-4o、Llama 3 70B、Mixtral 8x22B等在内的多个流行AI模型进行了事实核查基准测试。研究发现,尽管AI公司声称已有改进,但模型仍频繁产生”幻觉”(即生成不实信息)。测试结果显示,即使是表现最佳的模型,也仅能在约35%的情况下生成无幻觉文本。研究还发现,模型在回答与名人和金融相关的问题时表现最差,而在地理和计算机科学问题上表现最佳。有趣的是,模型的规模大小与幻觉频率并无明显关联。研究者Wenting Zhao指出,这个问题可能会长期存在,并建议通过人工参与事实核查、开发高级事实核查工具等方式来缓解这一问题。同时,她呼吁制定相关政策和法规,确保在生成式AI模型的使用过程中始终有人类专家参与验证和确认信息的准确性。
信息来源:techcrunch