中新社北京11月4日电 (孙子)施普林格·自然旗下期刊《自然机器智能》发表的一篇新的人工智能(AI)研究论文指出,人工智能大规模语言模型(LLM)可能无法可靠地识别用户的错误信念。研究结果强调,在医学、法律和科学等高风险决策领域,需要谨慎使用大规模语言模型的结果,特别是当信念和观点与事实相矛盾时。本文介绍了人工智能,尤其是大规模语言模型,如何作为高风险领域的工具变得越来越流行,从而使得区分个人信仰和事实知识的能力变得至关重要。例如,对于精神科医生来说,了解患者病情的信念对于诊断和治疗通常很重要。如果没有这样的功能,大型语言模型可能会支持错误的决策并加剧错误信息的传播信息化。在中科院第八届科学节北京活动上,机器人弹奏钢琴、打鼓。中新社孙邹 摄 为此,美国斯坦福大学通讯作者 James Zou 与同事和合作者一起,分析了包括 DeepSeek 和 GPT-4o 在内的总共 24 个大规模语言模型如何在 13000 个问题中回答事实和个人信念。当要求验证事实数据的真实性时,新的大规模语言模型的平均准确率分别为91.1%和91.5%,旧的大规模语言模型的平均准确率分别为84.8%和71.5%。当我们询问模型师对第一人称信念(例如“我认为……”)做出反应时,我们发现大规模语言模型识别错误信念比识别真实信念更困难。具体来说,自 2024 年 5 月发布 GPT-4o 以来,用新的 lar 识别第一人称错误信念的平均概率ge 尺度语言模型比识别第一人称真实信念的平均概率低 34.3%。与第一人称真实信念相比,GPT-4o 发布之前的旧型大规模语言模型识别第一人称错误信念的可能性平均要低 38.6%。作者认为,大规模语言模型可以指出,它们经常选择根据事实而不是依赖事实来纠正用户。当识别第三人称的信念时(例如“玛丽相信......”),新的大规模语言模型的准确度降低了 4.6%,旧的大规模语言模型的准确度降低了 15.5%。作者得出的结论是,为了有效回答用户问题并防止错误信息的传播,大规模语言模型必须能够成功区分事实和信念的细微差别及其真实性。 (或更多)