(伦敦综合电)研究发现,人工智能驱动的聊天机器人所提供的医疗建议,近半数情况具误导性;凸显了人工智能在日常生活的应用方面存在的医疗保健风险不容忽视。

彭博社星期三(4月15日)报道,美国、加拿大和英国的研究人员评估了五大人工智能(AI)热门平台——ChatGPT、Gemini、Meta AI、Grok和DeepSeek;每个平台必须针对五个保健类别的10道问题作答。

研究人员本周在英国跨领域医学期刊(BMJ Open)发表的研究报告显示,这些AI聊天机器人给出的答案,约有50%被认为“有问题”;其中近20%,问题“非常严重”。

研究发现,聊天机器人在不同类型问题上的表现差异明显。对封闭式提问及与疫苗和癌症相关的问题表现相对较好,在开放式问题以及干细胞研究和营养学等领域则表现较差。

研究人员指出,虽然聊天机器人通常能自信且肯定地给出答案,但尚未有任何聊天机器人能针对提示生成完整准确的参考列表。整个研究过程中,聊天机器人拒绝作答的情况只发生过两次,而两次拒绝答复的都是Meta AI。

延伸阅读

研究:AI陪伴虽能解孤独 长期或致焦虑抑郁
研究:AI陪伴虽能解孤独 长期或致焦虑抑郁
研究:AI聊天机器人协助策划暴力袭击
研究:AI聊天机器人协助策划暴力袭击

研究结果凸显了人们越来越依赖生成式AI平台所引发的隐忧,因为这些平台既不具备足以提供医疗建议的准证或授权,也缺乏诊断所需的临床判断力。

医学专家:未做好准备即部署聊天机器人 会导致错误信息被放大传播

AI聊天机器人爆炸式增长,如今已迅速成为人们为各种疾病和医疗保健寻求咨询的热门工具。OpenAI数据显示,每周有至少2亿人向ChatGPT咨询健康保健方面的问题。ChatGPT还在今年1月宣布推出一套保健工具,供普通用户与临床医生日常使用,Anthropic也在同个月宣布旗下的Claude工具推出新的医疗保健护理服务。

BMJ Open的执笔团队指出,在未做好公众教育并缺乏监督机制的情况下部署聊天机器人,一大风险是,错误信息会被放大并传播。

执笔团队写道,研究结果凸显了“有必要就面向民众的保健医疗相关咨询,重新审视与评估AI聊天机器人该如何妥善地部署”;因为这些AI系统,会持续生成“听似极具权威,实则充斥缺漏的回应”。