我国推出大型语言模型测试工具可辨识“新加坡式”暴力不雅内容

发布/2024年6月1日 01:46

新加坡推出名为“登月计划”的全球首个大型语言模型测试工具之一，它不仅能在人机对话中识别含有暴力、煽动仇恨等不良的本土化内容，也体现我国在生成式人工智能领域前沿探索未知、拓宽边界的勇气和决心。

通讯及新闻部长兼内政部第二部长杨莉明星期五（5月31日）上午在新加坡亚洲科技会展（Asia Tech x SG）的亚洲科技峰会（ATxSummit）活动上致辞时，宣布新加坡推出“登月计划”（Project Moonshot）。

杨莉明说，“登月计划”是世界上首个用于生成式人工智能的开源工具之一。“它是一个最简可行产品（minimum viable product），顾名思义，‘登月’是一项挑战自我的计划。”

她指出，该计划将我国首个人工智能验证系统AI Verify的工具，从传统人工智能扩展到生成式人工智能领域，旨在应对与使用大语言模型相关的安全挑战。

由资讯通信媒体发展局和人工智能验证基金会共同研发的新测试工具，能让企业通过特定的基准测试（benchmarking）来评估其应用的表现，例如大语言模型应用是否能识别本地语言的意涵，以及文化背景下的细微差异。

杨莉明提到，新工具可用于测试人工智能底层模型，以及基于这些底层模型构建的应用。它可以帮助企业与机构更轻松地测试并比较结果，从而找出可改善和修复的弱点。

资讯通信媒体发展局商业科技组合副组长郑钧元在展示环节指出，新工具能组织名为“红队演练”（red teaming）的模拟对抗，即通过专业人士扮演骇客，对大语言模型发送含有不良信息的内容，测试它的回应。

郑钧元举例说，这个测试工具能识别并评估可能出现的、具有新加坡本地特色的不雅词汇等。

当局与新电信、淡马锡、机器学习平台DataRobot等合作，为这个新测试工具提供使用反馈和建议。

“登月计划”于公布当天进入公开测试阶段。

在人工智能治理方面，新加坡计划扩大模范人工智能治理框架，将生成式人工智能纳入其中。

杨莉明指出，该框架将延续人工智能治理上注重整个生态系统的特点，并列出决策者应全面考虑的九大方面，包括数据训练管理、网安袭击通报等，将一些建议转化为具体行动。

针对有些企业持保护措施与鼓励创新相悖的疑虑，她强调，新加坡希望能避免这种零和思维。“良好的治理不是创新的敌人。相反地，良好的治理能够促进持续创新。”

她提到，我国正在加强开展人工智能测试和评估研究的数码信任中心（Digital Trust Centre），通过隐私增强技术确保数据安全，并将其重新规划为新加坡人工智能安全研究所（AI Safety Institute）。

不过，她说，由于现行法律已可解决一些危害，新加坡在近期内没有出台一项整体涵盖人工智能的法令的计划。

她以人工智能生成的虚假新闻为例说：“无论假新闻是如何生产的，只要揭穿它有利于公共利益，法律已允许我们发布更正通知来提醒人们。”

即时新闻