内政科技局训练人工智能(AI)模型“凤凰”,能根据本地语境理解多种语言和专业术语,日后有望协助内政人员处理复杂敏感的信息,提升办事效率,腾出人手专注于重要事务。
市面上的大语言模型(LLM)多以互联网公开数据和全球视角为基础,或夹杂外国的律法、习俗和价值观。今年5月,内政科技局与法国初创公司Mistral AI和微软合作,推出使用现有大语言模型训练,适配本地语境的“凤凰”模型。
内政科技局的Q团队人工智能研发工程师汪嘉乐和首席工程师阿尔卡(Arka Ray)日前接受《联合早报》专访,畅谈过程。
两人透露,“凤凰”有重生与延续之意,不过这个命名主要源于内政部总部所在地,即新凤凰园(New Phoenix Park),表明它服务内政团队的定位。
汪嘉乐说,推出“凤凰”的初衷是想帮助内政人员高效完成日常琐事,专注更关键和高价值的工作。团队正开发一系列供内部使用和面向公众的AI产品,“凤凰”将作为AI系统中的“大脑”。“它的答复更贴合需求,内政人员不必花时间去纠正提问,可用在撰写简报、生成摘要、查询法规、分析等。”
阿尔卡说,市面上的模型虽然更先进,但“凤凰”的优势在于熟悉新加坡,尤其是新加坡人很爱使用首字母缩略词。
例如,一般模型在识别“HTX”(Home Team Science and Technology Agency,内政科技局)时可能误判为美国地名“Houston,Texas”(得克萨斯州的城市休斯敦);缩写“EPL”,更多指民防部队的“电动消防车”(Electric Pump Ladder),而非“英超联赛”(English Premier League)。
“凤凰”目前支持10种语言,包括英文、中文、马来文、淡米尔文本地四个语种,以及泰文和印度尼西亚文等其他语种。
阿尔卡说,内政团队执行任务时,会遇到来自不同语言背景的人士,对方可能更习惯使用母语。“凤凰”这时能派上用场,理解、翻译,甚至分析对方所表达的内容。
“凤凰”自去年8月构思,四个月后完成数据准备开展训练,今年5月推出初版原型(prototype)。汪嘉乐说,训练所用数据量有数百亿词元,如果用A4纸打印,每页1000字,纸堆高度可超越国际空间站轨道(约400公里)。
训练模型的其中一个重要步骤是清理数据,去除表述不清、标点混乱、没空格等内容。他们说,团队也设置安全护栏机制,对输入与输出内容进行过滤,贴合内政团队,确保符合事实且无害。
谈及挑战,汪嘉乐坦言,起初以为输入大量数据,“凤凰”就会学好,表现出色。不过,现实并非如此,过程中须反复实验、试错和修正,找出最优解。阿尔卡则说,AI领域几乎每周就有新进展,须边学边做,才能推出与时俱进的产品。
内政部系统储存大量敏感信息,数据安全重点考量之一。“凤凰”不具备联网搜索功能,不会将数据传输至外部云端。它仍在内部测试中,尚未全面开放给内政人员使用。
阿尔卡强调,“凤凰”只是辅助角色,最终执行仍由内政人员主导。
内政科技局助理局长(数码与企业组)兼首席人工智能官洪志伟说,“凤凰”是当局AI策略的重点项目之一,为发展适合内政团队需求的AI应用奠定基础。“这将提高准确度和增快响应速度,协助内政人员更好履职,打造更安全稳妥的新加坡。”
