以不同书法字体书写的旧文档可以是宝贵的历史记录,但要阅读并转换为易读的现代文本,则相当费时费力。
一组南洋理工学院学生应新加坡中华总商会提出的挑战,开发人工智能方案ArchAIve,把商会远至20世纪初的会议记录数码化。学生希望通过善用人工智能技术,帮助本地机构有效率地记录并保存有历史价值的文档。
新加坡中华总商会去年与机构伙伴如南洋理工学院合作,通过概念验证挑战项目,旨在为业务上碰到的挑战,发展可行的人工智能解决方案。
开创ArchAIve的南洋理工学院学生元俊翰、卓正瑜,以及普拉卡是资讯科技专业文凭课程本届毕业生,去年协助商会试行AI平台。除了把旧文件数码化,平台也将方便机构整理活动照片档案。
AI工具节省八成时间 助力文化传承
新加坡中华总商会发言人陈美卉答复《联合早报》时说,现有的光学字符识别技术可能无法准确识别旧文档的文字,尤其当书法或手写字体不规范时。面部识别技术也因照片图像像素、人物在照片的位置等局限,未必可准确识别人物。商会在测试利用ArchAIve从照片中识别前会长蔡其生和黄山忠。
她指出,中文文档的记录必须确保信息易读、方便搜索和整理。相较于人工阅读旧会议记录,南洋理工学院学生开发的工具估计减少多达80%的时间,把一页的会议记录数码化只需约五分钟。工具也允许使用者检查生成文本并做修改。
她说:“ArchAIve这项好方案有很大的潜力,可加以发展并提升功能,方便人们从历史文档获取信息,实现保存和推广文化遗产的目标。”
商会将与ArchAIve团队探索其他可融入平台的功能,例如记录其他文物如奖章。
元俊翰(20岁)受访时说,曾参观商会的文物中心,看到一些保存至今的旧文件,大开眼界。他在开发AI模型的过程中,开始研究书法字体与汉字演变。他们利用在网上找到的石鼓文进行测试,评估工具的准确度。
他说:“利用AI支持文化遗产保留工作,这方面的科技方案仍少见。我们很高兴能发挥所学,设计方案来帮助机构把旧文档的内容数码化。这些旧记录不容易存放,靠人工去读取并整理内容,会很耗时。”
普拉卡(Prakhar,20岁)说,自己难得有机会参与文化遗产相关的工作,从中增进对中华文化的认识。他们以王羲之的《兰亭序》测试工具在读取行书文本的准确度,他在读了《兰亭序》译文后,觉得文字很好地刻画人生。
卓正瑜(23岁)认为,这个项目很有意义,自己从中接触不同书写体,也认识更多繁体字。
这组学生也咨询在阿里云工作的南洋理工学院校友,借助业界的一些资源。他们接下来打算为ArchAIve增添聊天机器人等功能,方便使用者查找资料。
元俊翰指出,有会馆对这个AI方案表达兴趣,目前还在洽谈协作。由于他与组员毕业后得服兵役或升学,他们在寻找合作伙伴接手工作,希望这个AI方案未来可发挥更大作用。
