近日,由我国智能科学技术领域权威学会中国人工智能学会主办的“第叁届中国‘AI+’创新创业大赛”完美收官。在“自然语言处理技术创新大赛——中文文本纠错比赛”赛道中,力维智联Sentosa团队从众多公司和高校团队中脱颖而出,获得了大赛第叁名,前两名分别是苏州大学&阿里巴巴达摩院联合团队、清华大学团队。
在新闻出版行业,由于出版种类和数量的大幅增长、传播渠道的多样化、知识替代和更新的日益加速,以及中国语言文字的灵活性等原因,审校工作难度越来越大。而内容质量又是出版物的灵魂所在,如果完全由人工进行编校质量把关,势必影响工作效率。
此次文本校对任务主要是针对文本中出现的错误进行检测和纠正,属于综合性的自然语言处理研究子方向,能够比较全面地体现自然语言处理的技术水平。赛题主要选择互联网上中文母语写作者撰写的网络文本作为校对评测数据,从拼写错误、语法错误、语病错误等多个方面考察机器的认知智能能力。
针对比赛任务,力维智联依托Sentosa数据科学与机器学习平台(DSML),以预训练模型BERT和ELECTRA为基础,通过对拼写、语法、标点错误的任务分解与模型串联进行训练与预测。在这个过程中,Sentosa团队针对语法与标点错误,提出两种不同的数据增广方式,提升了数据质量,也提高了模型的泛化能力。
力维智联基于Sentosa平台,依据行业规范、标准和业务知识,开发出智能审校产物,辅助用户快速准确发现文稿中的字词错误、语法错误、标点错误等问题,帮助用户提升校对质量及审稿效率,确保内容安全生产。后续,力维智联将充分利用人工智能大数据技术,在文本纠错、知识提取、古文句读等方面持续发力,促进中文自然语言技术发展,助力出版行业数字化转型。