手机端扫码访问
微信公众号

动态

专业实践风采|杨程: 学以致用,实践出真知

2023-08-09

引言 /编者按


专业实践是电子信息(互联网+创新设计)专业学位研究生培养的重要环节。高质量的专业实践是培养高层次应用型人才的重要保证。

近期,我们将邀请Open FIESTA 专业实践表现优秀、成果突出的同学分享相关经验,以增进同学们对专业实践的了解。




杨程


2022年7月至2023年12月在深圳腾讯计算机系统有限公司AI Lab部门完成专业实践。

专业实践奖三等奖获得者。






学习专业课程,奠定稳固根基


杨程于2021年进入深圳国际研究生院电子信息(互联网+创新设计)专业学习,师从杨余久副教授。在学期间,他的研究方向是自然语言处理。初入实验室时,他也曾对科研感到迷茫,在导师和同学的帮助下,他逐渐融入课题组的学术讨论,培养起自己的科研思维和方法。在研一期间,他认真学习自然语言处理相关知识,选修了智能信息处理,机器学习等相关课程,并在课后积极参加算法比赛进行实践。他表示,研一阶段的理论知识学习和比赛实践为他后续开展专业实践奠定了扎实的基础。



参与校企实践,提升工程能力


研二期间,杨程进入腾讯科技(深圳)有限公司开展为期18周的专业实践,校外导师是腾讯的杨明明研究员。实践团队交给杨程的实践课题是交互式机器翻译场景下的词自动补全,该功能是腾讯交互式机器翻译软件TranSmart[1]的一个重要功能。


[1] https://transmart.qq.com/zh-CN/index


关于实践课题的意义,杨程提到,近些年来,机器翻译虽然能够带来性能的普适提升,并且用于各个落地应用中,但在一些专业文本的翻译(例如法律,医疗和金融等),自动生成的机器翻译结果依旧无法彻底代替人工翻译结果。于是,研究者们思考,机器翻译系统是否可以与人工翻译相结合,辅助人工翻译过程,提高人工翻译的有效性和效率(例如降低译员的打字数),因此计算机辅助翻译得到了越来越多的关注。本次实践旨在解决计算机辅助机器翻译中的词级别自动补全任务(Word-Level Auto-Completion)。具体来说,是翻译场景下的自动补全任务,相比于一般的自动补全任务,其任务特性主要体现在输入端包括三个部分:源语言端句子,译员已翻译的部分目标语言端句子 以及译员输入的字符前缀。


在整个实践过程中,杨程在导师的指导下,从方法调研、方法设计、方法实践和结果验收四个环节进行了系统实践。在方法调研过程中,杨程发现:主流的词自动补全模型属于分类模型,它们直接将候选词当作是标签,然后计算候选词和输入上下文之间的相似度,选择相似度更高的候选词作为最终要预测的词。但是,通过定量和定性分析后发现,这种方法只是在模型的最后一层分类层考虑到候选词和输入上下文的粗粒度交互信息,而忽略了候选词和输入上下文的细粒度信息(例如词对齐信息)。从而导致之前的方法在预测准确率上表现不佳。



在定位问题之后,通过探索性实验和理论推导,杨程同学与导师讨论,最终设计了一种基于能量的模型,以此来捕获候选词和输入上下文的细粒度交互信息。但是,训练和推理该模型可能会存在着效率和有效性的权衡问题。为了缓解这个问题,杨程提出了相应的采样技术,排序算法和预训练策略。最终,杨程同学参与设计和实现的基于能量的模型能够极大的提升交互式翻译场景下的词级别自动补全算法的性能。准确率上,在标准评测数据集上,该算法能够达到6%的准确率提升。速度方面,该模型优于自回归算法,略慢于传统分类模型。最终取得了有效性和效率的有效权衡,能够明显提升译员翻译时的效率,减少译员的字符输入。据悉,该算法将进一步进行优化改进,并用于腾讯自研翻译产品之中。



感悟与心得


杨程表示,“通过这次专业实践,我深刻地认识到学术界和工业界的区别。工业界更注重实际应用和商业化。在工业界,时间和资源的限制要求我们快速有效地开发和实施解决方案,并进行持续的优化和改进。同时,工业界的项目通常需要多个专业领域的人员协同合作,包括开发人员、产品经理等。有效的团队合作和沟通是将研究成果转化为实际产品的关键。纸上得来终觉浅,绝知此事要躬行,这次实践使我对交互式机器翻译有了更深入的理解,并为我今后的研究和工作提供了宝贵的经验”。


图|杨程专业实践获奖证书