计算语言学家发现。机器翻译对句子很有效。但在文档层面却变得不稳定。由于机器学习和人工智能的不断突破。近年来使用神经网络将文本从一种语言翻译成另一种语言的技术得到了突飞猛进的提升。因此。机器接近人类的表现并不奇怪。实际上。计算语言学家有充分的证据来支持这一主张。苏黎世大学的Samuel Laubli和几位同事表示测试协议没有考虑到人们阅读整个文档的方式。经过评估。机器明显落后于人类。人工翻译问题在于如何评估机器翻译。目前这是通过两项措施来实现的:充分性和流利性。翻译的充分性由专业的人工翻译决定。他们阅读原文和翻译。以了解它如何表达来源的意义。流利性由单语读者判断。他们只看翻译并确定其在英语中的表达程度。计算语言学家同意这个系统提供有用的评级。但根据Laubli和co的说法。当前的协议只比较句子级别的翻译。而人类也在文档级别评估文本。因此。他们开发了一种新协议。用于在文档级别比较机器和人工翻译的性能。他们要求专业翻译人员评估机器和人类在100多篇用中文写成英文的新闻文章中的表现。审查员对每个翻译的句子级别的充分性和流畅性进行了评分。但关键的是整个文档的级别。结果有趣的阅读。首先。Laubli和co发现专业翻译人员对机器翻译和人工翻译句子的充分性评价没有显着差异。通过这种方法。人和机器都是同样出色的翻译者。这与之前的研究结果一致。然而。在评估整个文档时。人工翻译被评为比机器翻译更充分和更流畅。他们说:“人们评估充分性和流畅性时。评估文件时。人们对机器翻译的偏好比孤立句子要强。”研究人员认为他们知道原因。他们说:“我们假设文档级别的评估揭示了错误。例如模糊词的误译。或者与文本凝聚力和连贯性相关的错误。这些错误在句子级评估中仍然很难或不可能发现。”例如。该团队给出了一个名为“微信挪车”的新应用程序的例子。人们不断将其翻译为“微信移动汽车”。但是在同一篇文章中。哪些机器通常以几种不同的方式翻译。机器将这句话翻译为“推特移动汽车”。“微信移动”和“微信移动”。这种不一致。如劳布利和合作。使文件更难以遵循。这表明机器翻译的评估方式需要从机器单独考虑每个句子的系统发展而来。“随着机器翻译质量的提高。翻译将难以在质量方面进行区分。并且可能是时候转向文档级评估。这为评估者提供了更多了解原始文本及其翻译的背景。并且还暴露了翻译错误与话语现象有关。在句子层次的评价中仍然是看不见的。“Laubli和他说。这一改变应有助于机器翻译的改进。
深圳翻译公司-深圳译雅馨无限