翻译自动评价研究虽然已经取得了不少的成果,从整体上看尚不能实现脱离人工的高可靠性和可信度的评价,相比之下,仍处于低层面的、句子级的语言形式的比对,训练数据需要大量的人力成本,而且数据的重复利用率低。本章阐述翻译自动评价目前仍面临的主要挑战和部分应对方法,并提出了未来研究的展望。在评价广度上的挑战是语篇,在评价深度上的挑战是语义。下面首先介绍目前在语篇级和语义层面的探索工作,之后是对翻译评价未来研究的展望。