如何纠正连续句?
已发表: 2018-11-08在你生命中的某个时刻,你可能遇到过一位老师,他抱怨英语写作中的一个特殊错误:连贯句子。
串连错误是一种常见的错误类型。在美国大学生中,连贯句在以英语为母语的学生中排名第十八的最常见错误中,在非英语母语者中排名第八的最常见错误中。
自动检测和修复此类错误的能力显然对编写者很有用。但还有更广泛的应用。例如,当你听写一条短信时,你需要在开始新的句子之前在句子末尾说“句号”,否则你的转录就会变成一个长串。人工智能系统可以自动找出句子应该在哪里开始和结束,可以自动插入正确的标点符号,从而释放你的大脑,让你专注于你想要传达的信息。
Grammarly 在连续句子方面的工作是我们上周在布鲁塞尔 EMNLP 会议上第四届嘈杂用户生成文本研讨会上发表的一篇新论文的主题。我们很自豪地说它赢得了研讨会上的两个最佳论文奖之一!请继续阅读,了解 Grammarly 如何应对纠正连续句子的挑战。
什么是连贯句?
连续句的定义因人而异。有些人认为逗号拼接是一种连续句。对于其他人来说,连续句子只是一个很长的句子。然而,仅靠长度并不能使句子成为真正的连续句。
从本质上讲,连续句子只是两个或多个完整的句子被不正确地压缩在一起。下面是一个连续运行的例子:
这里有两个独立的条款:尽情享受生活,不要认为任何事情都是理所当然的。传统上,当您想要将两个独立子句连接在一起时,需要以某种方式将它们链接在一起。一种选择是使用逗号和连词:
另一种选择是使用分号:
第三种选择是将这些子句分成单独的句子:
连续句的问题在于它们很难理解。连词、分号和句号充当句子中的路标,帮助读者理解作者所说的内容。当这些路标缺失时,读者可能需要回溯并重读才能理解句子的含义。
为什么很难自动纠正连续出现的问题
Grammarly 已经纠正了标点符号错误和语法错误。那么教人工智能系统修复连续句子有什么不同呢?为什么这么难?
许多标点符号或语法错误仅影响句子的一个孤立部分。这意味着您的人工智能系统只需要处理句子的特定部分即可识别并解决问题。然而,连读是一个句子级的问题。它要求你的人工智能处理更长、更复杂的文本字符串。
自动修复连串问题也很困难,因为有多种方法可以实现。如上例所示,您可以添加标点符号、连词,或将连词分成多个句子。你的人工智能需要学习如何确定在特定情况下修复连续运行的最佳方法。
最重要的是,没有太多现有数据可以用于训练人工智能系统用于此目的。尽管连续句子是常见的错误,但现有的语料库没有包含足够的带标签的连续句子来用作训练数据。 (语料库是大量文本的集合,其标记方式可供计算机算法学习。)
我们做了什么
第一个任务是创建一系列连续句子。我们通过从新闻文章语料库中删除句子对之间的标点符号来人为地生成连续句子。 (有关我们的流程以及我们如何选择候选句子的完整说明,请参阅我们的论文。)
然后,我们使用新创建的连词句子来训练我们构建的两个机器学习模型,以识别和纠正连词。机器学习是人工智能的一个领域,它涉及通过向算法展示大量示例而不是提供一系列严格预定义的步骤来教导算法自动执行任务。
纠正连续句子:我们发现了什么
模型训练完成后,我们在一组新的人工创建的连续句子以及现有研究语料库中自然出现的一小组连续句子上对其进行了测试。
我们发现,在这项任务中,它们在标点符号恢复和语法错误纠正方面都优于领先的模型。还有另一个令人兴奋的发现:我们的模型经过人工生成的句子训练,能够识别真实作家写的连续句子,就像识别人工连续句子一样。
当然,这里还有更多工作要做。我们的训练数据是使用“干净”文本生成的,这意味着除了我们插入的错误之外,文本不包含任何语法错误。在现实世界中,连续句子可能包含额外的语法问题,使算法更难识别和修复连续句子。尽管如此,这是朝着我们的愿景迈出的令人兴奋的一步,我们的愿景是创建一个全面的通信助手,帮助您编写能够完全按照您的意图理解的消息。
如何纠正连续句子,这并不像看起来那么容易,这是由 Junchao Cheng、Courtney Napoles、Joel Tetreault 和 Kostiantyn Omelianchuk 撰写的新论文。它在与 EMNLP 2018 同期举办的第四届嘈杂用户生成文本研讨会上发表。该论文出现在 2018 年 EMNLP 研讨会 W-NUT:第四届嘈杂用户生成文本研讨会的会议记录中。
更多来自 Grammarly 的幕后故事系列:
- 用人工智能检测杂乱的写作
- 利用人工智能改变写作风格