你如何纠正连续句子?
已发表: 2018-11-08在你生命中的某个时刻,你可能遇到过一位老师,他对英语写作中的一个特定错误进行了抨击:连续句子。
Run-on 是一种常见的错误类型。 在美国的大学生中,连续句子是英语为母语的学生最常犯的第 18 位错误,也是非英语为母语的学生最常犯的第 8 位错误。
自动检测和修复此类错误的能力显然对作者很有用。 但还有更广泛的应用。 例如,当您口述一条短信时,您需要在句子末尾说“句号”,然后再开始新的一条,否则您的转录会变成一个冗长的重复。 一个可以自动找出句子应该在哪里开始和停止的人工智能系统可以自动插入正确的标点符号,让你的大脑专注于你试图传达的信息。
Grammarly 在连续句子方面的工作是我们上周在布鲁塞尔举行的 EMNLP 会议上在第四届关于嘈杂用户生成文本的研讨会上发表的一篇新论文的主题。 我们很自豪地说,它在研讨会上获得了两个最佳论文奖之一! 请继续阅读以了解 Grammarly 如何应对纠正连续句子的挑战。
什么是连贯句?
连续句的定义因人而异。 有些人认为逗号拼接是一种连续句子。 对其他人来说,连贯的句子只是一个很长的句子。 然而,单独的长度并不能使句子成为真正的延续。
从本质上讲,连续句子只是两个或多个完整的句子被不恰当地挤在一起。 这是一个运行的示例:
这里有两个独立的子句:过最充实的生活,不要把任何事情视为理所当然。 传统上,当您想将两个独立的子句连接在一起时,您需要以某种方式将它们连接在一起。 一种选择是使用逗号和连词:
另一种选择是使用分号:
第三种选择是将子句分成单独的句子:
连续句子的问题在于它们很难理解。 连词、分号和句号在句子中充当路标,帮助读者理解作者所说的内容。 当这些路标不存在时,读者可能需要回溯并重新阅读以理解句子。
为什么很难自动纠正运行错误
Grammarly 已经纠正了标点错误和语法错误。 那么,教人工智能系统修复连续句子有什么不同呢? 为什么这么难?
许多标点符号或语法错误仅影响句子的孤立部分。 这意味着您的 AI 系统只需要处理句子的特定部分即可识别和解决问题。 然而,一个连续的问题是一个句子级别的问题。 它需要你的 AI 处理更长、更复杂的文本字符串。
自动修复run-on也很困难,因为有多种方法可以做到这一点。 如上例所示,您可以添加标点符号、连词,或将连续句分成多个句子。 您的 AI 将需要学习如何确定在特定情况下修复运行问题的最佳方法。
最重要的是,没有很多现有数据可以为此目的训练人工智能系统。 尽管连续句子是常见的错误,但没有现有的语料库包含足够的标记连续句子来用作训练数据。 (语料库是大量文本,以计算机算法可以学习的方式标记。)
我们做了什么
首要任务是创建连续句子的集合。 我们通过从新闻文章语料库中删除句子对之间的标点符号来人为地生成连续句子。 (有关我们的过程以及我们如何选择候选句子的完整说明,请参阅我们的论文。)
然后,我们使用我们新创建的连续语句来训练我们构建的两个机器学习模型,以识别和纠正连续语句。 机器学习是人工智能的一个领域,它涉及通过向算法展示大量示例而不是通过提供一系列严格预定义的步骤来教算法自动执行任务。
纠正连续句子:我们发现了什么
训练模型后,我们会在一组新的人工创建的连续句子以及来自现有研究语料库的一小部分自然发生的连续句子上对其进行测试。
我们发现,在这项任务上,它们都优于标点符号恢复和语法错误纠正的领先模型。 还有另一个令人兴奋的发现:我们的模型在人工生成的句子上进行了训练,能够识别真实作者所写的连续句子,就像他们识别人工连续句子一样。
当然,这里还有更多工作要做。 我们的训练数据是使用“干净”的文本生成的,这意味着除了我们插入的文本之外,文本不包含任何语法错误。 在现实世界中,连续句子可能包含额外的语法问题,使算法更难识别和修复连续句子。 尽管如此,这是朝着我们创建一个全面的通信助手的愿景迈出的令人兴奋的一步,它可以帮助您编写完全按照您的意图理解的消息。
你如何纠正连续句子这并不像看起来那么容易,这是 Junchao Zheng、Courtney Napoles、Joel Tetreault 和 Kostiantyn Omelianchuk 的一篇新论文。 它在与 EMNLP 2018 共同举办的第四届嘈杂用户生成文本研讨会上发表。该论文出现在 2018 年 EMNLP 研讨会 W-NUT 论文集:第四届嘈杂用户生成文本研讨会。
更多来自我们在语法系列的引擎盖下:
- 用 AI 检测杂乱无章的写作
- 用人工智能改变写作风格