Grammarly 的幕后花絮:用 AI 检测杂乱无章的写作

已发表: 2018-07-10

每当你写出比句子更长的东西时,你需要决定如何组织和表达你的想法。 好的写作很容易理解,因为每个句子都建立在它之前的句子之上。 当主题发生变化时,强大的作家会使用过渡句和段落分隔符作为路标,告诉读者接下来会发生什么。

语言学家称这方面的写作语篇连贯性,这是本周将在澳大利亚墨尔本举行的 SIGDIAL 会议上出现的 Grammarly 研究团队的一些很酷的新研究的主题。

什么是话语连贯性,为什么要关心它?

当我们说一个文本具有高度的语篇连贯性时,我们的意思是所有的句子都在逻辑上联系在一起。 作者没有偏离主题。 不同的点通过转换连接。 文本从头到尾都很容易理解。

这种类型的组织并不总是自然而然的。 我们中很少有人以完美线性的想法进行思考。 一个系统可以自动告诉你什么时候你写了一些其他人难以理解的东西——并最终建议如何解决这个问题——将极大地帮助你传达你的意思。

做了什么

教计算机准确判断文本的连贯程度是一项挑战。 迄今为止,评估计算机语篇连贯性的最常用方法是基于句子排序任务。 使用这种方法,研究人员获取现有的、经过良好编辑的文本,例如新闻文章,并随机重新排列所有句子。 假设是随机排列可以被视为不连贯的,而原始排序可以被视为连贯的。 任务是建立一种计算机算法,可以区分不连贯的版本和原始版本。 在这些条件下,一些系统的准确率已高达 90%。 相当令人印象深刻。

但是这种方法有一个很大的潜在缺陷。 也许你已经发现了。 随机重新排序句子可能会产生低连贯性的文本,但它不会产生看起来像人类自然会写的任何文本。

在 Grammarly,我们专注于解决现实世界的问题,因此我们知道我们在该领域所做的任何工作都需要以真实写作为基准,而不是人工场景。 令人惊讶的是,很少有工作在普通情况下测试人们所写的真实文本的话语评估方法。 是时候改变这一点了。

现实世界的研究,现实世界的作家

我们必须解决的第一个问题是所有其他从事话语连贯性研究的研究人员都面临的问题:缺乏真实世界的数据。 没有现有的普通、自然书写的文本语料库可以用来测试我们的算法。

我们通过从多个公共来源收集文本创建了一个语料库:Yahoo Answers、Yelp 评论以及公开可用的政府和企业电子邮件。 我们选择这些特定的来源是因为它们代表了人们在典型的一天中所写的东西——论坛帖子、评论和电子邮件。

为了将所有这些文本变成计算机算法可以学习的语料库,我们还需要对每个文本的连贯程度进行评分。 这个过程称为注解。 无论您的算法有多好,草率的注释都会严重扭曲您的结果。 在我们的论文中,我们提供了我们测试的许多注释方法的详细信息,包括一些涉及众包的方法。 我们最终决定让专家注释者以三分制(低、中或高连贯性)对每段文本的连贯程度进行评分。 每段文字都由三位注释者评判。

测试算法

一旦我们有了语料库,就该测试各种计算机系统识别给定文本的连贯性水平的准确度了。 我们测试了三种类型的系统:

第一类是基于实体的模型。 这些系统跟踪同一实体在文本中被提及的位置和频率。 例如,如果系统在多个句子中找到“运输”一词,则将其视为这些句子在逻辑上相互关联的标志。

在第二类中,我们测试了一个基于词汇连贯图的模型。 这是一种将句子表示为图形中的节点并连接包含相似词对的句子的方法。 例如,这种类型的模型将连接一个包含“汽车”的句子和一个包含“卡车”的句子,因为这两个句子都可能是关于车辆或交通工具的。

第三类是神经网络或深度学习模型。 我们测试了其中的几个,包括由 Grammarly 团队构建的两个全新模型。 这些是基于 AI 的系统,可以学习捕获其含义的每个句子的表示,并且它们可以通过组合这些句子表示来学习文档的一般含义。 他们可以寻找不限于实体出现或相似词对的模式。

句子排序任务

我们使用新语料库中的高连贯性文本为所有三种类型的模型创建了一个句子排序任务。 我们发现在其他句子排序数据集上表现良好的模型在我们的数据集上也表现良好,准确率高达 89%。 基于实体的模型和词汇连贯图显示出不错的准确性(通常为 60% 到 70% 的准确率),但在四个领域中的三个领域中,神经模型至少比其他模型好 10 个百分点。

真正的写作测试

我们真正想知道的是,这些模型中的任何一个是否可以在真实的、自然书写的文本上以相同的准确度水平执行。 我们将注释者的标签转换为数值(低=1、中=2、高=3),并将这些数字平均在一起,以获得每段文本的连贯性分数。

在每个领域中,至少有一个基于神经网络的系统优于其他所有系统。 事实上,Grammarly 的其中一个将段落分隔符考虑在内的模型是 Yahoo Answers 文本中表现最好的模型,如下表所示。 由斯坦福大学的研究人员开发的神经团模型也表现出色。

但我们最初的假设是正确的:所有模型在现实世界任务中的表现都比在句子顺序任务上的表现更差——有些更差。 例如,在人工句子重新排序场景中,词汇图法对企业电子邮件的准确率为 78%,但在这个更现实的评估中,它只达到了 45%。

我们发现了什么

事实证明,之前关于语篇连贯性的工作一直在测试错误的东西。 句子顺序任务绝对不是衡量语篇连贯性的好方法。 我们的结果很清楚:在人工场景中表现良好的系统在现实世界的文本中表现更差。

重要的是要注意这一发现并不是一个挫折。 事实并非如此。 发展任何领域的一部分是评估你的评估方式——每隔一段时间停下来看看你真正在衡量什么。 由于这项工作,研究语篇连贯性的研究人员现在掌握了两条重要信息。 一个观点是,句子排序任务不再是我们衡量准确性的方式。 第二个是公开可用的、带注释的真实世界文本和新基准(我们的神经模型)的语料库,以用于未来的研究。

期待

对于一个能够可靠地判断一段文本中的话语连贯性的系统,还有更多的工作要做,还有很多令人兴奋的应用程序。 有一天,这样的系统不仅可以告诉您整体信息的连贯性,还可以指出可能难以理解的特定段落。 有朝一日,我们希望帮助您使这些段落更容易理解,以便您的收件人清楚地了解您要说的内容。

毕竟,Grammarly 成为一名综合沟通助手的途径不仅仅是确保你的写作在语法和文体上准确——而是确保你的理解符合预期。

——

Joel Tetreault 是 Grammarly 的研究总监。 Alice Lai 是伊利诺伊大学厄巴纳-香槟分校的博士生,曾在 Grammarly 担任研究实习生。 这项研究将于 2018 年 7 月 12 日至 14 日在澳大利亚墨尔本举行的 SIGDIAL 2018 年会上发表。随附的研究论文题为“Wild Discourse Coherence: A Dataset, Evaluation and Methods”将发表在 Proceedings of话语与对话特别兴趣小组第 19 届年会。 本博文中描述的数据集称为语篇连贯性语法语料库,可在此处免费下载用于研究目的。