你如何糾正連續句子?
已發表: 2018-11-08在你生命中的某個時刻,你可能遇到過一位老師,他對英語寫作中的一個特定錯誤進行了抨擊:連續句子。
Run-on 是一種常見的錯誤類型。 在美國的大學生中,連續句子是英語為母語的學生最常犯的第 18 位錯誤,也是非英語為母語的學生最常犯的第 8 位錯誤。
自動檢測和修復此類錯誤的能力顯然對作者很有用。 但還有更廣泛的應用。 例如,當您口述一條短信時,您需要在句子末尾說“句號”,然後再開始新的一條,否則您的轉錄會變成一個冗長的重複。 一個可以自動找出句子應該在哪裡開始和停止的人工智能係統可以自動插入正確的標點符號,讓你的大腦專注於你試圖傳達的信息。
Grammarly 在連續句子方面的工作是我們上週在布魯塞爾舉行的 EMNLP 會議上在第四屆關於嘈雜用戶生成文本的研討會上發表的一篇新論文的主題。 我們很自豪地說,它在研討會上獲得了兩個最佳論文獎之一! 請繼續閱讀以了解 Grammarly 如何應對糾正連續句子的挑戰。
什麼是連貫句?
連續句的定義因人而異。 有些人認為逗號拼接是一種連續句子。 對其他人來說,連貫的句子只是一個很長的句子。 然而,單獨的長度並不能使句子成為真正的延續。
從本質上講,連續句子只是兩個或多個完整的句子被不恰當地擠在一起。 這是一個運行的示例:
這裡有兩個獨立的子句:過最充實的生活,不要把任何事情視為理所當然。 傳統上,當您想將兩個獨立的子句連接在一起時,您需要以某種方式將它們連接在一起。 一種選擇是使用逗號和連詞:
另一種選擇是使用分號:
第三種選擇是將子句分成單獨的句子:
連續句子的問題在於它們很難理解。 連詞、分號和句號在句子中充當路標,幫助讀者理解作者所說的內容。 當這些路標不存在時,讀者可能需要回溯並重新閱讀以理解句子。
為什麼很難自動糾正運行錯誤
Grammarly 已經糾正了標點錯誤和語法錯誤。 那麼,教人工智能係統修復連續句子有什麼不同呢? 為什麼這麼難?
許多標點符號或語法錯誤僅影響句子的孤立部分。 這意味著您的 AI 系統只需要處理句子的特定部分即可識別和解決問題。 然而,一個連續的問題是一個句子級別的問題。 它需要你的 AI 處理更長、更複雜的文本字符串。
自動修復run-on也很困難,因為有多種方法可以做到這一點。 如上例所示,您可以添加標點符號、連詞,或將連續句分成多個句子。 您的 AI 將需要學習如何確定在特定情況下修復運行問題的最佳方法。
最重要的是,沒有很多現有數據可以為此目的訓練人工智能係統。 儘管連續句子是常見的錯誤,但沒有現有的語料庫包含足夠的標記連續句子來用作訓練數據。 (語料庫是大量文本,以計算機算法可以學習的方式標記。)
我們做了什麼
首要任務是創建連續句子的集合。 我們通過從新聞文章語料庫中刪除句子對之間的標點符號來人為地生成連續句子。 (有關我們的過程以及我們如何選擇候選句子的完整說明,請參閱我們的論文。)
然後,我們使用我們新創建的連續語句來訓練我們構建的兩個機器學習模型,以識別和糾正連續語句。 機器學習是人工智能的一個領域,它涉及通過向算法展示大量示例而不是通過提供一系列嚴格預定義的步驟來教算法自動執行任務。
糾正連續句子:我們發現了什麼
訓練模型後,我們會在一組新的人工創建的連續句子以及來自現有研究語料庫的一小部分自然發生的連續句子上對其進行測試。
我們發現,在這項任務上,它們都優於標點符號恢復和語法錯誤糾正的領先模型。 還有另一個令人興奮的發現:我們的模型在人工生成的句子上進行了訓練,能夠識別真實作者所寫的連續句子,就像他們識別人工連續句子一樣。
當然,這裡還有更多工作要做。 我們的訓練數據是使用“乾淨”的文本生成的,這意味著除了我們插入的文本之外,文本不包含任何語法錯誤。 在現實世界中,連續句子可能包含額外的語法問題,使算法更難識別和修復連續句子。 儘管如此,這是朝著我們創建一個全面的通信助手的願景邁出的令人興奮的一步,它可以幫助您編寫完全按照您的意圖理解的消息。
你如何糾正連續句子這並不像看起來那麼容易,這是 Junchao Zheng、Courtney Napoles、Joel Tetreault 和 Kostiantyn Omelianchuk 的一篇新論文。 它在與 EMNLP 2018 共同舉辦的第四屆嘈雜用戶生成文本研討會上發表。該論文出現在 2018 年 EMNLP 研討會 W-NUT 論文集:第四屆嘈雜用戶生成文本研討會。
更多來自我們在語法系列的引擎蓋下:
- 用 AI 檢測雜亂無章的寫作
- 用人工智能改變寫作風格