如何修正連續句?
已發表: 2018-11-08在你生命中的某個時刻,你可能遇到過一位老師,他抱怨英語寫作中的一個特殊錯誤:連貫句子。
串聯錯誤是一種常見的錯誤類型。在美國大學生中,連貫句在以英語為母語的學生中排名第十八的最常見錯誤中,在非英語母語者中排名第八的最常見錯誤中。
自動偵測和修復此類錯誤的能力顯然對編寫者很有用。但還有更廣泛的應用。例如,當你聽寫一條短信時,你需要在開始新的句子之前在句子末尾說“句號”,否則你的轉錄就會變成一個長串。人工智慧系統可以自動找出句子應該在哪裡開始和結束,可以自動插入正確的標點符號,從而釋放你的大腦,讓你專注於你想要傳達的訊息。
Grammarly 在連續句子方面的工作是我們上週在布魯塞爾 EMNLP 會議上第四屆嘈雜用戶生成文本研討會上發表的一篇新論文的主題。我們很自豪地說它贏得了研討會上的兩個最佳論文獎之一!請繼續閱讀,了解 Grammarly 如何應對修正連續句子的挑戰。
什麼是連貫句?
連續句的定義因人而異。有些人認為逗號拼接是一種連續句。對其他人來說,連續句子只是一個很長的句子。然而,僅靠長度並不能使句子成為真正的連續句。
從本質上講,連續句子只是兩個或多個完整的句子被不正確地壓縮在一起。下面是一個連續運轉的範例:
以下有兩個獨立的條款:盡情享受生活,不要認為任何事情都是理所當然的。傳統上,當您想要將兩個獨立子句連接在一起時,您需要以某種方式將它們連結在一起。一種選擇是使用逗號和連接詞:
另一個選擇是使用分號:
第三個選擇是將這些子句分成單獨的句子:
連續句的問題在於它們很難理解。連接詞、分號和句號充當句子中的路標,幫助讀者理解作者所說的內容。當這些路標缺失時,讀者可能需要回溯並重讀才能理解句子的意思。
為什麼很難自動修正連續出現的問題
Grammarly 已經修正了標點符號錯誤和語法錯誤。那麼教人工智慧系統修復連續句子有什麼不同呢?為什麼這麼難?
許多標點符號或語法錯誤僅影響句子的一個孤立部分。這意味著您的人工智慧系統只需要處理句子的特定部分即可識別並解決問題。然而,連讀是一個句子級的問題。它要求你的人工智慧處理更長、更複雜的文字字串。
自動修復連串問題也很困難,因為有多種方法可以實現。如上例所示,您可以加入標點符號、連接詞,或將連接詞分成多個句子。你的人工智慧需要學習如何確定在特定情況下修復連續運行的最佳方法。
最重要的是,沒有太多現有數據可以用於訓練人工智慧系統用於此目的。儘管連續句子是常見的錯誤,但現有的語料庫沒有包含足夠的標籤的連續句子來用作訓練資料。 (語料庫是大量文本的集合,其標記方式可供電腦演算法學習。)
我們做了什麼
第一個任務是創建一系列連續句子。我們透過從新聞文章語料庫中刪除句子對之間的標點符號來人為地產生連續句子。 (有關我們的流程以及我們如何選擇候選句子的完整說明,請參閱我們的論文。)
然後,我們使用新建立的連接詞句子來訓練我們建立的兩個機器學習模型,以識別和修正連接詞。機器學習是人工智慧的一個領域,它涉及透過向演算法展示大量範例而不是提供一系列嚴格預定義的步驟來教導演算法自動執行任務。
修正連續句子:我們發現了什麼
模型訓練完成後,我們在一組新的人工創建的連續句子以及現有研究語料庫中自然出現的一小組連續句子上對其進行了測試。
我們發現,在這項任務中,它們在標點符號恢復和語法錯誤糾正方面都優於領先的模型。還有另一個令人興奮的發現:我們的模型經過人工生成的句子訓練,能夠識別真實作家寫的連續句子,就像識別人工連續句子一樣。
當然,這裡還有更多工作要做。我們的訓練資料是使用「乾淨」文字產生的,這意味著除了我們插入的錯誤之外,文字不包含任何語法錯誤。在現實世界中,連續句子可能包含額外的語法問題,使演算法更難識別和修復連續句子。儘管如此,這是朝著我們的願景邁出的令人興奮的一步,我們的願景是創建一個全面的通信助手,幫助您編寫能夠完全按照您的意圖理解的訊息。
如何修正連續句子,這並不像看起來那麼容易,這是由 Junchao Cheng、Courtney Napoles、Joel Tetreault 和 Kostiantyn Omelianchuk 撰寫的新論文。它在與 EMNLP 2018 同期舉辦的第四屆嘈雜用戶生成文本研討會上發表。
更多來自 Grammarly 的幕後故事系列:
- 用人工智慧檢測雜亂的寫作
- 利用人工智慧改變寫作風格