Grammarly 的幕後花絮:用 AI 改變寫作風格
已發表: 2018-05-31當您需要給正在寫信的人留下好印象時,您需要考慮的不僅僅是您所說的內容。 你怎麼說它通常同樣重要。 選擇正確的正式程度可能是一項特別的挑戰——它高度依賴於上下文,而且您經常不得不猜測收件人將如何解釋您的語氣。
想像一下,你正在寫一封求職信。 如果你有一個工具可以檢測你的寫作何時過於隨意(或者,有時甚至更糟,過於正式),那將有多大的改變? 突然間,你關於如何說出你想說的話的決定變得不那麼模糊了。 您不僅僅依賴於猜測收件人將如何看待您的信息——您擁有的算法可以利用您個人沒有的大量數據。 更進一步,如果這個工具不僅可以告訴您什麼時候出現問題,而且實際上可以為您提供收件人更喜歡的替代措辭,該怎麼辦?
讓計算機自動將一篇文章從一種風格轉換為另一種風格的過程稱為風格轉換,這是我與同事 Sudha Rao 即將發表的一篇論文的主題。 在 Grammarly,這是我們特別感興趣的一個領域,因為我們知道以正確的方式進行交流是多麼重要。
如果您想知道 Grammarly 的研究工程師如何構建為您提供寫作建議的系統,請繼續閱讀。
形式的非正式背景
在深入了解我們的算法細節之前,讓我們看一個非正式與正式語言的例子。
非正式:必須看到故事的兩面
正式:你必須看到故事的兩面。
這些句子之間有幾個明顯的區別。 俚語(“Gotta”)的使用和第一句末尾沒有標點符號表示非正式。 這種句子有時間和地點——例如朋友之間的短信交流。
當我們研究人類如何以更正式的風格重寫非正式句子時,我們發現他們所做的最頻繁的更改涉及大小寫、標點符號和俗語。 我們還注意到,人類有時必須對句子進行更大幅度的重寫以改善形式:
非正式:你什麼時候來開會?
正式:請讓我知道您何時參加會議。
但是我們如何教計算機進行上述編輯呢? 有幾種方法可以解決這個問題。
我們使用的那個承認教計算機在寫作風格之間進行翻譯類似於教它翻譯語言。 這種方法稱為機器翻譯,計算機自動將一種語言(如法語)翻譯成另一種語言(德語)。 因此,在解決風格遷移問題時,從翻譯模型開始是有意義的——或者在我們的例子中,是多個模型。
什麼是翻譯模型?
人工智能最近的一項突破是使用深度學習或神經網絡技術來構建機器翻譯模型。
神經機器翻譯 (NMT) 模型可以學習句子潛在含義的表示。 這有助於模型學習複雜的句型,從而使翻譯流暢,其含義忠實於原句。
較舊的機器翻譯方法,例如基於規則或基於短語的模型 (PBMT),將句子分解成更小的單元,例如單詞或短語,並獨立翻譯它們。 這可能會導致翻譯出現語法錯誤或無意義的結果。 然而,這些模型更容易調整併且往往更保守——這可能是一個優勢。 例如,我們可以輕鬆地合併將俚語轉換為標準詞的規則。
我們研究了幾種不同的機器翻譯方法,看看哪種方法最適合風格轉換。
建立模型
NMT 和 PBMT 充滿挑戰,其中最重要的是找到一個好的數據集來訓練你的模型。 在這種情況下,我們估計我們需要一個包含數十萬個非正式和正式句子對的數據集。 理想情況下,你會用數百萬個句子對來訓練你的模型,但由於風格遷移是自然語言處理領域的一個相當新的領域,我們確實沒有可以使用的現有數據集。 所以,我們創造了一個。
我們從收集非正式句子開始。 我們的句子來源於在 Yahoo! 上公開發布的問題和回复。 答案。 我們自動從該集合中選擇了超過 10 萬個非正式句子,並讓一個團隊使用正式語言重寫每個句子,再次使用預定義的標準。 (查看我們的論文以了解有關此過程的詳細信息。)
一旦你有了數據集,你就可以開始訓練你的模型了。 訓練模型意味著給它很多“源”句子——在我們的例子中是非正式句子——以及很多“目標”句子——對我們來說,這些是正式的重寫。 然後,模型的算法會尋找模式來確定如何從源到目標。 它擁有的數據越多,它的學習效果就越好。
在我們的例子中,該模型有十萬個非正式的源句和它們的正式重寫來學習。 我們還嘗試了不同的方法來創建人工形式數據以增加我們的訓練數據集的大小,因為 NMT 和 PBMT 模型通常需要更多的數據才能表現良好。
但是您還需要一種方法來評估您的模型完成任務的情況。 句子的意思有變化嗎? 新句子語法正確嗎? 它實際上更正式嗎? 那裡有分類器——可以自動評估句子的語氣和寫作風格的程序——我們測試了一些在學術界最常用的分類器。 但是,它們都不是很準確。 因此,我們最終讓人類比較了我們測試的各種模型的輸出,並根據形式、準確性和流暢性對它們進行排名。
我們向我們的團隊展示了原始的非正式句子、幾個不同模型的輸出以及人工重寫。 我們沒有告訴他們是誰——或者是什麼——產生了每個句子。 然後,他們對重寫進行排名,允許平局。 理想情況下,最好的模型將與人工重寫相關,甚至比人工重寫更好。 該團隊總共對 500 個非正式句子的改寫進行了評分。
我們發現了什麼
總而言之,我們測試了數十種模型,但我們將專注於頂級模型:基於規則的、基於短語的 (PBMT)、基於神經網絡的 (NMT),以及結合各種方法的一對。
人工重寫的總體得分最高,但 PBMT 和 NMT 模型也不甘落後。 事實上,在某些情況下,人類更喜歡模型輸出而不是人類輸出。 這兩個模型進行了更廣泛的重寫,但它們往往會改變原句的含義。
另一方面,基於規則的模型進行了較小的更改。 這意味著他們更善於保留意義,但他們產生的句子不那麼正式。 所有模型處理較短的句子都比處理較長的句子更容易。
以下是帶有人工和模型重寫的非正式句子的示例。 在這種特殊情況下,它是最後一個模型(帶有 PBMT 翻譯的 NMT)在形式、含義和聽起來自然的措辭之間取得了最佳平衡。
非正式原文:我在學校也很少見到他,通常我在我兄弟的籃球比賽中見到他。
人工重寫:我在學校幾乎見不到他。 我經常看到他和我的兄弟們一起打籃球。
基於規則的模式:我在學校也很少見到他,通常我在我兄弟的籃球比賽中看到他。
PBMT 模型:我在學校也幾乎見不到他,但我兄弟的籃球比賽。
NMT 模型:我在學校很少見到他,要么在我哥哥的籃球賽上見到他。
NMT(根據額外的 PBMT 生成的數據進行訓練):我很少在學校看到他,通常我會在我兄弟的籃球比賽中看到他。
風格遷移是自然語言處理的一個令人興奮的新領域,具有廣泛應用的潛力。 我一開始就假設的那個工具——它可以幫助你弄清楚如何說出你需要說的話? 還有很多工作要做,但這個工具是可能的,它對於求職者、語言學習者以及任何需要通過寫作給某人留下好印象的人來說都是無價的。 我們希望通過公開我們的數據,我們和該領域的其他人將有辦法相互進行基準測試並推動這一研究領域的發展。
至於 Grammarly,這項工作是朝著我們的願景邁出的又一步,即創建一個全面的溝通助手,幫助您按照預期理解您的信息。
Joel Tetreault 是 Grammarly 的研究總監。 Sudha Rao 是馬里蘭大學的博士生,曾在 Grammarly 擔任研究實習生。 Joel 和 Sudha 將在 2018 年 6 月 1 日至 6 日在新奧爾良舉行的計算語言學協會北美分會第 16 屆年會上介紹這項研究。隨附的研究論文題為“尊敬的先生或女士” ,我可以介紹 GYAFC 數據集:形式風格遷移的語料庫、基準和指標”,將發表在 NAACL 論文集上。