Under the Hood in Grammarly: Yapay Zeka ile Düzensiz Yazıyı Tespit Etme

Yayınlanan: 2018-07-10

Ne zaman bir cümleden daha uzun bir şey yazsanız, düşüncelerinizi nasıl organize edeceğinize ve sunacağınıza karar vermeniz gerekir. İyi yazının anlaşılması kolaydır çünkü her cümle kendinden öncekilerin üzerine inşa edilmiştir. Konu değiştiğinde, güçlü yazarlar, okuyuculara bundan sonra ne bekleyeceklerini anlatmak için geçiş cümleleri ve paragraf sonları kullanırlar.

Dilbilimciler, yazmanın bu yönüne söylem tutarlılığı diyorlar ve bu, Grammarly Araştırma ekibinin bu hafta Melbourne, Avustralya'daki SIGDIAL konferansında yer alacak yeni ve harika bir araştırmasının konusu.

Söylem Tutarlılığı Nedir ve Neden Önemsiyorsunuz?

Bir metnin yüksek düzeyde söylem tutarlılığına sahip olduğunu söylediğimizde, tüm cümlelerin mantıksal olarak birbirine bağlı olduğunu kastediyoruz. Yazar konuyu saptırmıyor. Farklı noktalar geçişlerle birbirine bağlanır. Metni baştan sona takip etmek kolaydır.

Bu tür bir organizasyon her zaman doğal olarak gelmez. Çok azımız fikirlerin mükemmel bir şekilde doğrusal dizilişinde düşünürüz. Başkalarının takip etmekte zorlanacağı bir şey yazdığınızı size otomatik olarak söyleyebilecek ve nihayetinde bunu nasıl düzelteceğinizi önerebilecek bir sistem, ne demek istediğinizi iletmek için son derece yardımcı olacaktır.

ne yapıldı

Bir bilgisayara metnin tutarlılık düzeyini doğru bir şekilde yargılamayı öğretmek zordur. Bugüne kadar, bir bilgisayarın söylem tutarlılığını ne kadar iyi değerlendirdiğini değerlendirmenin en yaygın yöntemi, bir cümle sıralama görevine dayanmaktadır. Bu yöntemle araştırmacılar, haber makalesi gibi mevcut, iyi düzenlenmiş bir metin parçasını alır ve tüm cümleleri rastgele yeniden düzenler. Varsayım, rastgele permütasyonun tutarsız olarak görülebileceği ve orijinal sıralamanın tutarlı olarak görülebileceğidir. Görev, tutarsız versiyon ile orijinal arasında ayrım yapabilen bir bilgisayar algoritması oluşturmaktır. Bu koşullar altında, bazı sistemler yüzde 90'a varan doğruluğa ulaşmıştır. Çok etkileyici.

Ancak bu yöntemle ilgili büyük bir potansiyel kusur var. Belki de çoktan fark etmişsindir. Rastgele yeniden sıralama cümleleri, düşük tutarlılıklı bir metin üretebilir, ancak bir insanın doğal olarak yazacağı herhangi bir şeye benzeyen metin üretmez.

Grammarly'de gerçek dünyadaki sorunları çözmeye odaklandık, bu nedenle bu alanda yaptığımız herhangi bir çalışmanın yapay senaryolarla değil gerçek yazıyla kıyaslanması gerektiğini biliyorduk. Şaşırtıcı bir şekilde, sıradan koşullar altında insanlar tarafından yazılan gerçek metinler üzerinde söylem değerlendirme yöntemlerini test eden çok az çalışma var. Bunu değiştirmenin zamanı geldi.

Gerçek Dünya Araştırmaları, Gerçek Dünya Yazarları

Çözmemiz gereken ilk problem, söylem tutarlılığı üzerinde çalışan diğer tüm araştırmacıların karşılaştığı problemin aynısıydı: gerçek dünya verilerinin eksikliği. Algoritmalarımızı test edebileceğimiz sıradan, doğal olarak yazılmış bir metin topluluğu yoktu.

Çeşitli kamu kaynaklarından metin toplayarak bir derlem oluşturduk: Yahoo Yanıtları, Yelp İncelemeleri ve kamuya açık devlet ve kurumsal e-postalar. Bu belirli kaynakları, insanların tipik bir günde yazdıkları şeyleri (forum gönderileri, incelemeler ve e-postalar) temsil ettikleri için seçtik.

Tüm bu metni bilgisayar algoritmalarının öğrenebileceği bir bütüne dönüştürmek için ayrıca her metnin tutarlılık düzeylerini derecelendirmemiz gerekiyordu. Bu işleme açıklama denir. Algoritmanız ne kadar iyi olursa olsun, özensiz açıklama, sonuçlarınızı büyük ölçüde çarpıtacaktır. Makalemizde, bazıları kitle kaynak kullanımını içerenler de dahil olmak üzere, test ettiğimiz birçok açıklama yaklaşımı hakkında ayrıntılar sunuyoruz. Sonunda, uzman yorumcuların her metin parçasının tutarlılık düzeyini üç noktalı bir ölçekte (düşük, orta veya yüksek tutarlılık) derecelendirmesine karar verdik. Her metin parçası üç yorumcu tarafından değerlendirildi.

Algoritmaları Test Etme

Tümceyi elde ettikten sonra, çeşitli bilgisayar sistemlerinin belirli bir metin parçasının tutarlılık düzeyini ne kadar doğru bir şekilde tanımlayabildiğini test etmenin zamanı gelmişti. Üç tür sistemi test ettik:

İlk kategoride varlık tabanlı modeller vardır. Bu sistemler, bir metinde aynı varlıkların nerede ve ne sıklıkla geçtiğini takip eder. Örneğin, sistem birkaç cümlede “ulaşım” kelimesini bulursa, bu cümlelerin mantıksal olarak birbiriyle ilişkili olduğunun bir işareti olarak kabul eder.

İkinci kategoride, sözcüksel bağdaşıklık grafiğine dayalı bir modeli test ettik. Bu, cümleleri bir grafikte düğümler olarak göstermenin ve benzer kelime çiftlerini içeren cümleleri bağlamanın bir yoludur. Örneğin, bu tür bir model, "araba" içeren bir cümle ile "kamyon" içeren bir cümleyi birbirine bağlar çünkü her iki cümle de muhtemelen araçlar veya ulaşımla ilgilidir.

Üçüncü kategoride sinir ağı veya derin öğrenme modelleri bulunur. Grammarly ekibi tarafından oluşturulan iki yepyeni model de dahil olmak üzere bunlardan birkaçını test ettik. Bunlar, her cümlenin anlamını yakalayan bir temsilini öğrenen AI tabanlı sistemlerdir ve bu cümle temsillerini birleştirerek bir belgenin genel anlamını öğrenebilirler. Varlık oluşumları veya benzer kelime çiftleriyle sınırlı olmayan kalıpları arayabilirler.

Cümle Sıralama Görevi

Her üç tür model için de bir cümle sıralama görevi oluşturmak için yeni derlemimizdeki yüksek tutarlılıklı metinleri kullandık. Diğer cümle sıralama veri kümelerinde iyi performans gösteren modellerin, yüzde 89'a varan doğrulukla veri kümemizde de iyi performans gösterdiğini bulduk. Varlık tabanlı modeller ve sözcüksel tutarlılık grafikleri iyi bir doğruluk gösterdi (genellikle yüzde 60 ila 70 doğruluk), ancak dört alanın üçünde diğer modellerden en az yüzde on daha iyi performans gösteren sinirsel modellerdi.

Gerçek Yazma Testi

Gerçekten bilmek istediğimiz şey, bu modellerden herhangi birinin gerçek, doğal olarak yazılmış metin üzerinde aynı düzeyde doğrulukta performans gösterip gösteremeyeceğiydi. Anlatıcıların etiketlerini sayısal değerlere (düşük=1, orta=2, yüksek=3) dönüştürdük ve her metin parçası için bir tutarlılık puanı elde etmek için sayıların ortalamasını birlikte aldık.

Her alanda, sinir ağı tabanlı sistemlerden en az biri diğerlerinden daha iyi performans gösterdi. Aslında, Grammarly'nin paragraf sonlarını hesaba katan modellerinden biri, aşağıdaki tabloda gösterildiği gibi, Yahoo Answers'daki metinlerde en iyi performansı gösteren kişiydi. Stanford'daki araştırmacılar tarafından geliştirilen Neural Clique modeli de güçlü bir performans sergiledi.

Ancak orijinal hipotezimiz doğruydu: Tüm modeller, gerçek dünyadaki görevde, cümle sırası görevinde olduğundan daha kötü performans gösterdi - bazıları çok daha kötüydü. Örneğin, yapay cümle yeniden sıralama senaryosundaki kurumsal e-postalar için sözcüksel grafik yöntemi yüzde 78 doğruydu, ancak bu daha gerçekçi değerlendirmede yalnızca yüzde 45'e ulaşmayı başardı.

Ne Bulduk

Söylem tutarlılığı üzerine önceki çalışmaların yanlış şeyi test ettiği ortaya çıktı. Cümle sırası görevi, söylem tutarlılığını ölçmek için kesinlikle iyi bir vekil değildir. Sonuçlarımız açık: Yapay senaryoda iyi performans gösteren sistemler, gerçek dünyadaki metinlerde çok daha kötü sonuçlar veriyor.

Bu bulgunun bir gerileme olmadığını belirtmek önemlidir. Aslında ondan uzak. Herhangi bir alanı büyütmenin bir parçası, nasıl değerlendirdiğinizi değerlendirmektir - gerçekten ölçtüğünüz şeye bir göz atmak için arada bir durmak. Bu çalışma sayesinde, söylem tutarlılığı üzerinde çalışan araştırmacılar artık iki önemli bilgiye sahip olmuşlardır. Birincisi, cümle sıralama görevinin artık doğruluğu ölçmek için kullandığımız yol olmaması gerektiği anlayışıdır. İkincisi, gelecekteki araştırmalarda kullanmak için halka açık, açıklamalı gerçek dünya metni ve yeni karşılaştırma ölçütleri (sinir modellerimiz) topluluğudur.

Dörtgözle beklemek

Bir metin parçasındaki söylem tutarlılığını güvenilir bir şekilde değerlendirebilen bir sistem için yapılacak daha çok iş ve birçok heyecan verici uygulama var. Bir gün, bunun gibi bir sistem size yalnızca genel mesajınızın ne kadar tutarlı olduğunu söylemekle kalmaz, aynı zamanda takip edilmesi zor olabilecek belirli pasajlara da işaret eder. Bir gün, söylemeye çalıştığınız şeyin alıcınız için net olması için bu pasajların anlaşılmasını kolaylaştırmanıza yardımcı olmayı umuyoruz.

Ne de olsa, Grammarly'nin kapsamlı bir iletişim asistanı olma yolu, yalnızca yazınızın dilbilgisi ve stil açısından doğru olduğundan emin olmakla kalmaz, aynı zamanda amaçlandığı gibi anlaşıldığınızdan emin olmakla ilgilidir.

—-

Joel Tetreault, Grammarly'de Araştırma Direktörüdür. Alice Lai, Urbana-Champaign'deki Illinois Üniversitesi'nde doktora öğrencisi ve Grammarly'de araştırma stajyeriydi. Bu araştırma, 12-14 Temmuz 2018 tarihlerinde Avustralya'nın Melbourne kentinde düzenlenecek SIGDIAL 2018 yıllık konferansında sunulacaktır. “Söylem Tutarlılığı in the Wild: A Dataset, Assessment and Methods” başlıklı araştırma makalesi Proceedings of the Söylem ve Diyalog Özel İlgi Grubu 19. Yıllık Toplantısı. Bu blog gönderisinde açıklanan veri kümesine Grammarly Söylem Tutarlılığı Derlemesi denir ve araştırma amacıyla buradan indirmek ücretsizdir.