Jak poprawiasz powtarzające się zdania?

Opublikowany: 2018-11-08

Być może w pewnym momencie swojego życia miałeś nauczyciela, który narzekał na konkretny błąd w pisaniu po angielsku: powtarzające się zdania.

Wybiegi są powszechnym rodzajem błędu. Wśród studentów w Stanach Zjednoczonych zdania ciągłe są osiemnastym najczęstszym błędem popełnianym przez rodzimych użytkowników języka angielskiego i ósmym najczęstszym błędem popełnianym przez studentów, którzy nie są rodzimymi użytkownikami języka angielskiego.

Nie rozumiesz kolejnych zdań?

Grammarly może pomóc.

Pisz z Grammarly

Możliwość automatycznego wykrywania i naprawiania tego typu błędów byłaby oczywiście przydatna dla pisarzy. Ale są jeszcze szersze zastosowania. Na przykład, gdy dyktujesz wiadomość tekstową, musisz powiedzieć „kropka” na końcu zdania, zanim zaczniesz nowe, w przeciwnym razie transkrypcja zamieni się w jedną długą kontynuację. System sztucznej inteligencji, który może automatycznie określić, gdzie zdanie powinno się zaczynać i kończyć, może automatycznie wstawić odpowiednią interpunkcję, uwalniając mózg do skoncentrowania się na informacjach, które próbujesz przekazać.

Praca Grammarly nad kolejnymi zdaniami jest tematem nowego artykułu, który przedstawiliśmy na 4. warsztatach na temat hałaśliwego tekstu generowanego przez użytkowników w zeszłym tygodniu na konferencji EMNLP w Brukseli. Z dumą możemy powiedzieć, że zdobył jedną z dwóch nagród dla najlepszego papieru na warsztatach! Czytaj dalej, aby zobaczyć, jak Grammarly radzi sobie z wyzwaniem poprawiania powtarzających się zdań.

Co to jest zdanie przedłużające?

Definicja zdania przedłużającego różni się nieco w zależności od osoby. Niektórzy uważają sploty przecinkowe za rodzaj zdania biegnącego. Dla innych zdanie dobiegające to po prostu bardzo długie zdanie. Sama długość nie czyni jednak zdania prawdziwym kontynuacją.

Zasadniczo zdanie dobiegające to tylko dwa lub więcej pełnych zdań, które zostały niewłaściwie zgniecione ze sobą. Oto przykład run-on:

Żyj pełnią życia, nie bierz niczego za pewnik.

Istnieją tutaj dwie niezależne klauzule: Żyj pełnią życia i nie bierz niczego za pewnik . Tradycyjnie, gdy chcesz połączyć ze sobą dwie niezależne klauzule, musisz je w jakiś sposób połączyć. Jedną z możliwości jest użycie przecinka i spójnika:

Żyj pełnią życia i nie bierz niczego za pewnik.

Inną opcją jest użycie średnika:

Żyj pełnią życia; nie bierz niczego za pewnik.

Trzecią opcją jest podzielenie klauzul na osobne zdania:

Żyj pełnią życia. Nie bierz niczego za pewnik.

Problem z powtarzającymi się zdaniami polega na tym, że trudno je zrozumieć. Spójniki, średniki i kropki działają jak drogowskazy w zdaniu, aby pomóc czytelnikom śledzić to, co mówi pisarz. Gdy tych drogowskazów nie ma, prawdopodobnie czytelnicy będą musieli cofnąć się i ponownie przeczytać, aby zrozumieć sens zdania.

Dlaczego trudno jest automatycznie skorygować run-ons

Grammarly poprawia już błędy interpunkcyjne i błędy gramatyczne. Czym więc różni się nauczanie systemu sztucznej inteligencji do naprawiania zdań ciągłych? Dlaczego jest tak trudno?

Wiele błędów interpunkcyjnych lub błędów gramatycznych dotyczy tylko wydzielonej części zdania. Oznacza to, że twój system AI musi przetworzyć tylko określony fragment zdania, aby zidentyfikować i naprawić problem. Jednak kontynuacja jest problemem na poziomie zdania. Wymaga od sztucznej inteligencji przetwarzania znacznie dłuższego i bardziej złożonego ciągu tekstowego.

Automatyczne naprawianie wybiegów jest również trudne, ponieważ można to zrobić na wiele sposobów. Tak jak w powyższym przykładzie, możesz dodać interpunkcję, spójnik lub podzielić na kilka zdań. Twoja sztuczna inteligencja będzie musiała nauczyć się, jak określić najlepszy sposób na naprawienie najazdu w konkretnej sytuacji.

Co więcej, po prostu nie ma zbyt wielu istniejących danych, na których można by szkolić systemy sztucznej inteligencji w tym celu. Chociaż powtarzane zdania są częstymi błędami, nie istniał korpus, który zawierałby wystarczającą liczbę oznaczonych powtarzanych zdań, które można by wykorzystać jako dane szkoleniowe. (Corpus to duży zbiór tekstu, który został oznaczony w sposób, z którego algorytmy komputerowe mogą się uczyć).

Co zrobiliśmy

Pierwszym zadaniem było stworzenie zbioru zdań ciągłych. Sztucznie wygenerowaliśmy kolejne zdania, usuwając znaki interpunkcyjne między parami zdań z korpusu artykułów prasowych. (Zajrzyj do naszego artykułu, aby uzyskać pełne wyjaśnienie naszego procesu i sposobu, w jaki wybraliśmy zdania kandydujące.)

Następnie wykorzystaliśmy nasze nowo utworzone zdania run-on do trenowania dwóch modeli uczenia maszynowego, które zbudowaliśmy w celu identyfikowania i poprawiania run-onów. Uczenie maszynowe to obszar sztucznej inteligencji, który polega na uczeniu algorytmu automatycznego wykonywania zadań poprzez pokazywanie mu wielu przykładów, a nie poprzez dostarczanie serii sztywno predefiniowanych kroków.

Poprawianie powtarzających się zdań: co znaleźliśmy

Po wytrenowaniu modeli przetestowaliśmy je na nowym zestawie sztucznie stworzonych zdań powtarzanych, a także na małym zestawie naturalnie występujących zdań powtarzanych z istniejącego korpusu badawczego.

Odkryliśmy, że oba z nich przewyższały wiodące modele przywracania interpunkcji i korekcji błędów gramatycznych w tym zadaniu. Było też inne ekscytujące odkrycie: nasze modele, które były wytrenowane na sztucznie generowanych zdaniach, były w stanie identyfikować powtarzające się zdania napisane przez prawdziwych pisarzy, tak samo jak identyfikowały sztuczne powtarzane zdania.

Oczywiście jest tu jeszcze więcej pracy. Nasze dane treningowe zostały wygenerowane przy użyciu „czystego” tekstu, co oznacza, że tekst nie zawierał żadnych błędów gramatycznych innych niż te, które wstawiliśmy. W świecie rzeczywistym zdania run-on mogą zawierać dodatkowe problemy gramatyczne, które utrudniają algorytmom identyfikację i naprawę run-on. Niemniej jest to ekscytujący krok w kierunku naszej wizji stworzenia wszechstronnego asystenta komunikacji, który pomoże Ci pisać wiadomości, które będą rozumiane dokładnie tak, jak zamierzałeś.

Jak poprawić powtarzające się zdania, to nie jest tak łatwe, jak się wydaje, to nowy artykuł autorstwa Junchao Zhenga, Courtney Napoles, Joela Tetreaulta i Konstantyna Omelianczuka. Został on zaprezentowany podczas Fourth Workshop on Noisy User-generated Text kolokowanych z EMNLP 2018. Artykuł pojawia się w Proceedings of the 2018 EMNLP Workshop W-NUT: The Fourth Workshop on Noisy User-generated Text.

Więcej z naszej serii Under the Hood at Grammarly:

Wykrywanie dezorganizacji pisania za pomocą sztucznej inteligencji
Przekształcanie stylu pisania dzięki sztucznej inteligencji