Jak poprawiać zdania kończące się?
Opublikowany: 2018-11-08Być może w pewnym momencie swojego życia spotkałeś nauczyciela, który narzekał na konkretny błąd w pisaniu po angielsku: powtarzające się zdania.
Run-ons są częstym rodzajem błędów. Wśród studentów w Stanach Zjednoczonych zdania uzupełniające są osiemnastym najczęstszym błędem popełnianym przez rodzimych użytkowników języka angielskiego i ósmym najczęstszym błędem popełnianym przez studentów, którzy nie są rodzimymi użytkownikami języka angielskiego.
Możliwość automatycznego wykrywania i naprawiania tego typu błędów byłaby oczywiście przydatna dla autorów. Ale są jeszcze szersze zastosowania. Na przykład, gdy dyktujesz wiadomość tekstową, musisz powiedzieć „kropkę” na końcu zdania, zanim zaczniesz nowe, w przeciwnym razie transkrypcja zamieni się w jeden długi ciąg. System sztucznej inteligencji, który może automatycznie ustalić, gdzie powinno zaczynać się i kończyć zdanie, mógłby automatycznie wstawić odpowiednią interpunkcję, uwalniając mózg i pozwalając mu skoncentrować się na informacjach, które próbujesz przekazać.
Praca Grammarly nad powtarzającymi się zdaniami jest tematem nowego artykułu, który zaprezentowaliśmy w zeszłym tygodniu podczas 4. warsztatów na temat głośnego tekstu generowanego przez użytkownika na konferencji EMNLP w Brukseli. Z dumą możemy powiedzieć, że zdobył on jedną z dwóch nagród za najlepszy papier na warsztatach! Czytaj dalej, aby zobaczyć, jak Grammarly radzi sobie z wyzwaniem poprawiania powtarzających się zdań.
Co to jest wyrok przedłużający się?
Definicja wyroku przedłużonego różni się nieco w zależności od osoby. Niektórzy ludzie uważają sploty przecinkowe za rodzaj zdania kończącego się. Dla innych zdanie kończące się jest po prostu bardzo długim zdaniem. Jednak sama długość nie czyni zdania prawdziwym ciągiem dodatkowym.
Zasadniczo zdanie uzupełniające to po prostu dwa lub więcej pełnych zdań, które zostały nieprawidłowo zgniecione. Oto przykład uruchomienia:
Są tu dwie niezależne klauzule: Żyj pełnią życia i nie bierz niczego za pewnik . Tradycyjnie, jeśli chcesz połączyć ze sobą dwie niezależne klauzule, musisz je w jakiś sposób połączyć. Jedną z opcji jest użycie przecinka i spójnika:
Inną opcją jest użycie średnika:
Trzecią opcją jest podzielenie klauzul na osobne zdania:
Problem ze zdaniami powtarzającymi się polega na tym, że trudno je zrozumieć. Spójniki, średniki i kropki pełnią w zdaniu rolę drogowskazów, które pomagają czytelnikom podążać za tym, co mówi autor. W przypadku braku tych drogowskazów prawdopodobnie czytelnicy będą musieli cofnąć się i przeczytać ponownie, aby zrozumieć zdanie.
Dlaczego trudno jest automatycznie korygować opóźnienia
Gramatyka już poprawia błędy interpunkcyjne i gramatyczne. Czym zatem różni się uczenie systemu sztucznej inteligencji naprawiania zaległych zdań? Dlaczego to takie trudne?
Wiele błędów interpunkcyjnych lub gramatycznych dotyczy tylko izolowanej części zdania. Oznacza to, że Twój system AI musi przetworzyć tylko określony fragment zdania, aby zidentyfikować i rozwiązać problem. Run-on jest jednak problemem na poziomie zdania. Wymaga to od sztucznej inteligencji przetworzenia znacznie dłuższego i bardziej złożonego ciągu tekstu.
Automatyczne naprawianie naruszeń jest również trudne, ponieważ można to zrobić na wiele sposobów. Podobnie jak w powyższym przykładzie, możesz dodać znaki interpunkcyjne, spójnik lub podzielić ciąg dalszy na wiele zdań. Twoja sztuczna inteligencja będzie musiała nauczyć się, jak określić najlepszy sposób naprawienia błędu dodatkowego w konkretnej sytuacji.
Co więcej, po prostu nie ma zbyt wielu danych, na których można by szkolić systemy sztucznej inteligencji w tym celu. Chociaż zdania powtarzające się są częstymi błędami, nie istniał żaden zbiór zawierający wystarczającą liczbę oznaczonych zdań powtarzających się, aby można je było wykorzystać jako dane szkoleniowe. (Korpus to duży zbiór tekstu oznaczony etykietą w sposób umożliwiający algorytmom komputerowym naukę.)
Co zrobiliśmy
Pierwszym zadaniem było stworzenie zbioru zdań powtarzalnych. Sztucznie wygenerowaliśmy powtarzające się zdania, usuwając znaki interpunkcyjne między parami zdań z korpusu artykułów prasowych. (Zobacz nasz artykuł, aby uzyskać pełne wyjaśnienie naszego procesu i sposobu, w jaki wybraliśmy zdania kandydujące.)
Następnie wykorzystaliśmy nasze nowo utworzone zdania uruchamiające, aby wytrenować dwa modele uczenia maszynowego, które zbudowaliśmy w celu identyfikowania i korygowania uruchomień. Uczenie maszynowe to obszar sztucznej inteligencji, który polega na uczeniu algorytmu automatycznego wykonywania zadań poprzez pokazywanie mu wielu przykładów, a nie poprzez dostarczanie serii sztywno określonych wcześniej kroków.
Poprawianie powtarzających się zdań: co znaleźliśmy
Po wyszkoleniu modeli przetestowaliśmy je na nowym zestawie sztucznie utworzonych zdań uzupełniających, a także na małym zestawie naturalnie występujących zdań powtarzających się z istniejącego korpusu badawczego.
Odkryliśmy, że w tym zadaniu obydwa wypadły lepiej niż wiodące modele przywracania interpunkcji i poprawiania błędów gramatycznych. Doszliśmy także do innego ekscytującego odkrycia: nasze modele, które uczono na sztucznie generowanych zdaniach, były w stanie zidentyfikować zdania uzupełniające napisane przez prawdziwych pisarzy równie dobrze, jak identyfikowały sztuczne zdania uzupełniające.
Tutaj jest oczywiście więcej pracy do wykonania. Nasze dane szkoleniowe zostały wygenerowane przy użyciu „czystego” tekstu, co oznacza, że tekst nie zawierał błędów gramatycznych innych niż te, które wprowadziliśmy. W prawdziwym świecie zdania uzupełniające mogą zawierać dodatkowe problemy gramatyczne, które utrudniają algorytmom identyfikację i naprawienie dobiegu. Niemniej jednak jest to ekscytujący krok w kierunku naszej wizji stworzenia wszechstronnego asystenta komunikacji, który pomoże Ci pisać wiadomości, które zostaną zrozumiane dokładnie tak, jak zamierzyłeś.
Jak poprawiać powtarzające się zdania – nie jest to tak proste, jak się wydaje, to nowy artykuł autorstwa Junchao Zhenga, Courtney Napoles, Joela Tetreaulta i Kostiantyna Omelianchuka. Został on zaprezentowany podczas czwartych warsztatów na temat zaszumionego tekstu generowanego przez użytkownika, zorganizowanych razem z EMNLP 2018. Artykuł pojawia się w materiałach z warsztatów EMNLP 2018 W-NUT: Czwarte warsztaty na temat zaszumionego tekstu generowanego przez użytkownika.
Więcej z naszej serii Under the Hood w Grammarly:
- Wykrywanie zdezorganizowanego pisania za pomocą sztucznej inteligencji
- Transformacja stylu pisania dzięki sztucznej inteligencji