Goście

Marcin Miłkowski, Polska Akademia Nauk >>

O powierzchniowym przetwarzaniu języka polskiego na przykładzie korektora LanguageTool

LanguageTool jest regułowym korektorem tekstu w języku naturalnym i obsługuje m.in. język polski (900 reguł deklaratywnych i kilkanaście reguł w postaci klas Javy). Na przykładzie tego programu pokażę, w jaki sposób przetwarza się teksty w języku polskim bez jakiejkolwiek założonej z góry gramatyki formalnej.

Zaprezentuję podstawowe operacje stosowane w inżynierii lingwistycznej do obróbki tekstu (podział na zdania, na wyrażenia elementarne, dodawanie adnotacji morfosyntaktycznych, dezambiguację regułową), a także zastosowany w korektorze LanguageTool mechanizm reguł deklaratywnych niezależny od gramatyki konkretnego języka. Mechanizm ten umożliwia uchwycenie bardzo wielu regularności językowych, m.in. większości typowych błędów językowych, zarówno umyślnych, jak i nieumyślnych, choć nie można w nim odwoływać się do żadnych klasycznych pojęć gramatycznych poza najprostszymi oznaczeniami morfologiczno-składniowymi.

LanguageTool, wraz z podobnym co do możliwości systemem Spejd pokazują, że przynajmniej do większości praktycznych zastosowań w lingwistyce komputerowej wystarcza poziom struktury powierzchniowej. Sukcesy w przetwarzaniu powierzchniowym wskazują, że tradycyjne podejście lingwistyki formalnej, w której wychodzi się od formalizacji gramatyki głębokiej, w praktyce okazuje się mniej efektywne od podejścia powierzchniowego, w którym stosuje się metody heurystyczne czy statystyczne. Widać to szczególnie w przetwarzaniu tekstów wadliwych, w których naruszane są niektóre reguły gramatyczne.

web stats 
stat24