Przetwarzanie tekstów polskich w systemie tłumaczenia automatycznego POLENG
- Dostępność: dostępny
- ISBN: 83-232-1638-X
- Kategoria: OUTLET, Lingwistyka Komputerowa
- Data wydania: 2006
The book presents the process of handling a text written in the Polish language in order to achieve its representation useful for machine translation into another language. All definitions, methods, technologies described in the book are "applicational": they have been developed to be applied in a specific system, i.e. the POLENG Machine Translation System. A Polish text processed by POLENG is transformed into intermediate forms, the final form being the equivalent text in the English language. The intermediate forms result from subsequent phases: morphological analysis, syntactical analysis, semantic analysis, transfer, syntactical generation and finally morphological generation. The intermediate results may be applied in other systems that need the processing of the Polish language (they have been implemented to the ACALA system, where a virtual robot is controlled by commands in the natural language, or to the speech synthesis of Polish). The book is divided into two parts. Part 1 describes the lexical database of the POLENG system: it provides the definition of a dictionary intended for computerized text processing; presents the structure of the POLENG dictionary; describes how the lexical data for the POLENG system have been obtained; discusses the interrelations between syntax and semantics. Part 2 describes text processing algorithms: it describes tokenization, morphological analysis; describes the algorithm for syntactical analysis; deals with the problem of disambiguation; presents the transfer phase and gives a view on algorithms for the translation of lexical phrases.
- Od Autora
- Wprowadzenie
ZARYS HISTORYCZNY TŁUMACZENIA AUTOMATYCZNEGO- METODY TŁUMACZENIA AUTOMATYCZNEGO
- Tłumaczenie bezpośrednie, czyli//wyraz po wyrazie"
- Tłumaczenie oparte na regułach
- Tłumaczenie przez analogię
- Tłumaczenie statystyczne
- System POLENG
CZĘŚĆ 1. OPIS DANYCH LEKSYKALNYCH- 1. Realizacje słowników w tłumaczeniu automatycznym
- 2. Charakterystyka leksykalnej bazy danych w systemie POLENG
- 2.1. Klasy gramatyczne
- 2.2. Struktura słownika
- 2.2.1. Format hasła
- 2.3. Charakterystyka poszczególnych elementów słownika
- 2.3.1. Atrybut canon
- 2.3.2. Atrybut sinflection
- 2.3.3. Blok form fleksyjnych
- 2.3.4. Blok odpowiedników
- 2.4. Formalny opis atrybutów
- 2.4.1. Pojęcie idiomu
- 2.4.2. Atrybuty organizacyjne
- 2.4.3. Atrybuty z bloku odpowiedników
- 2.4.4. Gramatyka opisu atrybutu complementation
- 2.4.5. Typy kategorii w dopełnieniach
- 2.4.6. Wartości atrybutów charakterystyczne dla poszczególnych klas gramatycznych
- 2.5. Podsumowanie
- 3. Proces tworzenia bazy leksykalnej
- 3.1. Słownik POLENG-1
- 3.1.1. Przygotowywanie i selekcja korpusów tekstowych
- 3.1.2. Lematyzacja korpusu
- 3.1.3. Stworzenie list frekwencyjnych i ustalenie częstościowego progu włączenia hasła do słownika
- 3.1.4. Ręczne opisanie haseł na podstawie słowników i wystąpień w korpusach
- 3.2. Słownik POLENG-2
- 3.2.1. Przygotowywanie i selekcja korpusów tekstowych
- 3.2.2. Lematyzacja korpusu
- 3.2.3. Stworzenie list frekwencyjnych i ustalenie częstościowego progu włączenia hasła do słownika
- 3.2.4. Ręczne opisanie haseł na podstawie słowników i wystąpień w korpusach
- 3.3. Adaptowanie słownika WSAP do systemu POLENG
- 3.3.1. Cele i zasoby
- 3.3.2. Przetwarzanie automatyczne i ręczne
- 3.3.3. Automatyczna konwersja całego słownika
- 3.3.4. Ręczna weryfikacja i modyfikacja słownika
- 3.3.5. Półautomatyczna korekta
- 3.3.6. Wnioski
- 3.3.7. Status słownika
- 3.4. Generowanie form fleksyjnych
- 3.5. Podsumowanie
- 3.1. Słownik POLENG-1
- 4. Klasyfikacja polskich spójników pod kątem komputerowej analizy składniowej
- 4.1. Cel badań
- 4.2. Definicja spójnika
- 4.3. Klasyfikacja spójników
- 4.3.1. Rodzaje łączonych członów:
- 4.3.2. Wektor opisu spójnika
- 4.4. Klasy spójników
- 4.5. Podsumowanie
- 5. Klasyfikacja spójników angielskich
- 5.1. Definicja spójnika języka angielskiego
- 5.2. Własności składniowe spójników angielskich
- 5.3. Wektor opisu spójnika
- 5.4. Klasy spójników
- 5.5. Podsumowanie
- 6. Klasyfikacja semantyczna przymiotników polskich na podstawie ich własności syntaktycznych w jeżyku polskim i angielskim
- 6.1. Motywacja stworzenia klasyfikacji
- 6.1.1. Nadrzędność i podrzędność składników w zdaniu
- 6.1.2. Składniki podrzędne w słowniku systemu POLENG
- 6.1.3. Metoda analogii semantycznej
- 6.2. Dyskusja historyczna
- 6.2.1. Pierwotny podział przymiotników
- 6.2.2 Antonimia
- 6.2.3. Oznaczoność
- 6.2.4. Wieloznaczność
- 6.2.5. Użycie przydawkowe i orzecznikowe
- 6.2.6. Opcjonalność przyłączania składników podrzędnych
- 6.2.7. Zakres zależności
- 6.3. Klasyfikaqa przymiotników
- Grupa 1. Przymiotniki określające relacje między ludźmi
- Grupa 2. Przymiotniki określające relację człowiek -" czynność
- Grupa 3. Relacja człowiek - zjawisko lub wydarzenie
- Grupa 4. Przymiotniki opisujące subiektywne cechy obiektów nieosobowych
- Grupa 5. Relacje pomiędzy nieosobowymi obiektami fizycznymi
- Grupa 6. Przymiotniki określające relacje między obiektami różnych typów
- Grupa 7. Przymiotniki przestrzenne nieoznaczone
- Grupa 8. Przymiotniki odczasownikowe (imiesłowy)
- Grupa 9. Inne klasy przymiotników
- Grupa 10. Pozostałe przymiotniki
- 6.4. Algorytm opisu własności przymiotników
- 6.5. Podsumowanie
- 6.1. Motywacja stworzenia klasyfikacji
- 7. Ontologia konceptualna w systemie POLENG
- 7.1. Podstawowe pojęcia i definicje
- 7.2. Ontologie leksykalne
- 7.2.1. WordNet
- 7.2.2. Sensus
- 7.3. Ontologie konceptualne w systemach tłumaczenia automatycznego
- 7.4. Ontologia systemu POLENG
- 7.5. Tworzenie ontologii POLENG
- 7.6. Analiza błędów w ujednoznacznianiu semantycznym
- 7.7. Nowe koncepty i definicje w ontologii POLENG
- 7.7.1. Usunięcie konceptów
- 7.7.2. Wprowadzenie nowych konceptów
- 7.7.3. Modyfikacja w organizacji hierarchii
- 7.7.4. Przedefiniowanie znaczeń konceptów
- 7.8. Hierarchia konceptów w ontologii POLENG
- 7.9. Opis konceptów ontologii POLENG
- 7.10. Ujednoznacznianie semantyczne oparte na leksykalnych regułach translacji
- 7.10.1. Reguły leksykalno-semantyczne
- 7.10.2. Reguły składniowo-semantyczne
- 7.10.3. Algorytm ujednoznaczniania semantycznego
- 7.11. Podsumowanie
-
CZĘŚĆ 2. OPIS PRZETWARZANIA - 8. Zagadnienia tokenizacji
- 8.1. Proces tokenizacji
- 8.2. Zjawiska, które należy brać pod uwagę w trakcie procesu tokenizacji
- 8.2.1. Kropka
- 8.2.2. Spacja
- 8.2.3. Myślnik
- 8.3. Trudności napotkane w trakcie analizy leksykalnej tekstów i propozycje rozwiązań
- 8.3.1. Inicjały
- 8.3.2. Skróty niezakończone kropką
- 8.3.3. Wyrażenia "pseudomatematyczne"
- 8.3.4. Liczby pisane słownie
- 8.3.5. Data i czas
- 8.3.6. Reprezentacje liczb
- 8.3.7. Wypunktowania i numerowania
- 8.3.8. Adresy internetowe
- 8.3.9. Błędy w tokenizowanych tekstach
- 8.4. Reguły korzystające ze słownika
- 8.5. Podsumowanie
- 9. Analiza morfologiczna
- 9.1. Analiza morfologiczna przez analogię
- 9.1.1. Struktura logiczna słownika w rozpoznawaniu przez analogię
- 9.1.2. Algorytm analizy przez analogię
- 9.1.3. Zastosowanie algorytmu w praktyce
- 9.1.4. Trudności w analizie morfologicznej przez analogię
- 9.1.5. Zastosowanie analizy morfologicznej przez analogię
- 9.2. Analiza słowotwórcza w tłumaczeniu automatycznym z języka polskiego na język angielski
- 9.2.1. Potrzeba analizy słowotwórczej w tłumaczeniu automatycznym
- 9.2.2. Ograniczenia analizy słowotwórczej w tłumaczeniu automatycznym
- 9.2.3. Specyfika słownictwa komputerowego
- 9.2.4. Formalizm opisu reguł słowotwórczych
- 9.2.5. Składnia reguły słowotwórczej
- 9.2.6. Przykłady reguł derywacyjnych
- 9.3. Analiza słowotwórcza w tłumaczeniu angielsko-polskim
- 9.4. Podsumowanie
- 9.1. Analiza morfologiczna przez analogię
- 10. Narzędzia do opisu i interpretacji skończonych sieci przejść w systemie POLENG
- 10.1. Wstęp
- 10.2. Geneza pomysłu
- 10.3. PTND - POLENG Transition Nerwork Definition
- 10.3.1. XTND - XML Transition Network Definition
- 10.3.2. Elementy formalizmu XTND przejęte w PTND
- 10.3.3. Referencje do argumentów z historii
- 10.4. Algorytm nawracania
- 10.5. Interpreter graficzny
- 10.6. Generator
- 10.7. Produktor - obsługa błędów o
- 10.8. Podsumowanie
- 11. Analiza składniowa w systemie POLENG
- 11.1. Parsowanie w systemach POLENG-1 i POLENG-2
- 11.2. Ogólna koncepcja nowego parsera
- 11.3. Opis gramatyki
- 11.3.1. Produkcja
- 11.3.2. Instrukcja budowy drzewa struktury składniowej
- 11.3.3. Wyrażenie opisujące operacje wykonywane na atrybutach
- 11.4. Opis gramatyki a słownik systemu
- 11.5. Dopełnienia
- 11.6. Fragment gramatyki - przykład
- 11.7. Podsumowanie
- 12. Statystyczne i heurystyczne algorytmy rozwiązywania wieloznaczności w systemie FOLENG
- 12.1. Typy niejednoznaczności
- 12.1.1. Niejednoznaczności typograficzne
- 12.1.2. Niejednoznaczności leksykalne
- 12.1.3. Niejednoznaczności strukturalne
- 12.2. Ujednoznacznianie statystyczne
- 12.3. Ujednoznacznianie strukturalne metodą heurystyczną
- 12.3.1. Przykłady zastosowania podejścia heurystycznego
- 12.4. Podsumowanie
- 12.1. Typy niejednoznaczności
- 13. Algorytmy transferu automatycznego w systemie POLENG
- 13.1. Język opisu reguł transferu
- 13.1.1. Narzędzia do weryfikacji poprawności składniowej reguł
- 13.1.2. Symbole języka opisu reguł
- 13.2. Reguły transferu
- 13.3. Reguły modyfikacji składniowej
- 13.4. Reguły syntezy morfologicznej
- 13.5. Podsumowanie
- 13.1. Język opisu reguł transferu
- 14. Przetwarzanie fraz leksykalnych w tłumaczeniu automatycznym z języka polskiego na jeżyk angielski
- 14.1. Klasyfikacja fraz leksykalnych
- 14.1.1. Opis struktury frazy
- 14.2. Przetwarzanie fraz leksykalnych
- 14.2.1. Reguły transferu fraz leksykalnych
- 14.2.2. Reguły transformacyjne fraz leksykalnych
- 14.2.3. Algorytm tłumaczenia fraz leksykalnych
- 14.3. Podsumowanie
- 14.1. Klasyfikacja fraz leksykalnych
-
PODSUMOWANIE PRACY -
DODATEK 1. ALFABETYCZNA LISTA SPÓJNIKÓW JEDNOWYRAZOWYCH -
DODATEK 2. ALFABETYCZNA LISTA SPÓJNIKÓW WIELOWYRAZOWYCH -
DODATEK 3. LISTA FRAZ SPÓJNIKOWYCH -
DODATEK 4. FRAGMENT PLIKU WEJŚCIOWEGO DO PROGRAMU FLEX -
DODATEK 5. FRAGMENT PLIKU WEJŚCIOWEGO DO PROGRAMU BISON -
LITERATURA
Informacje szczegółowe | |
---|---|
Wersja publikacji | drukowana |
Format | 17,0 x 24,0 |
Tytuł (EN) | Transformation of Polish texts in the machine translation system POLENG |
Typ publikacji | Podręcznik, skrypt |
Wydanie | I |
ISSN | 1896-379X |
ISBN | 83-232-1638-X |
Liczba stron | 355 |
Liczba arkuszy wydawniczych | 25,00 |
Rodzaj oprawy | miękka |