https://aie24.pl/
Przetwarzanie języka naturalnego to duża dziedzina, która zasługuje na cały podręcznik lub dwa osobne W tej sekcji krótko opisujemy niektóre z głównych zadań; możesz skorzystać z referencji, aby uzyskać więcej szczegółów. Rozpoznawanie mowy to zadanie polegające na przekształceniu mówionego dźwięku na tekst. Możemy wtedy wykonaćj dalsze zadania (np. odpowiadanie na pytania) na otrzymanym tekście. Obecne systemy mają wskaźnik błędu słowa około 3% do 5% (w zależności od szczegółów zestawu testowego), podobny do transkrypcji człowieka. Wyzwaniem dla systemu wykorzystującego rozpoznawanie mowy jest odpowiedź odpowiednio, nawet jeśli występują błędy w poszczególnych słowach. Obecnie najlepsze systemy wykorzystują kombinację powtarzalnych sieci neuronowych i ukrytych modeli Markowa . Wprowadzenie głębokich sieci neuronowych dla mowy w 2011 roku doprowadziło do natychmiastowej i radykalnej poprawy wskaźnika błędów o około 30% — w dziedzinie, która wydawała się dojrzała i wcześniej rozwijała się w tempie zaledwie kilku procent rocznie. Głębokie sieci neuronowe są dobrym rozwiązaniem, ponieważ problem rozpoznawania mowy ma naturalne załamanie kompozycyjne: fale do fonemów do słów do zdań. Zostaną one omówione w następnym rozdziale. Synteza tekstu na mowę to proces odwrotny — przejście od tekstu do dźwięku. Taylor przedstawia przegląd całej książki. Wyzwaniem jest poprawne wymówienie każdego słowa i sprawienie, by przebieg każdego zdania wydawał się naturalny, z odpowiednimi pauzami i naciskiem. Innym obszarem rozwoju jest synteza różnych głosów – zaczynając od wyboru między ogólnym męskim lub żeńskim głosem, a następnie pozwalając na regionalne dialekty, a nawet naśladując głosy celebrytów. Podobnie jak w przypadku rozpoznawania mowy, wprowadzenie głębokich, rekurencyjnych sieci neuronowych doprowadziło do znacznej poprawy, przy czym około 2/3 słuchaczy twierdzi, że System WaveNet brzmiał bardziej naturalnie niż poprzedni system nieneuronalny. Tłumaczenie maszynowe przekształca tekst z jednego języka na inny. Systemy są zwykle szkolone przy użyciu dwujęzycznego korpusu: zestawu sparowanych dokumentów, w których jeden członek pary mówi na przykład po angielsku, a drugi po francusku. Dokumenty nie muszą być w żaden sposób opatrzone adnotacjami; system tłumaczenia maszynowego uczy się dopasowywać zdania i frazy, a następnie po przedstawieniu nowego zdania w jednym języku może wygenerować tłumaczenie na drugi. Systemy z początku XXI wieku wykorzystywały modele n-gramowe i osiągały wyniki, które zwykle były wystarczająco dobre, aby zrozumieć znaczenie tekstu, ale zawierały błędy składniowe w większości zdań. Jednym z problemów był limit długości n-gramów: nawet przy dużym limicie 7, trudno było przepływać informacji z jednego końca zdania do drugiego. Innym problemem było to, że wszystkie informacje w modelu n-gramowym znajdują się na poziomie pojedynczych słów. Taki system mógłby nauczyć się, że „czarny kot” tłumaczy się jako „chat noir”, ale nie mógł nauczyć się zasady, że przymiotniki zwykle pojawiają się przed rzeczownikiem w języku angielskim i po rzeczowniku we francuskim. Rekurencyjne modele neuronowe sekwencja-sekwencja rozwiązały ten problem. Mogli lepiej uogólniać (ponieważ mogliby używać osadzania słów zamiast liczby n-gramów poszczególnych słów) i mogli tworzyć modele kompozycyjne na różnych poziomach głębokiej sieci, aby skutecznie przekazywać informacje. Późniejsze prace wykorzystujące mechanizm skupiania uwagi modelu transformatora jeszcze bardziej zwiększyły wydajność, a model hybrydowy obejmujący aspekty obu tych modeli radzi sobie jeszcze lepiej, zbliżając się do wydajności na poziomie człowieka w niektórych parach językowych. Ekstrakcja informacji to proces zdobywania wiedzy poprzez przeglądanie tekstu i szukanie wystąpień poszczególnych klas obiektów i relacji między nimi. Typowym zadaniem jest wyodrębnienie wystąpień adresów ze stron internetowych z polami bazy danych na ulicę, miasto, stan i kod pocztowy; lub przypadki burz z raportów pogodowych, z polami dotyczącymi temperatury, prędkości wiatru i opadów. Jeśli tekst źródłowy jest dobrze ustrukturyzowany (na przykład w formie tabeli), informacje można wydobyć za pomocą prostych technik, takich jak wyrażenia regularne . Trudniej jest, jeśli próbujemy wyodrębnić wszystkie fakty, a nie konkretny typ (np. prognozy pogody); Banko i inni opisują system TEXTRUNNER, który dokonuje ekstrakcji nad otwartym, rozszerzającym się zbiorem relacji. W przypadku tekstu o dowolnej formie techniki obejmują ukryte modele Markowa i systemy uczenia się oparte na regułach (takie jak stosowane w TEXTRUNNER i NELL (Never-Ending Language Learning))). Nowsze systemy wykorzystują rekurencyjne sieci neuronowe, wykorzystując elastyczność osadzania słów.
Wyszukiwanie informacji to zadanie odnalezienia dokumentów, które są istotne i ważne dla danego zapytania. Wyszukiwarki internetowe, takie jak Google i Baidu, wykonują to zadanie miliardy razy dziennie. Odpowiadanie na pytania to inne zadanie, w którym pytanie tak naprawdę jest pytaniem, takim jak „Kto założył U.S. Coast Guard?” a odpowiedź nie jest uszeregowaną listą dokumentów, ale raczej rzeczywistą odpowiedzią: „Alexander Hamilton”. Od lat 60. XX wieku istnieją systemy odpowiadania na pytania, które opierają się na analizowaniu składniowym, o czym mowa w tym rozdziale, ale dopiero od 2001 r. takie systemy wykorzystywały wyszukiwanie informacji z sieci do radykalnego zwiększenia zasięgu. Katz (1997) opisuje parser START i odpowiedź na pytania. Banko i in. (2002) opisują ASKMSR, który był mniej wyrafinowany pod względem możliwości analizowania składniowego, ale bardziej agresywny w używaniu wyszukiwania w sieci i sortowaniu wyników. Na przykład, aby odpowiedzieć „Kto założył amerykańską straż przybrzeżną?” wyszukiwałby zapytania, takie jak [* założył U.S. Coast Guard] i [U.S. Coast Guard został założony przez *], a następnie przeanalizował wiele wynikowych stron internetowych, aby wybrać prawdopodobną odpowiedź, wiedząc, że słowo zapytania „kto” sugeruje, że odpowiedzią powinna być osoba. Konferencja Text REtrieval Conference (TREC) gromadzi badania na ten temat i od 1991 roku organizuje coroczne konkursy . Ostatnio widzieliśmy inne zestawy testowe, takie jak zestaw testowy AI2 ARC zawierający podstawowe pytania naukowe .