VII.Nauka
Wprowadzenie
Uczenie się przez systemy sztucznej inteligencji - co zwykle nazywam uczeniem maszynowym - ma długą historię, a dziedzina przeżyła coś w rodzaju renesansu w ciągu ostatnich dwudziestu lat. Uczenie maszynowe składa się głównie z różnorodnego zestawu algorytmów i technik, które zostały zastosowane do problemów w szerokim zakresie dziedzin. Każdy przegląd metod i aplikacji będzie nieuchronnie niekompletny, przynajmniej na poziomie określonych algorytmów i technik. Istnieje wiele doskonałych wprowadzeń do formalnych i statystycznych szczegółów algorytmów i technik uczenia maszynowego dostępnych gdzie indziej. Niniejsza sekcja koncentruje się na uczeniu maszynowym jako ogólnym sposobie "myślenia o świecie" i zapewnia ogólną charakterystykę głównych celów uczenia maszynowego. Istnieje wiele filozoficznych wątpliwości, które zostały podniesione na temat uczenia maszynowego, ale po dokładniejszym zbadaniu nie zawsze jest jasne, czy zastrzeżenia naprawdę przemawiają konkretnie przeciwko uczeniu maszynowemu. Wiele wydaje się raczej ukierunkowanych na uczenie maszynowe jako szczególną instancję jakiegoś bardziej ogólnego zjawiska lub procesu. Jedną z ogólnych zasad moralnych tego rozdziału jest to, że uczenie maszynowe jest pod wieloma względami mniej niezwykłe lub dziwne, niż się czasem myśli.
Trzy szerokie klasy wnioskowania
Na bardzo wysokim poziomie można rozróżnić trzy różne, niekoniecznie wyczerpujące, wnioskowania strategiczne: analogiczne, specyficzne dla dziedziny i strukturalne. Jako przykład ogólności tej taksonomii logika dedukcyjna i indukcyjna są rodzajem wnioskowania strukturalnego. Wnioskowanie analogiczne ma na celu odwzorowanie pewnej sytuacji lub problemu na najistotniejsze przykłady historyczne, zarówno znane, jak i osobiste; wnioski są następnie dokonywane przy użyciu odwzorowania analogicznego w celu przełożenia historycznych wyników na obecny problem. Problemy i wyniki nie muszą być duże ani znaczące: jeśli ktoś ma wcześniejsze doświadczenia z przełącznikami światła i żarówkami, wówczas można użyć wnioskowania analogicznego, aby podjąć decyzję o tym, jak włączyć światło podczas wchodzenia do nowego pokoju. Jeśli analogie są odpowiednie, wówczas wnioskowanie analogiczne może wspierać wnioskowanie w bardzo rzadkich sytuacjach lub zjawiskach lub wnioski z bardzo ograniczonych danych. Wiarygodność wnioskowania analogicznego jest jednak wysoce zależna od analogicznych przypadków i odwzorowań, a niewiele wiadomo na temat poszukiwania takich przypadków lub opracowania odpowiednich mapowań. W odniesieniu do tematu, wnioskowanie analogiczne rzadko odbywa się za pomocą maszyny; zazwyczaj dokonujemy wnioskowania analogicznego w naszym umyśle. Wnioskowanie specyficzne dla domen wykorzystują techniki, które są specjalnie dostosowane do wiedzy na temat konkretnych problemów, środowisk i odpowiedzi, które występują w domenie. Używając wyspecjalizowanych algorytmów i ograniczeń, często można wyciągać dość potężne wnioski, nawet przy ograniczonej ilości danych. Metody specyficzne dla dziedziny można jednak opracować i stosować tylko przy znacznej wiedzy w tej dziedzinie, co może wykluczać powszechne stosowanie takich metod. Uczenie maszynowe i wnioskowanie specyficzne dla domeny często można rozumieć jako część konkretnej dziedziny, a nie jako wyróżniającą się i nowatorską strategię wnioskowania. Ponadto, ponieważ jakakolwiek technika musi wykorzystywać pewne informacje specyficzne dla domeny (np. Możliwe wartości zmiennej), nie jest jasne, czy można narysować jakąkolwiek ostrą linię, aby dokładnie wytyczyć metody "specyficzne dla domeny", chociaż wyraźnie można wnioskować algorytmy, które mają zastosowanie tylko w ściśle określonych sytuacjach. Wnioskowanie strukturalne wykorzystuje (względnie) ogólne algorytmy ogólne, których sukces zależy od wewnętrznej struktury danych, a nie od cech semantycznej zawartości danych. Oznacza to, że wnioskowanie strukturalne skupia się na relacjach między zmiennymi, obiektami lub predykatami, a nie na ich wewnętrznych właściwościach. Ten typ wnioskowania jest koniecznie ogólną domeną, ponieważ takie metody są wyraźnie zaprojektowane tak, aby nie wykorzystywać żadnych informacji w domenie z wyjątkiem informacji "strukturalnych" o obiektach wnioskowania (np. liczba wartości zmiennych, czy istotne jest przestrzenne położenie obiektów itd.). Zaleta wnioskowania strukturalnego jest oczywista: metody mają zastosowanie do każdej dziedziny, w której znajdują się odpowiednie cechy strukturalne i można je znaleźć na podstawie danych. Metody te nie są zatem ograniczone do domen, w których zdarza się, że mamy znaczną wcześniejszą wiedzę, ani nie musimy mieć żadnego znaczącego doświadczenia w sytuacjach tego typu. Wady takich wniosków są równie oczywiste: nie można wywnioskować mechanizmów specyficznych dla domeny (ponieważ informacje specyficzne dla domeny są wykluczone), a wnioskowanie z małych zestawów danych może być dość trudne. Wnioskowanie strukturalne jest podstawą wielu, i zapewne większości, ram uczenia się maszyn i metod, w tym wielu dobrze znanych, takich jak różne formy regresji, algorytmy uczenia sieci neuronowej, takie jak propagacja wsteczna, oraz algorytmy uczenia przyczynowego wykorzystujące sieci bayesowskie. We wszystkich tych metodach algorytm działa poprzez wyodrębnianie i wykorzystywanie relacji strukturalnych między zmiennymi bez względu na znaczenie lub dziedzinę zmiennych. Na przykład, jeśli dokonuje się klasyfikacji za pomocą sztucznej sieci neuronowej, można uzyskać zestaw danych zawierający pomiary różne funkcje widżetów, a także niektóre kategorie docelowe. Algorytm uczenia sieci neuronowej (np. standardowa propagacja wsteczna) wykorzystuje następnie tylko regularności statystyczne w zbiorze danych do uczenia się odpowiedniej struktury międzyzmiennej, którą można następnie wykorzystać do przewidywania kategorii docelowej (np. "funkcjonalna" vs. "wadliwa"). Dla przyszłych widżetów. Dokładne "znaczenie" zmiennych nie ma znaczenia dla algorytmu uczenia się. W przypadku wszystkich tych metod nie trzeba wiele wiedzieć o podstawowej domenie w celu zastosowania metod, chociaż informacje specyficzne dla domeny (np. zmienna X przyjmuje wartość przed zmienną Y) można zazwyczaj włączyć na różne sposoby. Powszechność domen metod uczenia maszynowego częściowo tłumaczy ich popularność w stosunkowo nowatorskich dziedzinach naukowych, takich jak bioinformatyka, w których istnieje znaczna niepewność co do tego, modele lub metody są odpowiednie. Istnieje naturalny podział między metodami wnioskowania strukturalnego między metodami logicznymi i statystycznymi. Metody logiczne zazwyczaj mają na celu modelowanie struktury w kategoriach relacji dedukcyjnych, być może uzupełnione różnymi reprezentacjami braku dokładnej wiedzy na temat sytuacji. Metody często wykorzystują różne rodzaje logiki modalnej, aby pomóc w reprezentowaniu i wnioskowaniu niepewnych możliwości. Najczęstszym zastosowaniem metod logicznego uczenia maszynowego jest wnioskowanie z wcześniejszej wiedzy, gdzie ta wcześniejsza wiedza koduje informacje strukturalne na temat konkretnej dziedziny. Tu skupimy się bardziej na metodach statystycznych, które wykorzystują większe ilości danych do wnioskowania o powiązaniach strukturalnych. Większość z tych metod wykorzystuje dane do ustalenia, które zmienne są istotne z punktu widzenia informacji, dla których innych, a następnie wykorzystuje brak takich połączeń informacyjnych do opracowania prostych, ale dokładnych modeli o znaczącej mocy predykcyjnej. Istnieje oczywista różnica między algorytmami uczenia się a wyuczonym modelem. Na przykład niektóre określone sieci neuronowe (z wagami połączeń itp.) to wyuczony model; propagacja wsteczna to algorytm, według którego model jest uczony. Algorytmy uczenia maszynowego są rodzajem wnioskowania strukturalnego, ponieważ uczenie się nie ma żadnego wewnętrznego odniesienia do badanej dziedziny; w szczególności algorytm uczenia się nie wykorzystuje (znaczącej) informacji semantycznej o zmiennych. Ta obserwacja pozostawia otwarte pytanie, czy wyuczony model ma interesującą treść semantyczną. Powrócimy do tego pytania w dalszej części tego rozdziału. W międzyczasie jednak należy pamiętać o rozróżnieniu między "algorytmem uczenia się a modelem uczenia się" podczas myślenia o tych procesach.
Szorstka taksonomia uczenia maszynowego
Załóżmy, że mamy zestaw danych D: zbiór punktów danych, z których każdy zawiera pomiary wartości zmiennych V dla konkretnej osoby lub jednostki. Zbiór danych może mieć wiele komplikacji: Wartości zmiennych można przypisać lub wywnioskować; może nie być oczywiste, jak określić zmienne lub jednostki; punkty danych mogą nie być niezależne (np. jeśli dane szeregów czasowych); mogą istnieć niezmierzone czynniki, które wpływają na zmienne w zbiorze danych; i tak dalej. Pod względem opracowania przybliżonej taksonomii metod uczenia maszynowego te subtelności są w dużej mierze nieistotne. Biorąc to pod uwagę, zasadniczo wszystkie metody uczenia maszynowego zakładają, że sytuacja jest "dobrze postawiona" na różne sposoby, na przykład przy użyciu dobrze zdefiniowanych zmiennych. Na najgrubszym poziomie algorytmy uczenia maszynowego można podzielić na dwie klasy (z małym środkiem) na podstawie tego, czy algorytm wymaga specyfikacji zmiennej docelowej w zbiorze danych. Nadzorowane algorytmy uczenia się zakładają, że pewna zmienna X jest wyznaczona jako cel do przewidywania, wyjaśniania lub wnioskowania, a wartości X w zbiorze danych stanowią wartości "podstawowej prawdy" dla uczenia się. Oznacza to, że nadzorowane algorytmy uczenia wykorzystują znane wartości X w celu ustalenia, czego należy się nauczyć. Najczęstszy rodzaj nadzorowanego algorytmu uczenia się ma na celu opracowanie modelu klasyfikacji lub kategoryzacji: Biorąc pod uwagę informacje o różnych osobach i kategoriach, do których należą, algorytm tworzy wyuczony model, który można wykorzystać do przewidywania przynależności kategorii do nowych osób. Na przykład można chcieć przewidzieć, które widżety produkowane w fabryce najprawdopodobniej zawiodą. Jeśli ktoś ma dane dotyczące wydajności wielu różnych widżetów, a także pomiary innych istotnych funkcji, wówczas można użyć algorytmu uczenia maszynowego, aby nauczyć się modelu, który będzie przewidywał wydajność przyszłych widżetów. W odpowiednich warunkach algorytmy klasyfikacji mogą dać modele, które mogą tworzyć nowe, uzasadnione uogólnienia dotyczące grup w oparciu o relacje międzyfunkcyjne. Algorytmy klasyfikacji można również wykorzystać do rozpoznania lub identyfikacji poprzez klasyfikację do "kategorii" z dokładnie jednym członkiem. Przykłady nadzorowanych algorytmów uczenia obejmują algorytmy uczenia się dla sztucznych sieci neuronowych, drzew decyzyjnych i maszyn wektorów wsparcia; wiele form regresji; i większość metod uczenia się wzmacniającego. Algorytmy uczenia bez nadzoru nie wyodrębniają żadnych konkretnych zmiennych jako celu lub fokusu, a zatem mają na celu zapewnienie ogólnej charakterystyki pełnego zestawu danych. Prawdopodobnie najczęstszym zastosowaniem uczenia bez nadzoru jest algorytm grupowania: dzielenie różnych osób na "naturalne" grupy według jednej lub drugiej metryki. Algorytmy te czasami wytyczają względnie arbitralne linie między jednostkami, ale mogą być dość skuteczne w wykrywaniu grup, gdy faktycznie istnieją. Na przykład można zmierzyć postawy ludzi wobec różnych kwestii politycznych, a następnie chcieć ustalić, czy istnieją naturalne grupy, które można zdefiniować na podstawie tych przekonań. Dane wyjściowe algorytmu klastrowania mogą w pewnych warunkach służyć jako zmienna docelowa dla nadzorowanego algorytmu uczenia się. Zazwyczaj trudno jest zweryfikować dane wyjściowe lub model z algorytmu uczenia bez nadzoru, właśnie dlatego, że zwykle nie ma "prawdziwej prawdy", z którą można by porównać wydajność modelu. Rzadko istnieje jeden poprawny, prawdziwy sposób na grupowanie różnych osób, tylko lepsze i gorsze sposoby. Różne metody rozkładu prawdopodobieństwa lub szacowania gęstości również należą do kategorii uczenia się bez nadzoru. Standardowym poglądem wyuczonych modeli jest to, że ich treść semantyczna jest całkowicie statystyczna: połączenia między zmiennymi dostarczają informacji, które można wykorzystać do przewidywania, ale nie uważa się, że dalsze treści semantyczne - na przykład struktura przyczynowa - można przypisać tym modelom. W ostatnich latach nastąpił jednak znaczny wzrost zainteresowania algorytmami uczenia maszynowego, które unikają stosowania założeń specyficznych dla domeny, ale tworzą wyuczone modele z bogatą treścią semantyczną. W szczególności wyuczonych modeli można użyć do przewidywania przyszłego zachowania lub cech przy interwencjach lub manipulacjach spoza systemu. Te algorytmy uczenia maszynowego są zazwyczaj metodami uczenia się bez nadzoru, chociaż często chce się poznać strukturę przyczynową, aby wpłynąć na lub wprowadzić zmianę w określonej zmiennej. Można się zastanawiać, jak takie wnioskowanie przyczynowe jest możliwe, biorąc pod uwagę całkowicie standardową w nauce i filozofii, że "korelacja nie jest przyczyną". Metody uczenia maszynowego do odkrywania przyczynowego muszą przyjmować założenia z pewną zawartością przyczynową, ale zazwyczaj wykorzystują jedynie ogólne założenia dotyczące sposobów, w jakie związek przyczynowy i korelacja są ze sobą powiązane. Na przykład szeroko omawiane przyczynowe założenie Markowa twierdzi, że zmienna nie dostarcza informacji o jej skutkach, jeśli już zna się wartości bezpośrednich przyczyn zmiennej. To założenie ma treść przyczynową, ale na bardzo wysokim poziomie ogólności. Tego rodzaju uczenie się przyczynowe jest trudniejsze niż uczenie czysto statystyczne (np. Grupowanie, klasyfikacja, szacowanie gęstości, aproksymacja funkcji), w którym po prostu próbuje się znaleźć powiązania informacyjne między zmiennymi. Z wyjątkiem bardzo nietypowych okoliczności, zbiór związków przyczynowych między niektórymi cechami będzie ścisłym podzbiorem zbioru relacji informacyjnych. Oznacza to, że (prawie wszystkie) związki przyczynowe są relacjami informacyjnymi, ale nie wszystkie relacje informacyjne są przyczynowe. Biorąc pod uwagę tę asymetrię uczenia się dla różnych typów modeli, można mieć nadzieję, że modele statystyczne mogą wystarczyć dla wszystkich interesujących zastosowań. Informacje o charakterze czysto statystycznym są jednak niewystarczające do przewidywania zmian systemu, czy to z powodu własnych działań, czy polityk, a może dlatego, że struktura przyczynowa pęka na różne sposoby. Potrzebne są informacje przyczynowe, aby przewidzieć prawdopodobne skutki większości interwencji, decyzji politycznych lub innych egzogenicznych zmian w systemie. Czasami musimy rozwiązać trudniejszy problem w nauce. Algorytmy uczenia maszynowego muszą równoważyć trzy czynniki: (1) złożoność wyuczonego modelu, co zapewnia większą dokładność w reprezentowaniu wejściowego zestawu danych; (2) uogólnienie wyuczonego modelu na nowe dane, co umożliwia wykorzystanie modelu w nowych kontekstach; oraz (3) wykonalność obliczeniowa uczenia się i korzystania z modelu, co jest niezbędnym warunkiem praktycznej przydatności algorytmów. Złożoność świata będzie czasem większa niż złożoność modeli praktycznych dla konkretnej sytuacji, co sugeruje, że żaden pojedynczy model nie będzie wystarczający. Można mieć nadzieję, że istnieją "pod-problemy", które nie są bardziej złożone niż dostępne modele. Jeśli tak, to można prawdopodobnie dowiedzieć się więcej o świecie, (1) określając zakres podproblemów; (2) nauczenie się odpowiedniego modelu (lub modeli) dla każdego podproblemu; a następnie (3) integracja wyników modelu w sposób zgodny z zasadami. Różne techniki "meta-uczenia się" wdrażają tę trzyetapową propozycję. Jako przykład rozważmy przykład wzmocnienia dla prostej klasyfikacji binarnej: na przykład, czy widżet jest uszkodzony. Zamiast próbować nauczyć się pełnego modelu w jednym kroku, algorytm przyspieszający uczy się najpierw prostego modelu klasyfikacyjnego, który działa dość dobrze, choć zazwyczaj nie jest tak dobry, jak tego chce lub wymaga użytkownik. Następnie system wyodrębnia wszystkie przypadki, dla których ten prosty model dokonuje niepoprawnej prognozy, i uczy się drugiego modelu klasyfikacji tylko dla tych przypadków. Wyjścia tych dwóch modeli można zintegrować na różne sposoby, aby uzyskać klasyfikator dla wszystkich przypadków. Ten ujednolicony klasyfikator będzie dokonywał niepoprawnych prognoz dla innych przypadków, dzięki czemu można nauczyć się trzeciego klasyfikatora dla tych błędnie sklasyfikowanych przypadków, zintegrować nowy klasyfikator z ujednoliconym i iterować. W ten sposób wzmocnienie buduje ujednolicony klasyfikator składający się z szeregu "słabych" klasyfikatorów, z których każdy koncentruje się na dokładnej klasyfikacji zredukowanego podzbioru danych. Modele hierarchiczne, takie jak mieszanki ekspertów (np. Jordan i Jacobs 1994), działają podobnie. Żaden przegląd uczenia maszynowego nie byłby kompletny bez dyskusji na temat nauki bayesowskiej. Algorytm uczenia bayesowskiego wymaga określenia (ewentualnie nieskończonego) zestawu możliwych hipotez lub modeli, a także rozkładu prawdopodobieństwa - "wcześniejszego rozkładu prawdopodobieństwa" w stosunku do tych hipotez. Po dostarczeniu danych algorytm uczenia się używa reguły Bayesa do ustalenia prawidłowego (według rachunku prawdopodobieństwa) rozkład prawdopodobieństwa w hipotezach, biorąc pod uwagę te dane. Argumentacja bayesowska ukazuje intuicję, że przekonania po zaobserwowaniu niektórych danych powinny być podane przez prawdopodobieństwo każdego możliwego wyjaśnienia, biorąc pod uwagę te dane. Wyrażona w zwykłym języku reguła Bayesa stwierdza: prawdopodobieństwo hipotezy po zaobserwowaniu niektórych danych [P(H|D)] jest równe (1) wcześniejszemu prawdopodobieństwu hipotezy [P(H)] pomnożonemu przez (2 ) prawdopodobieństwo zobaczenia takich danych, gdyby hipoteza faktycznie była prawdziwa [P(D|H)], podzielona przez (3) prawdopodobieństwo zobaczenia tych danych w pierwszej kolejności [PD)]. Idea racjonalnego uczenia się bayesowskiego ma długą historię filozoficzną. Bayesianizm od wielu lat miał stosunkowo niewielki wpływ praktyczny z powodu prostego faktu: z wyjątkiem przykładów zabawek, obliczenia wymagane do nauki bayesowskiej szybko stają się zbyt trudne do wykonania analitycznie lub ręcznie. Rozwój nowoczesnych komputerów cyfrowych umożliwił przeprowadzenie lub przybliżenie nauki bayesowskiej dla bardziej realistycznych sytuacji, dlatego też bayesianizm ponownie stał się dominującym tematem w nauce. Wiele algorytmów uczenia maszynowego można postrzegać jako wdrażanie lub przybliżanie uczenia bayesowskiego przy różnych założeniach lub ograniczeniach dotyczących przestrzeni hipotez, wcześniejszego rozkładu prawdopodobieństwa, funkcji prawdopodobieństwa i tak dalej.
Zakres i ograniczenia uczenia maszynowego
Podobnie jak w przypadku uczenia się ludzi, wartość uczenia maszynowego jest mniejsza w wyniku, a bardziej w sposobie, w jaki można go wykorzystać do przyszłych zadań: przewidywanie, planowanie, klasyfikacja, rozpoznawanie i tak dalej. Jako społeczność wiemy, jak wiele zrobić z uczeniem maszynowym. Uczenie maszynowe jest dużą częścią współczesnej informatyki i istnieje wiele różnych algorytmów i technik, które są odpowiednie dla szerokiego zakresu warunków. W przypadku grupowania, klasyfikacji i uczenia się przyczynowego istnieją oczywiście algorytmy dla prostych sytuacji: zestawy danych zawierające wszystkie istotne zmienne, czyste pomiary, proste relacje (np. Liniowe) i brak brakujących punktów danych. Ale są też algorytmy odporne na zmiany we wszystkich tych wymiarach: zaszumione dane, nie zmierzone zmienne, złożone relacje, brakujące dane, odchylenie w doborze próby i tak dalej. Istnieje wiele historii sukcesu każdego z tych algorytmów pod względem zastosowań w świecie rzeczywistym. Istnieją również algorytmy do obsługi danych szeregów czasowych, aw szczególności do monitorowania systemów i wykrywania błędów. Istnieją dość potężne algorytmy klasyfikacji tekstu i obrazów, które są wysoce wyspecjalizowane do tych celów (chociaż zwykle nie są one dokładne w zakresie ludzkiej wydajności). Łączenie informacji - integracja informacji z wielu różnych źródeł - pojawiło się ostatnio jako główny element uczenia maszynowego w świecie rzeczywistym. Jednocześnie znane są teoretyczne ograniczenia uczenia maszynowego, z których wiele odzwierciedla ograniczenia w uczeniu się ludzi. Na przykład, jeśli dane są zbyt hałaśliwe - jeśli są zasadniczo losowe - uczenie się będzie prawie niemożliwe. Algorytmy uczenia maszynowego wykorzystują wnioskowanie strukturalne, więc jeśli w danych nie ma żadnych wzorców, nie można niczego wywnioskować. Uczenie się wymaga także pewnej zmienności na świecie, między jednostkami, między czasami lub między miejscami. Algorytmy uczenia maszynowego nie mogą dowiedzieć się niczego o funkcji o stałej wartości, ponieważ nie ma się czego nauczyć: stała funkcja jest zawsze taka sama. I chociaż w niektórych sytuacjach nauka jest łatwiejsza niż w innych, w najgorszym przypadku nauka jest prawie zawsze trudna. Dokładniej mówiąc, zasadniczo wszystkie interesujące problemy uczenia maszynowego są na tyle trudne, że wymagają (naszym zdaniem) algorytmu z wykładniczo wieloma krokami obliczeniowymi w najgorszym przypadku. Bardziej interesującym ograniczeniem w uczeniu maszynowym jest zdolność do nabierania zdolności, nawet w pozornie łatwych warunkach, do wnioskowania o cechach struktury przyczynowej lub informacyjnej jednostki na podstawie pomiarów na poziomie grupy. Załóżmy, że chcemy dowiedzieć się czegoś o jednostce (np. W jaki sposób wykształcenie wpływa na późniejsze dochody?), Ale mierzymy cechy tylko na poziomie grupy (np. Średnie w różnych grupach wykształcenia, dochód i inne istotne zmienne). Ponadto załóżmy, że każda osoba ma dokładnie ten sam typ podstawowych relacji (choć niekoniecznie te same wartości), a cechy na poziomie grupy są prostymi, deterministycznymi funkcjami cech na poziomie indywidualnym (np. Wartość średnia lub całkowita). Nawet przy tych silnych założeniach upraszczających istnieje wiele interesujących przypadków, w których relacje informacyjne między funkcjami na poziomie grupy nie są takie same jak relacje między odpowiednie cechy na poziomie indywidualnym. Oznacza to, że wyuczony model funkcji na poziomie grupy niekoniecznie jest taki sam jak model dla jednostki, nawet jeśli każda jednostka ma ten sam model. Ta możliwość stanowi poważne wyzwanie metodyczne w zakresie korzystania z uczenia maszynowego w domenach, w których jednostki są w centrum uwagi, ale gromadzenie danych dotyczy głównie grup (np. Części ekonomii, innych nauk społecznych i bioinformatyki).
Wyzwania filozoficzne w uczeniu maszynowym
Uczenie maszynowe jest głównym obszarem badań w dziedzinie informatyki i statystyki, a tak wiele, a być może prawie wszystkie, najbardziej znaczących problemów w uczeniu maszynowym mają charakter obliczeniowy i algorytmiczny (np. "Czego można się nauczyć w określonych warunkach?" Lub " czy ten algorytm może działać szybciej? "), niekoniecznie filozoficzny. Nawet pojęcia uczenia maszynowego, które mogą wydawać się filozoficzne, często okazują się mniej filozoficzne, niż mogłoby się wydawać. Jako jeden przykład rozważmy tak zwane twierdzenia o "braku wolnego lunchu" , które są czasami potocznie określane jako: "Algorytmy są skuteczne tylko wtedy, gdy są" dostrojone "do swojej domeny; nie ma uniwersalnych algorytmów uczenia się. " Frazowanie to sugeruje różne argumenty filozoficzne, ale wszystkie oparte są na niezrozumieniu faktycznych twierdzeń. Na przykład można pokusić się o twierdzenie, że uczenie maszynowe jest bezcelowe, ponieważ można by pomyśleć, że twierdzenia o braku obiadu sugerują, że właściwy wybór algorytmu wymaga, abyś już znał prawdę leżącą u podstaw, co wyeliminowałoby potrzebę jakiejkolwiek nauki. Ten sugerowany argument nie rozumie sensu, w którym żaden algorytm nie ma przewagi nad innymi. Twierdzenia o braku obiadu są pod wieloma względami precyzyjnym stwierdzeniem starożytnej sceptycznej obserwacji, że jakakolwiek przyszłość jest zgodna z przeszłością. Jeśli biorąc pod uwagę wcześniejsze obserwacje, możliwa jest jakakolwiek przyszłość, żaden algorytm uczenia się nie ma przewagi nad innymi. Ale teraz widać od razu, że prawie każde ograniczenie przestrzeni kosmicznej wystarcza, aby pokonać twierdzenia o braku obiadu; na przykład pojedyncze słabe założenie o regularności może wystarczyć do zdefiniowania "domeny", a więc wybrania uprzywilejowanej klasy nadrzędnych algorytmów. Z pewnością nie trzeba a priori znać prawdziwej, leżącej u podstaw prawdy. Oczywiście, podobnie jak w przypadku wielu złych argumentów, w tym sugerowanym sprzeciwie kryje się jądro prawdy. Każda ciekawa metoda uczenia maszynowego przyjmuje założenia dotyczące natury świata, a algorytmy mogą łatwo zawieść, jeśli założenia te okażą się fałszywe. Ważną częścią uczenia maszynowego jest zbadanie, czy założenia własnego algorytmu faktycznie zachowują się, przynajmniej w przybliżeniu (np. Sprawdzając, czy rozkład danych jest w przybliżeniu gaussowski). Takich testów często brakuje w praktyce i retoryce uczenia maszynowego. Jeśli odpowiednie założenia są fałszywe, należy zwrócić się do innych metod, które nie czynią tych założeń, nawet jeśli te inne metody będą zwykle odpowiednio słabsze. Błędem jest myśleć o uczeniu maszynowym jako "czarnej skrzynce", która po prostu przyjmuje dane jako dane wejściowe i zwraca prawdę. Praktyka uczenia maszynowego jest natomiast znacznie bliższa wykorzystywaniu statystyk w nauce - jako narzędzia do dokładniejszego badania struktury danych. Odpowiednie narzędzie (tj. Algorytm uczenia maszynowego) powinno być wybrane do konkretnego zadania, a narzędzia mogą być używane z różnym stopniem umiejętności (np. Poprzez interpretację wyników algorytmu na różne sposoby). Można mieć nadzieję na wyrafinowany system, który może pobierać dane wejściowe, określać najlepszy algorytm dla tego typu danych, a następnie zastosować algorytm, ale taki meta-uczeń obecnie pozostaje w dużej mierze nadzieją. Jednym z najmniej dyskutowanych "założeń" algorytmów uczenia maszynowego jest to, że wszystkie one wymagają podania ściśle określonych zmiennych z precyzyjnymi, być może nieskończonymi zestawami wartości. Zmienne nie muszą być liczbowe - mogą mieścić się w różnych kategoriach, takich jak "duże" i "małe" - ale muszą być jasno określone: W pewnym sensie musi istnieć pewien, prawdopodobnie nieznany, fakt dotyczący "prawdziwej" wartości każdej zmiennej dla każdego punktu danych. Uczenie maszynowe polega na wnioskowaniu strukturalnym, dlatego musi istnieć możliwość znalezienia wzorców i struktury danych. Nie jest jasne, co to znaczy mówić o "strukturze" między zmiennymi, które nie są dobrze zdefiniowane. Ta obawa nie jest poważnym wyzwaniem w praktyce, ponieważ zasadniczo zawsze chodzi o zbiory danych wynikające z procesów pomiarowych określających zmienne; różnego rodzaju metafizyczni realistycy również zwykle nie będą zaniepokojeni tym problemem. Jeśli jednak zostanie postawione pytanie, czy istnieje jakakolwiek stabilna podstawowa struktura do zmierzenia, uczenie maszynowe będzie wydawać się daremnym przedsięwzięciem. Wszystkie obserwacje w tej sekcji rodzą naturalne pytanie: jeśli uczenie maszynowe jest z grubsza analogiczne do statystyki, to w jakim sensie "uczenie się"? Bardziej kontrowersyjnym kadrowaniem byłoby: czy maszyna uczy się jakiejś nauki, czy też tak naprawdę człowiek uczy się algorytmu? Istnieją dwa różne aspekty "czy się uczy?" pytanie: Pierwsze dotyczy ogólnej filozoficznej troski, a drugie wskazuje na luki w naszym rozumieniu poznania. Pierwszą troskę najsławniej przedstawił Searle) za pomocą swojego Chińskiego Pokoju, ale pojawił się w wielu różnych formach. Argument zaczyna się od ogólnego twierdzenia, że obliczenia obejmują jedynie manipulację symbolami, podczas gdy poznanie obejmuje coś więcej. "Coś więcej" poznania różni się między autorami, ale często jest to pojęcie semantyczne, takie jak szczególna właściwość naszych koncepcji lub "podstawa" dla nich. Manipulowanie symbolami jest następnie scharakteryzowane jako pojęcie czysto syntaktyczne: zgodnie z tym argumentem można poprawnie manipulować symbolami wyłącznie poprzez badanie cech fizycznej reprezentacji i bez jakiegokolwiek zrozumienia semantyki lub znaczenia symbolu. Argument następnie konkluduje, że obliczenia nie mogą być poznaniem, ponieważ pierwszemu brakuje jakiejkolwiek treści semantycznej lub uziemienia na świecie, podczas gdy drugiemu koniecznie jest. Argument ten jest przedstawiony jako ogólny argument przeciwko idei "poznania jako obliczenia", a uczenie maszynowe jest wyraźnie odpowiednim rodzajem obliczeń. Sukcesy uczenia maszynowego wynikają z wnioskowania strukturalnego; te metody wykorzystują wzorce lub prawidłowości statystyczne w danych i są (relatywnie mówiąc) obojętne na semantykę zmiennych wejściowych. Bardziej szczegółowa wersja poprzedniego argumentu wnioskuje, że "uczenie się" maszynowe może być przydatne, ale nie może być prawdziwym uczeniem się, przynajmniej w takim stopniu, w jakim prawdziwe uczenie się wymaga poznania. Innymi słowy, może istnieć pewne uczenie się, ale człowiek, który przetwarza dane wyjściowe "uczenia się" maszyny, jest tym, który to robi. Maszyna po prostu ustawia pewne wzorce w danych jako istotne, choć może to być zadanie niepraktyczne obliczeniowo. Jest to poważny sprzeciw wobec co najmniej tytułu "uczenie maszynowe" dla tych algorytmów, ponieważ ten argument podważa użycie wszystkich terminów poznawczych w odniesieniu do operacji maszynowych. Jednak ten argument nie wydaje się budzić żadnego szczególnego sprzeciwu wobec samego uczenia maszynowego, ale raczej dotyczy uczenia maszynowego jako działania maszynowego. Oznacza to, że konkretna odpowiedź na (lub akceptacja) tego argumentu - na przykład odwołanie się do jakiegoś procesu uziemiania symboli, specjalnych mocy przyczynowych mózgu lub odrzucenia pewnych przesłanek - wynikać będzie z bardziej ogólnych podstaw filozoficznych, a nie z głębsze zastanowienie się nad naturą uczenia maszynowego w izolacji. Ogólny sprzeciw jest wyraźnie istotny dla uczenia maszynowego, ale wydaje się równie oczywiste, że każde rozwiązanie musi uwzględniać wiele kwestii, które leżą poza zakresem uczenia maszynowego. Istnieje bardziej szczegółowa forma "czy to uczenie się?" sprzeciw, który dotyczy bezpośrednio uczenia maszynowego. Wgląd i kreatywność są często uważane za centralną cechę uczenia się człowieka, jeśli nie centralną. Nasze uczenie się wydaje się czasami zależeć od kluczowych intuicyjnych skoków, których nie jesteśmy w stanie wyjaśnić ani przewidzieć. Introspektywnie wydaje się, że w twórczym wglądu jest coś "niealgorytmicznego". Algorytmy uczenia maszynowego wydają się nie oferować takiej zdolności wglądu, ponieważ są "tylko" złożonymi sekwencjami prostych operacji. Praktyka uczenia maszynowego nieuchronnie angażuje człowieka w element określający i kontrolujący algorytm, testujący różne założenia i interpretujący dane wyjściowe algorytmu. Te obserwacje sugerują wniosek, że uczenie maszynowe (ponownie) wcale nie jest prawdziwym uczeniem się, ale raczej szybkim, użytecznym wykrywaniem różnych wzorców danych. Z tego powodu człowiek, który kontroluje i zatwierdza algorytmy, wykonuje "prawdziwe" uczenie się. Sprzeciw ten różni się znacznie od poprzedniego: nie ma tu żadnych roszczeń dotyczących niemożności poznania maszynowego, a jedynie niemożność podniesienia się obecnych algorytmów uczenia maszynowego do poziomu prawdziwego uczenia się. Sprzeciw ten jest całkowicie zgodny z możliwością, że bardziej wyrafinowane i refleksyjne algorytmy, uzupełnione odpowiednią wiedzą podstawową, mogłyby przeprowadzić prawdziwe uczenie się. Argument zależy natomiast od twierdzenia, że żaden z obecnie dostępnych algorytmów nie spełnia tego standardu dla prawdziwego uczenia się.
W poprzednim akapicie użyto wyrażeń "uczenie się człowieka" i "prawdziwe uczenie się" bez objaśnienia; założono, że czytelnik rozumie, o co chodzi. Można się jednak zastanawiać, czy nasze rozumienie natury uczenia się przez człowieka jest wystarczająco jasne, aby zapewnić standard "prawdziwego uczenia się", którego uczenie maszynowe nie spełnia. Nie ma dobrze ugruntowanego modelu tego, w jaki sposób ludzie faktycznie się uczą, dlatego nie jest jasne, jakie kryteria należy spełnić, aby algorytm maszynowy uznać za "uczenie się". Nie ma wątpliwości, że - w niektórych sytuacjach - uczenie się człowieka jest znacznie lepsze od uczenia maszynowego. Nasza zdolność do gromadzenia różnorodnych informacji i informacji w tle, czy to przez analogię, przez przypadek, czy w innym procesie, nie ma sobie równych w uczeniu maszynowym (pomimo wielu prób zbudowania systemów dla zdrowego rozumowania). Ta obserwacja nie jest jednak wystarczająca, aby stwierdzić, że w procesie uczenia się stosujemy zupełnie inny proces; można jedynie stwierdzić, że w naszej nauce jest coś innego. Prawdopodobnym alternatywnym wyjaśnieniem jest to, że dysponujemy zasobem informacji, uprzedzeń i doświadczeń, których współczesne systemy uczenia maszynowego nie mają sobie równych. Baza danych zawierająca 10 000 punktów danych jest uważana za dużą w uczeniu maszynowym; dziecko, które ma tylko jedno doświadczenie na godzinę przebudzenia (powiedzmy, szesnaście dziennie) przekracza tę liczbę w mniej niż dwa lata. Jeśli ma jedno doświadczenie na minutę na przebudzenie, to przewyższa bazę danych w ciągu około jedenastu dni. Produkty uczenia się przez człowieka są lepsze (w pewnym sensie) od produktów uczenia maszynowego, ale procesy nie muszą być zasadniczo odmienne pod względem rodzaju, biorąc pod uwagę, że istnieją ogromne różnice w wiedzy podstawowej, dokładności błędów, informacji czasowych i semantycznych oraz wkrótce. Być może, co ważniejsze, istnieją znaczne luki w naszym zrozumieniu procesów leżących u podstaw uczenia się człowieka. Nie wiemy wystarczająco dużo o tych procesach, aby określić w tym momencie ich podobieństwo - lub odmienność - do algorytmu proponowane w uczeniu maszynowym. Ktoś mógłby odpowiedzieć, że introspekcja na podstawie naszej własnej nauki dostarcza wszystkich wymaganych dowodów. Taka odpowiedź pomija dużą literaturę psychologiczną wykazującą niewiarygodność introspekcji w ujawnianiu szczegółów leżących u podstaw podstawowych procesów poznawczych. Może się zdarzyć, że jest coś jakościowo odmiennego w uczeniu się człowieka, tak że algorytmy "uczenia się" maszynowego nie zasługują na tę nazwę. Jednak w chwili obecnej takie twierdzenia oparte są w dużej mierze na ignorancji, a nie na pozytywnych dowodach różnicy. Poprzednie dyskusje przyjęły potencjalnie problematyczne założenie: Warto martwić się o konkretną etykietę dołączoną do algorytmów uczenia maszynowego. Podstawowe właściwości tych algorytmów - ich niezawodność, zbieżność, złożoność obliczeniowa i tak dalej - są rzeczywistymi cechami bez względu na nazwę, której się używa. Co więcej, algorytmy są już nazywane wieloma różnymi nazwami, takimi jak "eksploracja danych", "statystyki stosowane", "zautomatyzowane szukaj "i tak dalej. W ten sposób można zrezygnować z nazwy "uczenia maszynowego", ponieważ nie ma to oczywiście wpływu na podstawową naukę. Nie należy tak łatwo rezygnować z nazwy "uczenia maszynowego", ponieważ nazwa wskazuje na szereg interesujących zagadnień dotyczących natury poznania i uczenia się oraz znaczenia metod maszynowych w badaniu poznania człowieka. Metody uczenia maszynowego są obecnie regularnie stosowane w celu zapewnienia ram i inspiracji dla modeli poznawczych, czasami pod hasłem "obliczeniowej kognitywistyki". Etykieta jest również ważna, ponieważ ustanawia uprzedzenia i oczekiwania u tych, którzy ją słyszą. Czasami te oczekiwania są nieuzasadnione, ale skłaniają osoby - zarówno zwolenników, jak i sceptyków - do zadawania ważnych pytań na temat natury i wydajności tych algorytmów. Ostatnia końcowa kwestia filozoficzna dotyczy stopnia, w jakim można być realistą w zakresie treści lub procesów pośrednich wyuczonego modelu. To znaczy, kiedy można zrozumieć, że wewnętrzna struktura lub bogatsza treść semantyczna wyuczonego modelu odpowiada - być może tylko z pewnym prawdopodobieństwem - cechom świata? To pytanie jest szczególnie naglące dla badań nad uczeniem się przyczynowym, które mają na celu wywnioskowanie struktury przyczynowej na świecie na podstawie zestawów pasywnych obserwacji.
Algorytmy wnioskowania przyczynowego przypuszczalnie uczą się zestawu struktur przyczynowych, które mogły wytworzyć dany zestaw danych, lub odkryć najbardziej prawdopodobną taką strukturę. Istnieje wiele przypadków, w których te algorytmy zostały zastosowane do rzeczywistych zestawów danych, a wyuczone modele zostały następnie pomyślnie przypisane dla świata. Algorytmy te - podobnie jak wszystkie metody wnioskowania - są wiarygodne tylko przy określonych założeniach dotyczących natury świata. Co więcej, treść semantyczna wyuczonego modelu - fakt, że możemy go nazwać modelem przyczynowym - wywodzi się z tych założeń, które zapewniają charakterystykę jednego (?) Sposobu, w jaki struktury przyczynowe mogą być "rzutowane" na dane obserwowane lub eksperymentalne . Analogia jest tu z założeniami, takimi jak teoria światła z promieniem: te założenia wyjaśniają, w jaki sposób trójwymiarowe obiekty są rzutowane na dwuwymiarową płaszczyznę (np. siatkówkę) i są niezbędne, aby jakikolwiek system wizualny mógł wnioskować o strukturze obiektu na podstawie ograniczonego dwuwymiarowego wejścia. Podobnie jak nasz system wizualny doświadcza złudzeń optycznych, gdy różne założenia nie są w stanie utrzymać (np. Prosty drążek wydaje się wygięty po umieszczeniu w wodzie), algorytmy wnioskowania przyczynowego podlegają "złudzeniom wnioskowania przyczynowego", gdy założenia są naruszone w określony sposób. Te algorytmy wnioskowania przyczynowego i ogólnie algorytmy uczenia maszynowego nie wydają się w tym momencie różnić od standardowych przypadków wnioskowania indukcyjnego: Żadne wnioskowanie indukcyjne nie może mieć żadnych gwarancji niezawodności bez różnych założeń dotyczących świata. Jeśli te założenia są spełnione, algorytmy działają; jeśli zostaną naruszone, nie ma żadnego konkretnego uzasadnienia, aby wierzyć w wewnętrzną strukturę wyników algorytmu. Jednak założenia algorytmów wnioskowania przyczynowego są czasami twierdzone, że są różne, ponieważ wydaje się, że możemy jedynie przetestować, czy założenia są rzeczywiście spełnione, mając taką samą wiedzę przyczynową, której próbujemy się nauczyć . Argument ten nie koncentruje się na czystej możliwości, że założenia mogą być fałszywe, ponieważ istnieje ryzyko, że wszelkie wnioskowanie indukcyjne musi się odbyć. Ta troska nie dotyczy także praktycznej testowalności założeń algorytmów; wnioskowanie indukcyjne - czy to ludzkie, czy maszynowe - nieuchronnie pociąga za sobą założenia, które w danym momencie mogą być praktycznie niemożliwe do przetestowania. Może być potrzebne na przykład rząd wielkości więcej danych niż obecnie. Jeśli założenia można w zasadzie przetestować, wówczas (w pewnym sensie) można ustalić, czy algorytmy są wiarygodne w takiej sytuacji, a więc mieć uzasadnienie, aby traktować wyuczony model w realistyczny sposób. Podstawowym zmartwieniem jest to, że założenia nie są co do zasady testowalne, ponieważ wydaje się, że jedynym sposobem na sprawdzenie, które testy statystyczne są istotne, jest znajomość podstawowej struktury przyczynowej, ale właśnie to powinien znaleźć algorytm wnioskowania przyczynowego . Algorytmy te mogą (argument jest kontynuowany) czasami znaleźć przybliżenia do prawdziwej struktury przyczynowej, ale tylko przypadkowo. Założenia mogą być prawdziwe w każdej konkretnej sytuacji, ale nie można tego wiedzieć, a więc nie ma uzasadnienia do tego ,że algorytm wyprowadza jako cokolwiek innego niż przedstawienie danych obserwowanych lub eksperymentalnych. Algorytmy mogą wytworzyć użyteczną "skróconą" wersję danych, którą można wykorzystać na różne sposoby, ale nie można (przy tym argumencie) uczyć się niczego merytorycznego na temat podstawowej struktury świata. Ten potencjalny problem nie jest do nich ograniczony, choć głównie dotyczy algorytmów wnioskowania przyczynowego. Na przykład wiele algorytmów grupowania jest niezawodnych tylko wtedy, gdy można przyjąć pewne założenia dotyczące grup bazowych. Trzeba więc być w stanie zbadać grupy, aby ustalić, czy mają one te właściwości, ale wymagałoby to wcześniejszej znajomości grup, co wyeliminowałoby potrzebę korzystania z algorytmu klastrowania. Metody uczenia maszynowego mają wyraźnie mniejszą wartość, jeśli zawsze muszą być interpretowane w sposób instrumentalistyczny. Teorie instrumentalistyczne - te, które przewidują zachowanie systemu bez dokonywania żadnych zobowiązania do podstawowej struktury lub ontologii teorii - są użyteczne na wiele sposobów, ale często pragnie się czegoś więcej niż zwykłego przewidywania. Przede wszystkim trzeba mieć informacje o mechanizmach leżących u ich podstaw, aby móc dokładnie przewidzieć, co się stanie, gdy system się zepsuje lub zmieni na różne sposoby; teorie instrumentalistyczne nie dostarczają takich informacji. Istnieją trzy naturalne odpowiedzi na ten sprzeciw. Po pierwsze, uważne zbadanie założeń często ujawnia, że wiedza wymagana do ich przetestowania jest słabsza niż sugeruje to powierzchowne założenie założenia. W szczególnym przypadku algorytmów wnioskowania przyczynowego trzeba mieć pewien rodzaj wiedzy przyczynowej w celu przetestowania założeń, ale niezbędna wiedza to nie to samo, co znajomość poszukiwanej struktury przyczynowej. Na przykład, być może trzeba wiedzieć, że określona populacja jest "przyczynowo jednorodna" (tj. Wszystkie osoby mają takie same relacje przyczynowe, choć niekoniecznie te same wartości zmiennych). Ta wiedza wymaga wiedzy przyczynowej, ale niekoniecznie o przyczynach lub skutkach tej konkretnej zmiennej. Druga pokrewna odpowiedź zauważa, że argument określa testowalność założeń jako "wszystko albo nic":
Wie się dokładnie, co jest wymagane do przetestowania założenia (choć można tego nie przetestować), albo w ogóle nic. Bardziej realistyczną charakterystyką sytuacji jest to, że często zna się niektóre, ale nie wszystkie testy założenia, a także szereg możliwych dróg przyszłych testów. Można mieć również powody, by sądzić, że niedokładnie przetestowano to założenie. Jeśli ten rodzaj ograniczonej wiedzy jest ograniczony, wówczas można mieć ograniczone potwierdzenie założenia, uznając jednocześnie, że dane wyjściowe algorytmu należy interpretować lub akceptować w ograniczony sposób. Można sprzeciwić się wielu metodom uczenia maszynowego na tej podstawie, że wymagają one pewnych silnych, nie do końca ustalonych właściwości, ale nie należy odrzucać wyników tych metod po prostu dlatego, że w pewnym momencie nie ma pewności, czy dokładna właściwość się utrzymuje. Trzecią i najbardziej ogólną odpowiedzią na tę rodzinę zastrzeżeń jest zauważenie, że schemat argumentów faktycznie przemawia przeciwko większości metod indukcyjnych, a nie tylko wnioskowaniu przyczynowemu; sprzeciwia się uczeniu maszynowemu, a nie uczeniu maszynowemu. Rozważ konkretny wniosek indukcyjny: "Wszystkie elektrony mają ładunek ujemny". Każda metoda, która przypuszcza ten wniosek, musi przyjąć pewne założenia dotyczące świata, na przykład, że elektrony tworzą spójny, stabilny zestaw pod względem posiadania pewnego ładunku elektrycznego. Takie założenie można przetestować jedynie poprzez rzeczywiste określenie ładunków elektrycznych wszystkich elektronów, ale takie testy wyeliminowałyby potrzebę wnioskowania o wnioski indukcyjne. Zauważ, że w tym przykładzie nie wspomniano o metodach maszynowych, ani nie podano specyfikacji poza "metodą indukcyjną". Problem znajomości warunków potwierdzających przyjęcie metody jest ogólny, który przemawia przeciwko prawie wszystkim indukcyjnym metodom wnioskowania, a nie konkretnie metodom uczenia maszynowego. Rzadko można z góry poznać wszystkie warunki potwierdzenia lub testowania dla założeń, które są wymagane dla określonej metody wnioskowania w celu zapewnienia wiarygodnych informacji o strukturze wewnętrznej lub uniwersalnej.
Wniosek
Metody uczenia maszynowego są często traktowane z pewnym podejrzeniem. Często są przedstawiane jako "czarne skrzynki", które pobierają dane i bez żadnych wskazówek w jakiś sposób uczą się części prawdziwej struktury świata. Algorytmy te są w praktyce o wiele mniej tajemnicze: etykieta "automatycznych statystyk" jest często trafnym deskryptorem. Metody uczenia maszynowego odkrywają i wykorzystują relacje strukturalne między danymi, a to wnioskowanie strukturalne stanowi podstawę zarówno mocnych, jak i słabych stron algorytmów uczenia maszynowego. Metody te mogą być stosowane w sposób stosunkowo ogólny, ponieważ konkretne znaczenie zmiennych nie ma znaczenia dla funkcjonowania algorytmu. Z powodu tej ogólności nie mogą one jednak dostarczać informacji specyficznych dla domeny, takich jak mechanizmy leżące u podstaw relacji informacyjnych. Uczenie maszynowe jest jednym z najszybciej rozwijających się obszarów informatyki, a wiele spośród najważniejszych wyzwań dotyczy rozszerzenia algorytmów na nowe typy danych, nowe modele lub słabsze założenia. Istnieją obawy filozoficzne dotyczące uczenia maszynowego, ale większość z nich dotyczy części "maszynowej" lub "uczenia się". Z jednej strony uczenie maszynowe jest przykładem złożonego obliczenia maszynowego, dlatego pojawiają się naturalne pytania o to, czy jakiekolwiek operacje maszynowe można poprawnie opisać za pomocą terminów poznawczych. Z drugiej strony algorytmy uczenia maszynowego wykonują złożone, ale jasno określone sekwencje obliczeń, dlatego powstają pytania, czy metody kwalifikują się jako "uczenie się", czy też założenia niezbędne do wnioskowania indukcyjnego można odpowiednio przetestować. Podsumowując, metody uczenia maszynowego otworzyły nowe możliwości uczenia się o strukturze i zachowaniu naszego świata. Algorytmy te należy oczywiście stosować z odpowiednią świadomością i testowaniem podstawowych założeń. Jednak przy właściwym zastosowaniu uczenie maszynowe może wykorzystywać strukturę w danych, aby uzyskać cenną wiedzę na temat struktury i relacji na świecie.