Mail:





Słowniczek Sztucznej Inteligencji





Sztuczna Inteligencja : Gry


•  Wprowadzenie

•  Gry AI

•  Ruch

•  Znalezienie drogi

•  Podejmowanie decyzji

•  Taktyczna i strategiczna AI

•  Uczenie się

•  Proceduralne generowanie treści

•  Gry planszowe

•  Zarządzanie wykonaniem

•  Interfejs ze światem

•  Narzędzia i tworzenie treści

•  Programowanie gry AI

•  Projektowanie gry AI

•  Gatunki gier opartych na sztucznej inteligencji



A.I. dla Nie-Techników



•  Część 1 - Podstawy sztucznej inteligencji
•  Część 2 - Dane
•  Część 3 - Uczenie maszynowe
•  Część 4 - Głębokie uczenie
•  Część 5 - Robotic Process Automation
•  Część 6 - Przetwarzanie języka naturalnego (NLP)
•  Część 7 - Roboty fizyczne
•  Część 8 - Wdrażanie sztucznej inteligencji
•  Część 9 - Przyszłość sztucznej inteligencji





Sztuczna Inteligencja i Robotyka

• Co to są inteligentne roboty?

• Krótka historia robotyki

• Automatyzacja i autonomia

• Autonomia organizacji oprogramowania

• Telesystemy

• Zachowania

• Postrzeganie i zachowania

• Koordynacja behawioralna

• Lokomocja

• Czujniki i wykrywanie

• Wykrywanie zasięgu

• Warstwa deliberatywna

• Nawigacja

• Planowanie ścieżek metrycznych i planowanie ruchu

• Lokalizacja, mapowanie i eksploracja

• Uczenie się

• Funkcjonalność interaktywna

• Interakcja Człowiek-Robot

• Projektowanie i ocena systemów autonomicznych

• Etyka




Sztuczna inteligencja: podstawy i zastosowania

Część 1: Sztuczna inteligencja i nanotechnologia: superkonwergencja

Część 2: Sztuczna inteligencja w handlu elektronicznym: analiza procesów biznesowych

Część 3: ABC ery cyfrowej ze szczególnym odniesieniem do sektora bankowego

Część 4: Sztuczna inteligencja w predykcyjnej analizie ubezpieczeń i bankowości

Część 5: Sztuczna inteligencja w robotyce i automatyzacji.

Część 6: Sztuczna inteligencja: nowe podejście w opiece zdrowotnej

Część 7: Sztuczna inteligencja i spersonalizowane leki: Wspólna narracja o postępach w opiece medycznej

Część 8: Nanotechnologia i sztuczna inteligencja w medycynie precyzyjnej w onkologii

Część 9: Zastosowania sztucznej inteligencji w recepturach farmaceutycznych i leków

Część 10: Rola sztucznej inteligencji w diagnozowaniu gruźlicy

Część 11: Zastosowania sztucznej inteligencji w wykrywaniu i leczeniu COVID-19

Część 12: Sztuczna inteligencja oparta na Internecie rzeczy przy użyciu platformy Microsoft Azure

Część 13: Równoważenie obciążenia w bezprzewodowej sieci heterogenicznej za pomocą sztucznej inteligencji

Część 14: Zastosowania technik sztucznej inteligencji w systemach elektroenergetycznych

Część 15: Wpływ sztucznej inteligencji w sektorze lotniczym i kosmicznym

Część 16: Sztuczna inteligencja do prognozowania pogody

Część 17: Górnictwo molekularne: zastosowania w naukach farmaceutycznych




A.I. … i wszystko jasne




Wprowadzenie do Języka R




Język R … od słów do czynów !!!



 + Kody Źródłowe




A.I.: Jaka jest nasza Przyszłość?

[101 Prostych Pytań]




VIDEO



  Hipoteza Riemanna

 Pogadać z Maszyną 1

 Pogadać z Maszyną 2

 Pogadać z Maszyną 3

 Pogadać z Maszyną 4

 Wywiad z maszyną !

 Co słyszy Sztuczna Inteligencja?

 Komputer Kwantowy

 Świadomość Maszyn

 Sztuczna Inteligencja - Szansa czy Zagrożenie?

 This is AI 1

 This is AI 2 : How machines learn

 This is AI 3 : Learnig for life

 This is AI 4: A synthetic sixth sense




Bogowie Sztucznej Inteligencji






SŁOWNIK TERMINÓW ROBOTYCZNYCH




Anatomia Robota

  • Systemy Sterowania
  • Sprzęt Komputerowy
  • Niezawodność, Bezpieczeństwo i Zgodność
  • Kroki Projektowe: HLD
  • Energia i systemy zasilania
  • Kontrola Energii
  • DSP
  • Komunikacja
  • Silniki i Siłowniki
  • Mechanika



  • Artificial Intelligence




    Jak A.I. zmienia nasz świat




    Mity Sztucznej Inteligencji




    Króka Historia A.I.




    Fundamenty


    • Prolog

    • Wprowadzenie do A.I.

    • Definiowanie roli danych

    • Biorąc pod uwagę alogorytmy

    • Pionierski ,specjalistyczny sprzęt

    • Zastosowanie AI w aplikacjach komputerowych

    • Automatyzacja typowych procesów

    • Zastosowanie AI w medycynie

    • A.I. a poprawa interakcji

    • Analiza danych przez A.I.

    • Wykorzystanie machine learning

    • Poprawa A.I. (…)

    • Rozwój robotów

    • Latanie dronami

    • Samochód napędzany A.I.

    • Zroumieć aplikacje bez szans

    • AI w Kosmosie

    • Nowe zawody w erze A.I.

    •  X zawodów dla A.I.(?)

    • Wkład A.I. w społeczeństwo

    • Jak zawiodła A.I.




    "Ocieplamy" Fundamenty


    • Intuicyjna koncepcja sztucznej inteligencji

    • Podstawy wyszukiwania

    • Inteligentne wyszukiwanie

    • Algorytmy Ewolucyjne

    • Zaawansowane podejście ewolucyjne

    • Inteligencja Roju: Mrówki

    • Inteligencja roju: Cząstki

    • Uczenie maszynowe

    • Sztuczne sieci neuronowe

    •  Uczenie się ze wzmocnieniem za pomocą Q-Learning




    XVI Filarów Świątyni ArtInt′a


    • Korzenie i Zakres

    • Reprezentacja i wyszukiwanie

    • Struktury i strategie wyszukiwania

    • Wyszukiwanie Heurystyczne

    • Metody Stochastyczne

    • Budowanie algorytmów sterowania

    • Reprezentacja Wiedzy

    • Silna metoda rozwiązywanie problemów

    • Rozumowanie w niepewnych sytuacjach

    •  Uczenie maszynowe : oparte na symbolach

    • Uczenie maszynowe : koneksjonizm

    • Uczenie maszynowe : genetyczne i awaryjne

    • Uczenie maszynowe : probabilistyczne

    • Automatyczne wnioskowanie

    • Rozumienie języka naturalnego

    • Sztuczna Inteligencja jako pytanie empiryczne




    Sztuczna Inteligencja i Big Data

    Sekcja 1 : Big Data i systemy sztucznej inteligencji

    Sekcja 2 : Ontologia dla dużych zbiorów danych

    Sekcja 3: Uczenie się z dużych zbiorów danych

    Sekcja 4:Sieci neuronowe dla dużych zbiorów danych

    Sekcja 5: Deep Big Data Analytics

    Sekcja 6: Przetwarzanie języka naturalnego

    Sekcja 7: Systemy rozmyte

    Sekcja 8: Programowanie genetyczne

    Sekcja 9: Analiza roju

    Sekcja 10: Uczenie się przez wzmocnienie

    Sekcja 11: Cyberbezpieczeństwo

    Sekcja 12: Obliczenia poznawcze












    Wczoraj , Dziś … Jutro














    Odwiedzin: 19834
    Dzisiaj: 12
    On-line: 1
    Strona istnieje: 1086 dni
    Ładowanie: 0.792 sek


    [ 5123 ]



    Sztuczna Inteligencja z Językiem NetLogo



    LINK



    Uważaj na lukę
    O co toczy się gra
    Głębokie uczenie i nie tylko
    Skoro komputery są tak inteligentne, dlaczego nie potrafią czytać?
    Gdzie jest Rosie?

    Wgląd w ludzki umysł

    Jaka magiczna sztuczka czyni nas inteligentnymi? Sztuczka polega na tym, że nie ma żadnej sztuczki. Siła inteligencji wynika z naszej ogromnej różnorodności, a nie z jednej, doskonałej zasady. - MARVIN MINSKI, TOWARZYSTWO UMYSŁU

    W 2013 roku napotkaliśmy szaleństwo mediów, które sprawiło, że zagotowała nam się krew. Dwóch badaczy, Alexander Wissner-Gross i Cameron Freer, napisali artykuł, w którym proponowali, że wszelkiego rodzaju inteligencja jest przejawem bardzo ogólnego procesu fizycznego zwanego "przyczynowymi siłami entropicznymi". W filmie Wissner-Gross twierdził, że system oparty na tym pomyśle może "chodzić prosto, używać narzędzi, współpracować, grać w gry, robić przydatne prezentacje społeczne, globalnie rozmieszczać flotę, a nawet zarabiać na handlu akcjami, a wszystko to bez bycia kazano to zrobić. Wraz z gazetą Wissner-Gross założył absurdalnie ambitną firmę startową o nazwie Entropica, która obiecywała "szerokie zastosowania" w opiece zdrowotnej, energetyce, wywiadzie, autonomicznej obronie, logistyce, transporcie, ubezpieczeniach i finansach. A media dały się nabrać. Według zwykle rozważnego pisarza naukowego Philipa Balla, Wissner-Gross i jego współautor "wymyślili "prawo", które umożliwia nieożywionym obiektom zachowywanie się w sposób, który w efekcie pozwala na przebłysk własnej przyszłości. Jeśli przestrzegają tego prawa, mogą wykazywać zachowanie przypominające niektóre rzeczy, które robią ludzie: na przykład współpracę lub używanie "narzędzi" do wykonania zadania". TED dał Wissner-Grossowi platformę do zaprezentowania swojego "nowego równania inteligencji. Ale ponad pół dekady później nie było innego artykułu na ten temat, który można znaleźć, i nie widać żadnych oznak, że matematyka entropii przyczynowej Wissner-Gross poczyniła jakiekolwiek postępy. Startowa firma Entropica nie wydaje się już aktywna, a Wissner-Gross wydaje się realizować inne projekty. Idee takie jak entropia przyczynowa od dawna uwodzą laików i naukowców, ponieważ przypominają nam fizykę: elegancką, matematyczną i przewidującą. Media kochają je, ponieważ wydają się klasycznymi Wielkimi Ideami: mocne stwierdzenia, które mogłyby zmienić nasz świat, potencjalne rozwiązania naprawdę złożonych problemów w jednym wygodnym pakiecie. Kto nie chciałby przerwać opowieści o kolejnej ogólnej teorii względności? To samo wydarzyło się prawie sto lat temu w psychologii, kiedy behawioryzm stał się wściekłością; Psycholog z Johns Hopkins University, John Watson, twierdził, że może wychować każde dziecko na wszystko, po prostu uważnie kontrolując otoczenie oraz kiedy i gdzie otrzymują nagrody i kary. Założenie było takie, że to, co zrobi organizm, będzie prostą matematyczną funkcją swojej historii. Im więcej jesteś nagradzany za zachowanie, tym większe prawdopodobieństwo, że to zrobisz; im więcej zostaniesz za to ukarany, tym mniej prawdopodobne. Pod koniec lat pięćdziesiątych wydziały psychologii większości amerykańskich uniwersytetów były wypełnione psychologami prowadzącymi staranne, ilościowe eksperymenty badające zachowania szczurów i gołębi, próbujące wszystko narysować na wykresach i wywołać precyzyjne, matematyczne prawa przyczynowe. Dwie dekady później behawioryzm prawie zniknął, zmiażdżony przez Noama Chomsky'ego z powodów, które omówimy za chwilę. To, co zadziałało na szczury (w ograniczonym zestawie eksperymentów), nigdy nie pomogło tak bardzo w badaniu ludzi. Nagroda i kara mają znaczenie, ale wiele innych też ma znaczenie. Problem, jak mówią kognitywiści z Yale, Chaz Firestone i Brian Scholl, polega na tym, że "nie ma jednego sposobu, w jaki działa umysł, ponieważ umysł nie jest jedną rzeczą. Zamiast tego umysł składa się z części, a różne części umysłu działają na różne sposoby: widzenie koloru działa inaczej niż planowanie wakacji, które działa inaczej niż rozumienie zdania, poruszanie kończyną, przypominanie sobie faktu lub odczuwanie emocji. " Żadne równanie nigdy nie odda różnorodności tego, co potrafią ludzkie umysły. Komputery nie muszą działać w taki sam sposób jak ludzie. Nie muszą popełniać wielu błędów poznawczych, które osłabiają ludzką myśl, takich jak błąd potwierdzenia (ignorowanie danych, które są sprzeczne z twoimi wcześniejszymi teoriami) lub odzwierciedlać wiele ograniczeń ludzkiego umysłu, takich jak trudności, z jakimi mieć w pamięci listę ponad około siedmiu pozycji. Nie ma powodu, aby maszyny wykonywały obliczenia w sposób podatny na błędy, tak jak robią to ludzie. Ludzie mają wiele wad, a maszyny nie muszą dziedziczyć tych samych ograniczeń. Niemniej jednak wiele można się nauczyć z tego, jak działają ludzkie umysły - które wciąż znacznie przewyższają maszyny, jeśli chodzi o czytanie i elastyczne myślenie. Tutaj oferujemy jedenaście wskazówek zaczerpniętych z nauk kognitywnych - psychologii, językoznawstwa i filozofii - które naszym zdaniem są kluczowe, jeśli sztuczna inteligencja ma kiedykolwiek stać się tak szeroka i solidna jak ludzka inteligencja.


    1. NIE MA SREBRNYCH POCISKÓW.

    Gdy tylko zaczęliśmy czytać o artykule Wissner-Gross i Freer na temat entropii przyczynowej, wiedzieliśmy, że jest zbyt obiecujący. Behawioryzm również próbował zrobić zbyt wiele; był zbyt elastyczny dla własnego dobra. Możesz wyjaśnić każde zachowanie, rzeczywiste lub urojone, w kategoriach historii nagrody zwierzęcia, a jeśli zwierzę zrobiło coś innego, po prostu podkreśliłbyś inną część tej historii. Było kilka prawdziwych, stanowczych przewidywań, po prostu mnóstwo narzędzi do "wyjaśniania" rzeczy po tym, jak się wydarzyły. Ostatecznie behawioryzm sformułował tylko jedno twierdzenie - prawdziwe i ważne, ale zbyt cienkie, by mogło być tak użyteczne, jak ludzie sobie wyobrażali. Twierdzono, że zwierzęta, w tym ludzie, lubią robić rzeczy, które otrzymują nagrody. To jest absolutnie prawdziwe; inne rzeczy są równe, ludzie wybiorą opcję, która prowadzi do większej nagrody. Ale to mówi nam zbyt mało o tym, jak, powiedzmy, dana osoba rozumie linię dialogową w filmie lub wymyśla, jak korzystać z blokady krzywkowej podczas montażu półki na książki z Ikei. Nagroda jest częścią systemu, ale nie jest systemem samym w sobie. Wissner-Gross po prostu przekształcił nagrodę; w jego ujęciu organizm wykonuje dobrą robotę, jeśli opiera się chaosowi (entropii) wszechświata. Nikt z nas nie chce zostać obrócony w proch i stawiamy opór, ale to wciąż mówi nam zbyt mało o tym, jak dokonujemy indywidualnych wyborów. Głębokie uczenie się w dużej mierze wpada w tę samą pułapkę, pozwalając świeżej matematyce (napisanej w języku, takim jak "terminy błędów" i "funkcje kosztów"), z perspektywy świata, która wciąż w dużej mierze polega na optymalizacji nagrody, bez zastanawiania się, co jeszcze musi się udać w system, aby osiągnąć to, co nazywamy głębokim zrozumieniem. Ale jeśli badania neuronauki czegoś nas nauczyły, to tego, że mózg jest niezwykle złożony, często opisywany jako najbardziej złożony system w znanym wszechświecie, i słusznie. Przeciętny ludzki mózg ma około 86 miliardów neuronów, setek, jeśli nie tysięcy różnych typów; biliony synaps; i setki odrębnych białek w każdej synapsie - ogromna złożoność na każdym poziomie. Istnieje również ponad 150 wyraźnie identyfikowalnych obszarów mózgu oraz rozległa i skomplikowana sieć połączeń między nimi. Jak ujął to pionierski neurobiolog Santiago Ramón y Cajal w swoim przemówieniu przed nagrodą Nobla w 1906 roku: "Niestety, natura wydaje się nieświadoma naszej intelektualnej potrzeby wygody i jedności, i bardzo często lubi komplikacje i różnorodność". Prawdziwie inteligentne i elastyczne systemy są prawdopodobnie pełne złożoności, podobnie jak mózgi. Każda teoria, która proponuje zredukowanie inteligencji do jednej zasady - lub jednego "głównego algorytmu" - z pewnością będzie szczekać na niewłaściwe drzewo.

    2. POZNANIE NA SZEROKO WYKORZYSTUJE OŚWIADCZENIA WEWNĘTRZNE.

    Tym, co naprawdę zabiło behawioryzm, bardziej niż cokolwiek innego, była recenzja książki napisana w 1959 roku przez Noama Chomsky′ego. Celem Chomsky′ego był Verbal Behavior, próba wyjaśnienia ludzkiego języka autorstwa B.F. Skinnera, wówczas jednego z czołowych psychologów na świecie. W istocie krytyka Chomsky′ego obracała się wokół pytania, czy ludzki język można rozumieć wyłącznie w kategoriach historii tego, co wydarzyło się w otaczającym ją środowisku zewnętrznym (co ludzie mówili i jakie reakcje odbierali), czy też ważne było zrozumienie wewnętrznej struktury psychicznej jednostki. W swoim podsumowaniu Chomsky mocno podkreślił ideę, że "rozpoznajemy nowy element jako zdanie, nie dlatego, że pasuje do jakiegoś znanego elementu w prosty sposób, ale dlatego, że jest generowany przez gramatykę, którą każda osoba w jakiś sposób i w jakiejś formie zinternalizowała. ". Tylko dzięki zrozumieniu tej wewnętrznej gramatyki, przekonywał Chomsky, będziemy mieli jakąkolwiek nadzieję na zrozumienie, w jaki sposób dziecko nauczyło się języka. Sama historia bodźców i reakcji nigdy by nas tam nie zaprowadziła. W jej miejsce pojawiła się nowa dziedzina, zwana psychologią poznawczą. Tam, gdzie behawioryzm próbował wyjaśnić zachowanie wyłącznie na podstawie historii nagrody zewnętrznej (bodziec i reakcja, które powinny przypominać o "nadzorowanym uczeniu się", które jest tak popularne w obecnych zastosowaniach uczenia głębokiego), psychologia poznawcza koncentrowała się głównie na reprezentacjach wewnętrznych, takich jak przekonania, pragnienia i cele. To, co wielokrotnie widzieliśmy w tej książce, jest konsekwencją uczenia maszynowego (w szczególności sieci neuronowych), próbującego przetrwać ze zbyt małą ilością reprezentacji. W ścisłym, technicznym sensie sieci neuronowe mają reprezentacje, takie jak zbiory liczb znane jako wektory, które reprezentują ich wejścia i wyjścia oraz jednostki ukryte, ale prawie całkowicie brakuje czegoś bogatszego. Nie ma na przykład żadnych bezpośrednich środków reprezentujących to, co psychologowie poznawczy nazywają twierdzeniami, które zazwyczaj opisują relacje między bytami. Na przykład w klasycznym systemie sztucznej inteligencji reprezentującym słynną wizytę prezydenta Johna F. Kennedy'ego w Berlinie w 1963 r. (kiedy powiedział "Ich bin ein Berliner"), można dodać zestaw faktów, takich jak PART-OF (BERLIN, NIEMCY), i ODWIEDZIŁ (KENNEDY, BERLIN, CZERWIEC 1963). Wiedza w klasycznej sztucznej inteligencji polega częściowo na akumulacji właśnie tego rodzaju reprezentacji, a wnioskowanie opiera się na tym podłożu; na tej podstawie banalne jest wnioskowanie, że Kennedy odwiedził Niemcy. Głębokie uczenie próbuje to ominąć za pomocą kilku wektorów, które wychwytują trochę tego, co się dzieje, w sposób przybliżony, ale które nigdy nie reprezentują bezpośrednio propozycji. Nie ma określonego sposobu reprezentowania ODWIEDZONYCH (KENNEDY, BERLIN, CZERWIEC 1963) lub CZĘŚCI (BERLIN, NIEMCY); wszystko jest tylko przybliżeniem. W dobry dzień typowy system głębokiego uczenia się może poprawnie wywnioskować, że Kennedy odwiedził Niemcy. Ale nie ma w tym wiarygodności. W zły dzień ten sam system głębokiego uczenia się może się pomylić i zamiast tego wywnioskować, że Kennedy odwiedził Niemcy Wschodnie (co oczywiście było całkowicie niemożliwe w 1963 roku) lub że jego brat Robert odwiedził Bonn - ponieważ wszystkie te możliwości są w pobliżu względem siebie w tak zwanej przestrzeni wektorowej. Powodem, dla którego nie możesz liczyć na głębokie uczenie się w zakresie wnioskowania i wnioskowania abstrakcyjnego, jest to, że nie jest ono nastawione przede wszystkim na reprezentowanie dokładnej wiedzy faktograficznej. Gdy twoje fakty są niejasne, naprawdę trudno jest prawidłowo rozumować. Brak wyraźnych reprezentacji powoduje podobne problemy w systemie gier DeepMind na Atari. Jego niepowodzenie w Breakout - kiedy wiosło jest przesunięte o kilka pikseli - jest ściśle związane z faktem, że tak naprawdę nigdy nie dochodzi do reprezentowania abstrakcji, takich jak wiosła, piłki i ściany. A bez takich reprezentacji trudno zbudować model poznawczy w dobrej wierze. A bez bogatego modelu poznawczego nie może być solidności. Prawie wszystko, co możesz zamiast tego mieć, to dużo danych, wraz z nadzieją, że nowe rzeczy nie będą się zbytnio różnić od tych, które pojawiły się wcześniej. Ale ta nadzieja jest często chybiona, a kiedy nowe rzeczy są wystarczająco różne od tego, co wydarzyło się wcześniej, system się załamuje. Jeśli chodzi o budowanie skutecznych systemów dla złożonych problemów, bogate reprezentacje często okazują się koniecznością. To nie przypadek, że kiedy DeepMind chciał zbudować system, który mógłby faktycznie grać w Go na ludzkim (lub nadludzkim) poziomie, porzucili podejście "ucz się tylko z pikseli", które stosowali we wcześniejszych pracach nad grami na Atari, i zaczęli od szczegółowej reprezentacji planszy Go i zasad Go, wraz z ręcznie robioną maszynerią do reprezentowania i wyszukiwania drzewa ruchów i kontrataków. Jak ujął to ekspert od uczenia maszynowego z Brown University, Stuart Geman: "Podstawowe wyzwania w modelowaniu neuronowym dotyczą raczej reprezentacji niż uczenia się jako takiego".


    3. Abstrakcja i generalizacja odgrywają zasadniczą rolę w poznaniu.

    Wiele z tego, co wiemy, jest dość abstrakcyjne. Na przykład relacja "X jest siostrą Y" zachodzi między wieloma różnymi parami ludzi: Malia Obama jest siostrą Sashy Obamy, księżniczka Anna jest siostrą księcia Karola i tak dalej; nie tylko wiemy, że konkretna para ludzi jest siostrami, wiemy, czym są siostry w ogóle, i możemy zastosować tę wiedzę do poszczególnych osób. Wiemy na przykład, że jeśli dwie osoby mają tych samych rodziców, są rodzeństwem. Jeśli wiemy, że Laura Ingalls Wilder była córką Charlesa i Caroline Ingalls, a potem dowiadujemy się, że Mary Ingalls była również ich córką, możemy wnioskować, że Mary była siostrą Laury. Możemy również wywnioskować, że jest bardzo prawdopodobne, że Mary i Laura były znajome, ponieważ większość ludzi zna swoje rodzeństwo; że prawdopodobnie mają pewne podobieństwo rodzinne i pewne wspólne cechy genetyczne; i tak dalej. Reprezentacje leżące u podstaw zarówno modeli poznawczych, jak i zdrowego rozsądku są zbudowane na fundamencie bogatego zbioru takich abstrakcyjnych relacji, połączonych w złożone struktury. Rzeczywiście, ludzie mogą abstrahować prawie wszystko: fragmenty czasu ("22:35"), fragmenty przestrzeni ("Biegun Północny"), konkretne wydarzenia ("zabójstwo Abrahama Lincolna"), organizacje społeczno-polityczne ("Departament Stanu USA", "ciemna sieć"), cechy ("piękno", "zmęczenie"), relacje ("siostrzeństwo", "szach-mat"), teorie ("marksizm") i konstrukcje teoretyczne ("grawitacja", "składnia ").To właśnie ta płynność w wymyślaniu i rozszerzaniu nowych koncepcji i uogólnień, często opartych na niewielkiej ilości danych wejściowych, jest tym, do czego powinna dążyć sztuczna inteligencja.


    4. SYSTEMY POZNAWCZE SĄ WYSOCE ZBUDOWANE

    W bestsellerowej książce Thinking, Fast and Slow noblista Daniel Kahneman dzieli proces poznawczy człowieka na dwie kategorie, System 1 i System 2. System 1 (szybkie) procesy zachodzą szybko, często automatycznie. Ludzki umysł po prostu je wykonuje; nie masz pojęcia, jak to robisz. Kiedy patrzysz na świat, natychmiast rozumiesz scenę przed tobą, a kiedy słyszysz mowę w swoim ojczystym języku, natychmiast rozumiesz, co zostało powiedziane. Nie możesz tego kontrolować i nie masz pojęcia, jak robi to twój umysł; w rzeczywistości nie ma świadomości, że twój umysł w ogóle pracuje. Procesy systemu 2 (powolne) wymagają świadomego myślenia krok po kroku. Kiedy System 2 jest włączony, masz świadomość myślenia: na przykład układanie puzzli, rozwiązywanie problemu matematycznego lub powolne czytanie w języku, którego się obecnie uczysz, gdzie musisz sprawdzać co trzecie słowo. Preferujemy terminy refleksyjny i deliberatywny dla tych dwóch systemów, ponieważ są one bardziej mnemoniczne, ale tak czy inaczej, jasne jest, że ludzie używają różnych rodzajów poznania do różnych rodzajów problemów. Pionier sztucznej inteligencji Marvin Minsky posunął się tak daleko, że argumentował, że powinniśmy postrzegać ludzkie poznanie jako "społeczeństwo umysłu" z dziesiątkami lub setkami odrębnych "agentów", z których każdy specjalizuje się w różnych rodzajach zadań. Na przykład wypicie filiżanki herbaty wymaga współdziałania ŚRODKA TRZPIENIOWEGO, ŚRODKA WYRÓWNUJĄCEGO, ŚRODKA PRAGNIENIA i pewnej liczby ŚRODKÓW RUCHU. Idee inteligencji wielorakiej Howarda Gardnera i triarchiczna teoria inteligencji Roberta Sternberga wskazują ten sam szeroki kierunek, podobnie jak wiele pracy w psychologii ewolucyjnej i rozwojowej; umysł to nie jedna rzecz, ale wiele. Neuronauka rysuje jeszcze bardziej złożony obraz, w którym setki różnych obszarów mózgu, z których każdy ma swoją własną, odrębną funkcję, łączy się w różne wzorce, aby wykonać dowolne obliczenia. Chociaż stary fakt, że używamy tylko 10 procent mózgu, nie jest prawdziwy, prawdą jest, że aktywność mózgu jest kosztowna metabolicznie i rzadko, jeśli w ogóle, używamy całego mózgu naraz. Zamiast tego wszystko, co robimy, wymaga innego podzbioru zasobów naszego mózgu i w danym momencie niektóre obszary mózgu będą bezczynne, podczas gdy inne będą aktywne. Kora potyliczna jest aktywna w zakresie widzenia, móżdżek w koordynacji ruchowej i tak dalej. Mózg jest wysoce ustrukturyzowanym urządzeniem, a duża część naszej sprawności umysłowej pochodzi z używania właściwych narzędzi neuronowych we właściwym czasie. Możemy oczekiwać, że prawdziwa sztuczna inteligencja będzie prawdopodobnie również wysoce ustrukturyzowana, a duża część ich mocy będzie pochodzić ze zdolności do wykorzystania tej struktury we właściwy sposób we właściwym czasie, dla danego wyzwania poznawczego. Jak na ironię, to prawie przeciwieństwo obecnego trendu. W uczeniu maszynowym istnieje obecnie tendencja do modeli typu end-to-end, które wykorzystują pojedynczy jednorodny mechanizm o jak najmniejszej strukturze wewnętrznej. Przykładem jest model jazdy Nvidii z 2016 roku, w którym zrezygnowano z klasycznych podziałów modułów, takich jak percepcja, przewidywanie i podejmowanie decyzji. Zamiast tego wykorzystał pojedynczą, stosunkowo jednolitą sieć neuronową, która unikała zwykłych wewnętrznych podziałów pracy na rzecz uczenia się bardziej bezpośrednich korelacji między danymi wejściowymi (piksele) a jednym zestawem danych wyjściowych (instrukcje dotyczące sterowania i przyspieszania). Fani tego typu rzeczy wskazują na zalety "wspólnego" trenowania całego systemu, zamiast konieczności trenowania kilku modułów (do percepcji, przewidywania itp.) osobno. Na pewnym poziomie takie systemy są koncepcyjnie prostsze; nie trzeba wymyślać oddzielnych algorytmów percepcji, przewidywania i całej reszty. Co więcej, na pierwszy rzut oka model wydawał się działać dobrze, o czym świadczył imponujący film. Po co zawracać sobie głowę systemami hybrydowymi, które traktują percepcję, podejmowanie decyzji i predykcję jako osobne moduły, skoro o wiele łatwiej jest mieć tylko jedną dużą sieć i odpowiedni zestaw treningowy? Problem polega na tym, że takie systemy rzadko mają niezbędną elastyczność. System Nvidii działał dobrze przez wiele godzin, nie wymagając dużej interwencji ze strony ludzkich kierowców, ale nie tysiące godzin (jak bardziej modułowy system Waymo). I podczas gdy system Waymo mógł nawigować z punktu A do punktu B i radzić sobie z takimi rzeczami, jak zmiany pasa, wszystko, co Nvidia mógł zrobić, to trzymać się pasa; ważne, ale tylko niewielka część tego, co wiąże się z jazdą. (Te systemy są również trudniejsze do debugowania, co omówimy później.) Kiedy najlepsi badacze sztucznej inteligencji chcą rozwiązywać złożone problemy, często używają systemów hybrydowych i spodziewamy się, że będzie to coraz częstsze. DeepMind był w stanie rozwiązywać gry na Atari (do pewnego stopnia) bez systemu hybrydowego, trenując od końca do końca od pikseli i wyniku gry po działania joysticka, ale nie mógł uzyskać podobnego podejścia do pracy w Go, co jest pod wieloma względami większe. bardziej złożone niż niskorozdzielcze gry na Atari z lat 70. i 80. XX wieku. Jest na przykład znacznie więcej możliwych pozycji w grze, a akcje mogą mieć znacznie bardziej zawiłe konsekwencje w Go. Żegnaj czyste systemy end-to-end, witaj hybrydy. Osiągnięcie zwycięstwa w Go wymagało połączenia dwóch różnych podejść: głębokiego uczenia i drugiej techniki, znanej jako Monte Carlo Tree Search, do próbkowania możliwości wśród rozgałęzionego drzewa możliwych sposobów kontynuowania gry. Wyszukiwanie drzewa Monte Carlo samo w sobie jest hybrydą dwóch innych pomysłów, które pochodzą z lat 50. XX wieku: wyszukiwanie drzewa gry, podręcznikowa technika sztucznej inteligencji do patrzenia w przyszłość przez możliwe przyszłe ruchy graczy oraz wyszukiwanie Monte Carlo, powszechna metoda uruchamiania wielu losowych symulacje i statystyki wyników. Żaden system sam w sobie - głębokie uczenie lub wyszukiwanie drzew metodą Monte Carlo - nie dałby mistrza świata. Lekcja z tego jest taka, że sztuczna inteligencja, podobnie jak umysł, musi być ustrukturyzowana, z różnymi rodzajami narzędzi do różnych aspektów złożonych problemów.


    5. NAWET POZORNIE PROSTE ASPEKTY POZNANIA CZASAMI WYMAGAJĄ WIELU NARZĘDZI.

    Nawet w drobnoziarnistej skali mechanizm poznawczy często okazuje się składać nie z jednego mechanizmu, ale z wielu. Weźmy czasowniki i ich formy czasu przeszłego, przyziemny system, który Steven Pinker nazwał kiedyś muszkami owocowymi lingwistyki: proste "organizmy modelowe", od których można się wiele nauczyć. W języku angielskim i wielu innych językach niektóre czasowniki tworzą swój czas przeszły regularnie, za pomocą prostej zasady (spacer-walked, talk-talked, perambulate-perambulated), podczas gdy inne tworzą swój czas przeszły nieregularnie (sing-sang, ring-rang). , przyniósł, gowent). Część pracy doktorskiej Gary'ego z Pinkerem skupiała się na błędach nadmiernej regulacji dzieci (w których czasownik nieregularny jest odmieniany tak, jakby był czasownikiem regularnym, takim jak breaked and goed). Na podstawie przeanalizowanych danych argumentowali za modelem hybrydowym, odrobiną struktury na poziomie mikro, w której czasowniki regularne były uogólniane przez reguły (podobnie jak w programach komputerowych i klasycznej sztucznej inteligencji), podczas gdy czasowniki nieregularne były produkowane za pośrednictwem sieci stowarzyszeń (które zasadniczo były poprzednicy głębokiego uczenia się). Te dwa różne systemy współistnieją i uzupełniają się; nieregularni wykorzystują pamięć, stali bywalcy uogólniają nawet wtedy, gdy dostępnych jest kilka bezpośrednio istotnych fragmentów danych. Podobnie umysł zajmuje się pojęciami na wiele różnych sposobów; częściowo według definicji, częściowo według typowych cech, częściowo według kluczowych przykładów. Często śledzimy jednocześnie, co jest typowe dla kategorii i co musi być z nią prawdą, aby spełniała jakieś kryteria formalne. Babcia Tina Turner tańczyła w minispódniczkach. Może nie wyglądała jak typowa babcia, ale spełniała kryteria relacyjne dobrze: miała dzieci, a te z kolei miały dzieci. Kluczowym wyzwaniem dla sztucznej inteligencji jest znalezienie porównywalnej równowagi między mechanizmami, które wychwytują abstrakcyjne prawdy (większość ssaków rodzi młode) a mechanizmami, które radzą sobie z trudnym światem wyjątków (dziobak składa jaja). Inteligencja ogólna będzie wymagać obu mechanizmów, takich jak głębokie uczenie do rozpoznawania obrazów i maszyn do obsługi rozumowania i uogólniania, bliższych mechanizmom klasycznej sztucznej inteligencji oraz świata reguł i abstrakcji. Jak niedawno ujął to Demis Hassabis, "prawdziwa inteligencja to o wiele więcej niż tylko [rodzaj klasyfikacji percepcyjnej, w której celował głębokie uczenie się], trzeba ją ponownie połączyć w myślenie wyższego poziomu i rozumowanie symboliczne, wiele rzeczy, które klasyczna sztuczna inteligencja próbował sobie poradzić w latach 80.". Dotarcie do szerokiej inteligencji będzie wymagało od nas połączenia wielu różnych narzędzi, niektórych starych, niektórych nowych, w sposób, którego jeszcze nie odkryliśmy.


    6. LUDZKA MYŚL I JĘZYK SĄ KOMPOZYCYJNE.

    Istotą języka dla Chomsky′ego jest, wedle słów wcześniejszego językoznawcy, Wilhelma von Humboldta (1767-1835), "nieskończone użycie skończonych środków". Mając skończony mózg i skończoną ilość danych językowych, udaje nam się stworzyć gramatykę, która pozwala nam mówić i rozumieć nieskończony zakres zdań, w wielu przypadkach poprzez konstruowanie większych zdań (takich jak to) z mniejszych elementów, takich jak pojedyncze słowa i zwroty. Jeśli możemy powiedzieć, że marynarz kochał dziewczynę, możemy użyć tego zdania jako elementu składowego w większym zdaniu (Maria wyobrażała sobie, że marynarz kocha dziewczynę), które może posłużyć jako element składowy w jeszcze większym zdaniu (Chris napisał esej o tym, jak Maria wyobrażała sobie, że marynarz kocha dziewczynę) i tak dalej, z których każdy z łatwością możemy zinterpretować. Na przeciwległym biegunie znajduje się pionierski badacz sieci neuronowych Geoff Hinton, w takim samym stopniu lider w swoim świecie, jak Chomsky w lingwistyce. Ostatnio Hinton argumentował za tym, co nazywa "wektorami myśli". Wektor to po prostu ciąg liczb, takich jak [40,7128 ° N, 74,0060 ° W], co jest długością i szerokością geograficzną Nowego Jorku, lub [52 419, 663 268,… 24 230, 97 914], które są obszarami w milach kwadratowych stanów USA w porządku alfabetycznym. W systemach głębokiego uczenia każde wejście i każde wyjście można opisać jako wektor, przy czym każdy "neuron" w sieci wnosi jedną liczbę do odpowiedniego wektora. W rezultacie ludzie w świecie uczenia maszynowego przez wiele lat próbowali kodować słowa jako wektory, z założeniem, że każde dwa słowa o podobnym znaczeniu powinny być zakodowane za pomocą podobnych wektorów. Jeśli kot jest zakodowany jako [0, 1, -0,3, 0,3], być może pies będzie zakodowany jako [0, 1, -0,35, 0,25]. Technika o nazwie Word2Vec, opracowana przez Ilyę Sutskevera i Tomasa Mikolova, gdy pracowali w Google, umożliwiła komputerom wydajne i szybkie tworzenie wektorów słów tego rodzaju, z których każdy składał się z kilkuset liczb rzeczywistych, opartych na innych słowach, które pojawia się obok niego w tekstach. W pewnych kontekstach technika działa dobrze. Weźmy słowo saksofon. W dużym zbiorze pisanego języka angielskiego saksofon występuje w pobliżu słów takich jak gra i muzyka oraz nazwisk takich jak John Coltrane i Kenny G. W dużej bazie danych statystyki saksofonu są zbliżone do statystyk trąbki i klarnetu, a dalekie od statystyk windy. i ubezpieczenia. Wyszukiwarki mogą używać tej techniki (lub jej niewielkich odmian) do identyfikowania synonimów; wyszukiwanie produktów na Amazon również stało się znacznie lepsze dzięki takim technikom. Tym, co naprawdę uczyniło Word2Vec sławnym, było odkrycie, że wydaje się działać na analogie werbalne, tak jak mężczyzna jest dla kobiety, jak król dla _ Jeśli zsumujesz liczby reprezentujące króla i kobietę i odejmiesz liczby ze słowa mężczyzna, a następnie poszukasz najbliższego wektora, presto, otrzymasz odpowiedź królowa, bez żadnej wyraźnej reprezentacji nigdzie tego, czym jest król lub co kobieta jest. Tam, gdzie tradycyjni badacze sztucznej inteligencji spędzili lata, próbując zdefiniować te pojęcia, Word2Vec najwyraźniej przeciął węzeł gordyjski. Opierając się częściowo na takich wynikach, Hinton starał się uogólnić tę ideę. Zamiast przedstawiać zdania i myśli w postaci złożonych drzew, które słabo współdziałają z sieciami neuronowymi, dlaczego nie przedstawiać myśli jako wektorów? "Jeśli weźmiemy wektor Paryża, odejmiemy wektor Francji i dodamy Włochy, dostaniemy Rzym" - powiedział Hinton The Guardian. "To dość niezwykłe". Podobne techniki, jak wskazał Hinton, leżą u podstaw ostatnich postępów Google w tłumaczeniu maszynowym; dlaczego nie przedstawić w ten sposób wszystkich myśli? Ponieważ zdania różnią się od słów. Możesz przybliżyć znaczenie słowa, biorąc pod uwagę, w jaki sposób jest ono używane w wielu różnych okolicznościach; znaczenie kota jest przynajmniej trochę podobne do średniej wszystkich zastosowań kota, które słyszałeś wcześniej, lub (bardziej technicznie) jak chmura punktów w przestrzeni wektorowej, której używa system głębokiego uczenia się do jej reprezentacji. Ale każde zdanie jest inne; John jest łatwy do zadowolenia, nie jest aż tak podobny do Johna, który jest chętny do zadowolenia, chociaż litery w dwóch zdaniach nie różnią się tak bardzo. A John jest łatwy do zadowolenia, bardzo różni się od Johna, który nie jest łatwy do zadowolenia; dodanie jednego słowa może całkowicie zmienić jego znaczenie. Pomysły i zniuansowane relacje między nimi są po prostu zbyt skomplikowane, aby je uchwycić przez proste zgrupowanie zdań, które pozornie wydają się podobne. Możemy odróżnić wyrażenie książka, która jest na stole od wyrażenia stół, który leży na książce, a także wyrażenie książka, której nie ma na stole, i każde z nich ze zdania Geoffrey wie, że Fred nie ma nie przejmuj się książką, która jest na stole, ale bardzo zależy mu na dużej i osobliwej rzeźbie ryby, na której obecnie stoi stół, zwłaszcza że stół jest przechylony po prawej stronie i w każdej chwili może się przewrócić. Każde z tych zdań można bez końca mnożyć, każde z odrębnymi znaczeniami; w każdym przypadku całość dość różni się od średnich statystycznych jej części. Właśnie z tego powodu lingwiści zazwyczaj przedstawiają język za pomocą rozgałęzionych diagramów zwanych drzewami (zwykle rysowanych z korzeniem u góry). W tych ramach każdy składnik zdania ma swoje miejsce i łatwo jest odróżnić jedno zdanie od drugiego i określić relacje między tymi elementami, nawet jeśli dwa zdania mają większość lub wszystkie słowa. Pracując bez tak wysoce ustrukturyzowanych reprezentacji zdań, systemy głębokiego uczenia mają tendencję do wpadania w kłopoty w radzeniu sobie z subtelnościami. Na przykład "analizator nastrojów" oparty na głębokim uczeniu się to system, który próbuje klasyfikować, czy zdania są pozytywne, czy negatywne. Z technicznego punktu widzenia, każde zdanie jest przekształcane w wektor, a zakłada się, że zdania pozytywne ("Uwielbiam!") będą reprezentowane przez jeden zestaw wektorów, które są do siebie podobne ("zgrupuj razem"), a zdania przeczące ("Nienawidzę tego!") Będzie reprezentowany przez inny zestaw wektorów, które grupują się w oddzielny klaster. Kiedy pojawia się nowe zdanie, system zasadniczo ustala, czy jest bliższy zbiorowi wektorów dodatnich, czy zbiorowi wektorów ujemnych. Wiele zdań wejściowych jest oczywistych i poprawnie sklasyfikowanych, ale często gubi się subtelne rozróżnienia. Takie systemy nie potrafią odróżnić, powiedzmy, "Kochałem, dopóki go nie nienawidziłem" (negatywna recenzja o filmie, który się nie udał) i "Nienawidziłem, dopóki go nie pokochałem" (bardziej pozytywna recenzja o filmie, który zaczyna się powoli przed wykupieniem się), ponieważ nie analizują struktura zdania pod względem tego, jak odnosi się do jego części składowych - i, krytycznie, nie rozumieją, w jaki sposób znaczenie zdania wywodzi się z jego części. Morał jest taki: statystyki często przybliżają znaczenie, ale nigdy nie oddają rzeczywistości. Jeśli nie potrafią precyzyjnie uchwycić pojedynczych słów, z pewnością nie będą w stanie uchwycić złożonych myśli (lub opisujących je zdań) z odpowiednią precyzją. Jak powiedział kiedyś Ray Mooney, lingwista komputerowy z University of Texas w Austin, bluźnierczo, ale nie całkiem nieprecyzyjnie: "Nie można wkuwać znaczenia całego pieprzonego zdania w jeden pieprzony wektor!" To po prostu za dużo słoów. Pracując bez tak wysoce ustrukturyzowanych reprezentacji zdań, systemy głębokiego uczenia mają tendencję do wpadania w kłopoty w radzeniu sobie z subtelnościami. Na przykład "analizator nastrojów" oparty na głębokim uczeniu się to system, który próbuje klasyfikować, czy zdania są pozytywne, czy negatywne. Z technicznego punktu widzenia, każde zdanie jest przekształcane w wektor, a zakłada się, że zdania pozytywne ("Uwielbiam!") będą reprezentowane przez jeden zestaw wektorów, które są do siebie podobne ("zgrupuj razem"), a zdania przeczące ("Nienawidzę tego!") Będzie reprezentowany przez inny zestaw wektorów, które grupują się w oddzielny klaster. Kiedy pojawia się nowe zdanie, system zasadniczo ustala, czy jest bliższy zbiorowi wektorów dodatnich, czy zbiorowi wektorów ujemnych. Wiele zdań wejściowych jest oczywistych i poprawnie sklasyfikowanych, ale często gubi się subtelne rozróżnienia. Takie systemy nie potrafią odróżnić, powiedzmy, "Kochałem, dopóki go nie nienawidziłem" (negatywna recenzja o filmie, który się nie udał) i "Nienawidziłem, dopóki go nie pokochałem" (bardziej pozytywna recenzja o filmie, który zaczyna się powoli przed wykupieniem się), ponieważ nie analizują struktury zdania pod kątem tego, jak odnosi się ona do jego części składowych - i, krytycznie, nie rozumieją, w jaki sposób znaczenie zdania wywodzi się z jego części. Morał jest taki: statystyki często przybliżają znaczenie, ale nigdy nie oddają rzeczywistości. Jeśli nie potrafią precyzyjnie uchwycić pojedynczych słów, z pewnością nie będą w stanie uchwycić złożonych myśli (lub opisujących je zdań) z odpowiednią precyzją. Jak raz ujął to Ray Mooney, lingwista komputerowy z University of Texas w Austin, bluźnierczo, ale nie całkiem nieprecyzyjnie: "Nie można wcisnąć znaczenia całego pieprzonego zdania w jeden pieprzony wektor!" Prosić o zbyt wiele.




    c.d.n.




    "Czy wiesz, jak było?": Historia AI

    Ile i jaki rodzaj sztucznej inteligencji może znieść człowiek?

    Nauka, którą uprawia się dzisiaj, jest magicznym lustrem, w które musimy zajrzeć, jeśli chcemy ujrzeć przebłysk tego, co ma nadejść.       (Y. Gasset)


    Jak działa sztuczna inteligencja?: Techniki sztucznej inteligencji

    Technologia może nie oszczędza nam czasu, ale inaczej go rozdziela. - Helmar Nahr

    Świat w trybie "włączony"/"wyłączony": logika formalna

    Sztuczna inteligencja jest technicznie ograniczona do chwytania i "przetwarzania" rzeczywistego świata tylko w dwóch stanach, a mianowicie "włączony" lub "wyłączony" lub binarny z "0" lub "1". Niektórzy naukowcy wątpią, czy jest to w ogóle możliwe. Na przykład publicysta Morozow pyta krytycznie: "Ale czy prawda jest funkcją binarną? Może tak być - jeśli ktoś arogancko zakłada, że jego wartości i interesy są jedynymi "słusznymi" wartościami i interesami. Myślenie technokratyczne traktuje pluralizm jako wroga, a nie sojusznika - lub mówiąc językiem geeków: błąd, a nie cechę". Ralf Otte ma osobistą odpowiedź na to pytanie: nie, natura nie jest "zmechanizowana". Odwołuje się przy tym do fundamentalnej krytyki fizyka Penrose′a, który uważa, że sztuczna inteligencja nie jest warta swojej nazwy, ponieważ w przeciwieństwie do ludzkiej inteligencji jest tylko algorytmiczna. W rzeczywistości algorytmy nadal są dziś narzędziem formalizacji adekwatnej do komputera, jak zostanie to pokazane w następnej sekcji. Jednak bardzo wczesne próby rozwijania języków formalnych lub symbolicznych. W "Organonie", zestawieniu swoich najważniejszych pism z zakresu filozofii języka, logiki i filozofii nauki, Arystoteles pokazuje już język formalny dla logiki zdań z IV wieku p.n.e., który jest używany do dziś. W swoim dziele "Ars magna" majorkański filozof Ramon Llull (łac. Raimundus Lullus), próbuje sformalizować prawdy z różnych dziedzin wiedzy za pomocą kombinacji liter i symboli już pod koniec XIV wieku. "Lingua universalis" Leibnitza jest już także językiem symbolicznym, który przypisuje pewne znaki rzeczom i ustala między tymi znakami określone relacje. Od lat 60-tych kognitywistyka stara się realizować zdolności poznawcze w maszynach w oparciu o założenie, że mózg jest systemem przetwarzającym informacje i działa w zasadzie jak komputer - bez wątpienia ogromne wyzwanie. Jeśli weźmiemy pod uwagę, że liczba dziesiętna 10 w systemie binarnym jest reprezentowana jako "1010", ale już liczba dziesiętna 100 w systemie binarnym jest reprezentowana jako "1100,100", a romantyczne zdanie "Kocham cię" trzeźwo przekształca się w "01001001 01100011 01101000 00100000 01101100 01101001 01100101 01100010 01100101 00100000 01100100 01101001 01100011 01101000" według kodu ASCII można sobie wyobrazić nieskończone ciągi liczb, które skutkują nawet operacjonalizacją błahych problemów. Z drugiej jednak strony układ Xavier firmy Nvidia wykonał już 30-35 bilionów operacji arytmetycznych na sekundę. Sunway TaihuLight w Wuxi już w 2019 r. wykonuje 125 petaflopów (125 000 000 000 000 obliczeń na sekundę). z pewnością będzie jeszcze kilka flopów (operacji zmiennoprzecinkowych na sekundę). Sformalizowanie lub zdigitalizowanie naszego wieloaspektowego wszechświata w sposób przyjazny dla komputera wymaga wyrafinowanej logiki i złożonych technik, które można opisać tylko w takim stopniu, w jakim osoby zajmujące się sztuczną inteligencją mogą przynajmniej odgadnąć wyzwania stojące przed "twórcami sztucznej inteligencji". Zacznijmy od podstaw wszelkiej cyfryzacji: algorytmów.


    Algorytmy

    Termin "algorytm" prawdopodobnie nie pochodzi od greckiego "álgiros" (bolesny), ale prawdopodobnie pochodzi od arabskiego uczonego Abu Dscha′far Muhammada ibn Musa al-Chwārizmī (zlatynizowanego algorytmu), który w IX wieku napisał podręcznik do matematyki . Definicja tego egzotycznego terminu jest rozczarowująco prosta: "Algorytmy to - mówiąc obrazowo - reguły przetwarzania zorientowane na rozwiązanie, które mają na celu rozwiązanie określonego zadania lub problemu". Lub, jak Volland ujął to w przyjemny sposób: "Algorytm to przede wszystkim nic technicznego. Jest to termin używany do opisania wszelkich jednoznacznych instrukcji rozwiązywania problemów - nawet przepisy kulinarne czy zasady ruchu drogowego to proste algorytmy". Oczywiście "proste algorytmy" nie rozwiązują większości problemów, z którymi boryka się sztuczna inteligencja. Ale fakt pozostaje faktem: bez względu na to, jak złożone jest zadanie, algorytm(y) użyty(e) tworzą tylko ciągi binarne 0 i 1 podczas implementacji. Dotyczy to również tak zwanych "algorytmów genetycznych", które krok po kroku podchodzą do optymalnego rozwiązania problemu zgodnie z zasadą ewolucji w procesie symulacji. Mike Müller i Dennis Freese piszą: "Algorytmy genetyczne to heurystyczne metody optymalizacji. Oznacza to, że zwykle potrzeba zbyt wiele wysiłku, aby uzyskać optymalne rozwiązania, a zatem przyjmuje się założenia (heurystyki), aby pomóc w znalezieniu rozwiązania. Zwykle optymalizowane są tylko parametry równania, wzoru lub innej danej formy podejścia do rozwiązania strukturalnego. Dlatego są stosowane tam, gdzie problem nie jest dobrze zrozumiany lub ich rozwiązanie nie jest możliwe do rozwiązania ze względów obliczeniowych i matematycznych." Dotyczy to szczególnie głębokiego uczenia się. Jeśli to wszystko brzmi dla ciebie zbyt teoretycznie, pozwolę sobie zacytować publicystę Gernota Brauera: "Czym więc tak naprawdę są algorytmy? Jak powiedziałem, są to programy rozwiązujące zadania matematyczne. Można je jednak powiązać - jak to często się robi - z siłownikami, czyli urządzeniami, które przekazują cyfrowe decyzje do świata fizycznego i wyzwalają działanie w zależności od sygnałów algorytmu, np. w motoryzacji podczas kierowania, przyspieszania lub hamowania samochodów bez udziału człowieka kierowcy w zależności od tego, co czujniki obliczają na temat swojego otoczenia." Lub mówiąc bardziej zwięźle, algorytm jest instrukcją działania, która ma przynieść użyteczne wyniki dane poprzez przetwarzanie danych wejściowych. Donald Ervin "Don" Knuth, czołowy znawca algorytmów, rozróżnia algorytmy "podstawowe", "półnumeryczne", "kombinatoryczne" i "syntaktyczne". Podstawowe algorytmy to podstawowe problemy programistyczne, takie jak algorytmy zachłanne, które wykorzystują heurystykę do generowania szybkich, nie zawsze optymalnych rozwiązań, lub algorytmy grafowe, które rozwiązują "twierdzenie o kolejce" lub "problem podróżującego sprzedawcy". Algorytmy półnumeryczne są mieszanką metod numerycznych i analitycznych lub algebraicznych, stosowanych np. w systemach algebry komputerowej (np. do graficznego zilustrowania funkcji i danych w dwóch lub trzech wymiarach). Algorytmy kombinatoryczne to złożone formuły reprezentujące struktury trójwymiarowe, a algorytmy składniowe są używane w programowaniu neurolingwistycznym lub rozpoznawaniu mowy. W celu klasyfikacji ontologii algorytmów Katharina Zweig wprowadza aspekt etyczny i grupuje wszystkie algorytmiczne systemy podejmowania decyzji pod pojęciem "algoskop" "podejmujące decyzje o ludziach, zasobach, które mają wpływ na ludzi, oraz te decyzje, które zmieniają możliwości partycypacji społecznej ludzi ". Zakończmy wizją Pedro Domingosa o uczącym się "głównym algorytmie", którego wynalezienie umożliwiłoby ludzkości usiąść i zrelaksować się, ponieważ tak wyposażona maszyna ucząca przejmowałaby wszystkie zadania niezależnie. wymagają potężnej sztucznej inteligencji, której jeszcze nie widać.


    Logika zdań/przyczynowość

    W ostatniej sekcji dowiedzieliśmy się, że algorytmy stanowią podstawę sztucznej inteligencji. Procedury logiczne nadają się do modelowania sekwencji instrukcji. Zanim przejdziemy do najważniejszych z nich, najpierw przedstawimy, w podstawowej formie, kilka centralnych symboli i podstawowych pojęć, które są używane w standardowych logikach, takich jak logika zdań i predykatów:

    •  Wartości logiczne: prawda = 1; fałsz = 0
    •  Koniunkcja = A i B (znak wzoru: ⋀ = spójnik) ) A ⋀ B
    •  Dysjunkcja = A lub B (symbol wzoru: ⋁ = alternatywa)) A ⋁ B
    •  Wykluczenie = nie A lub nie B (symbol wzoru: ¬ = negator) ) ¬ A lub ¬ B
    •  Implikacja = jeśli A, to B (symbol wzoru: → = implicator)
    •  Równoważność = A jest równa B (znak wzoru: ⟷ = tautologia)

    Terminy te wyjaśniono poniżej:

    Spójnik to zdanie złożone z dwóch zdań, które twierdzi, że oba zdania częściowe są prawdziwe. Przykład: Stwierdzenie A: 4 jest podzielne przez 2; Zdanie B: 4 to liczba kwadratowa. Oba są prawdziwe, więc A ? B jest prawdziwe (mówi się: A i B). Niewyłączna alternatywa (zwana także dodatkiem) to zdanie złożone, które potwierdza, że przynajmniej jedno z jego zdań częściowych jest prawdziwe. Dysjunkcja w tym sensie nazywana jest również niewyłącznym lub. To, że "co najmniej" jedno zdanie podrzędne jest prawdziwe, oznacza naturalnie, że wszystkie zdania podrzędne mogą być prawdziwe. Zatem stwierdzenie jest fałszywe tylko wtedy, gdy A i B są fałszywe. Wykluczająca alternatywa (zwana również kontrawalencją) stwierdza, że tylko jedno z dwóch zdań jest prawdziwe (albo… albo). Wykluczająca alternatywa jest zatem fałszywa, jeśli albo obydwa zawarte w niej stwierdzenia są fałszywe, albo jeśli obydwa oświadczenia są prawdziwe. Aby różnica była jasna, poniżej przedstawiono dwie tabele prawdy.

    Niewyłączna alternatywa:



    Z wyłączeniem alternatywy



    Wykluczenie (zwane również kreską Sheffera "?" lub NAND = "nie i") jest negacją spójnika. Łączne stwierdzenie dwóch zdań połączonych kreską Sheffera jest prawdziwe, jeśli co najmniej jedno zdanie jest fałszywe, lub fałszywe, jeśli oba są prawdziwe. Wynikiem tego jest poniższa tabela prawdy:



    Implikacja materialna, zwana także warunkową lub podporządkowaniem, wyraża warunek dostateczny: mówi, że prawdziwość jednego zdania podrzędnego jest warunkiem wystarczającym prawdziwości drugiego zdania podrzędnego. Termin "równoważność" z pewnością nie wymaga wyjaśnień. Ale mam nadzieję, że wyrażenia logiczne przedstawione właśnie teoretycznie staną się nieco bardziej zrozumiałe dzięki poniższym wyjaśnieniom. W logice zdań każdemu twierdzeniu przypisywana jest wartość prawdy, a mianowicie 1 dla "prawdy" i 0 dla "fałszu" (zasada dwuwartościowości) i obowiązuje tradycyjna zasada epistemologiczna: "tertium non datur" (angielski: Prawo wykluczonego środka, LEM ), tj.: trzecia nie jest podana. Wynika więc z A (?stwierdzenie) v ? B (albo A albo nie A). W konkretnym przykładzie: "Ewa jest w ciąży (A) lub nie jest w ciąży (B)" - nie ma czegoś takiego jak "trochę w ciąży". W tym kontekście być może któryś z czytelników pamięta jeszcze biskupa Dybę z Fuldy, który wielokrotnie krzyczał: "Trochę katolika nie jest możliwe". Ale to nadal nie wyjaśnia, czy zdanie A ("Ewa jest w ciąży") otrzymuje wartość prawdy 1. Ale jeśli Ewa rzeczywiście jest w ciąży, wówczas alternatywa staje się nieważna i ? B zachowuje ważność. Najprostsze zdania, które nie mogą być dalej dekomponowane w ramach logiki zdań, nazywane są również atomowymi. Logika ta bada zdania, które charakteryzują się tym, że prawdziwość zdania złożonego z prostszych składników zależy tylko od prawdziwości zdań cząstkowych, a nie od ich treści. Czasami może to być dość mylące. Na przykład stwierdzenie "Kiedy konie latają, lód jest zimny". jest prawdziwe, ponieważ poprzednik jest prawdziwy, nawet jeśli poprzednik (Kiedy konie latają) jest wielkim nonsensem. Podobnie stwierdzenie "Kiedy konie latają, lód topnieje" jest prawdziwe, ponieważ zarówno poprzednik, jak i następnik są fałszywe. Z modus ponens lepszym modus ponendo ponens można wywnioskować inne zdanie z dwóch prawdziwych zdań. Przykład: Wszyscy ludzie są śmiertelni. Günter Cisek to człowiek. W konsekwencji Günter Cisek jest śmiertelny. Lub ogólnie mówiąc: jeśli zdanie a implikuje stwierdzenie b i a jest prawdziwe, to b jest również prawdziwe. To powinno wystarczyć do wyjaśnienia logiki zdań. Przejdźmy teraz do bezpośrednio powiązanej "logiki przyczynowej": Aby od razu wyjaśnić powszechne nieporozumienie - korelacje nie są przyczynowościami, jak zostanie wyjaśnione w rozdziale "Big Data". Przyczynowość nie polega na tym, że "jeśli . . ., to", ale "ponieważ . . ., to", tj. korelację można przypisać do przyczyny. Zatem zdarzenie A jest przyczyną zdarzenia B (B< A). Kontrfaktyczna implikacja zawiera również związek przyczynowy: "Gdyby Robert nie był moim synem, Mimi nie byłaby moją wnuczką". Zatem związek przyczynowy istnieje tylko wtedy, gdyby zdarzenie B (Mimi) nie zaszło, gdyby zdarzenie A (Robert) nie zaszło. Teraz, jeśli ciekawski czytelnik chce dowiedzieć się więcej o Mimi i Robercie, odpowiednią techniką do tego będzie logika predykatów, która zostanie scharakteryzowana w następnej sekcji.


    Logika predykatów

    Logika predykatów (również logika kwantyfikatora) to specjalna forma reprezentacji wiedzy, która jest często używana między innymi w językach programowania LISP i Prolog. W porównaniu z logiką zdań otwiera bardziej rozbudowane struktury symboliczne i odgrywa ważną rolę w koncepcji i programowaniu systemów ekspertowych. Logika predykatów została zasadniczo opracowana przez filozofa językowego Friedricha Ludwiga Gottloba Frege i Charlesa Sandersa Peirce′a z USA. Logika predykatów przypisuje właściwości (predykaty) do obiektów i używa "kwantyfikatorów". Kwantyfikatory wskazują, po ilu jednostkach dyskursowego wszechświata występuje zdanie ,że funkcja jest spełniona. Najczęstsze to

    •  Egzystencjalny kwantyfikator lub cząstka ∃ tj. "co najmniej jeden element (x) ma właściwość F" (∃xFx).
    •  wszech-kwantor lub uniwersalny kwantyfikator ∀, tj.: "wszystko/każdy element zbioru podstawowego (x1,2 …xn ma własność F" (∀xFx).

    Chcąc sformalizować zdanie "czerwona wiśnia" w logice predykatów, należałoby najpierw sformułować: "Istnieje przynajmniej jedna wiśnia (M jako właściwość x) i jest czerwona (R jako właściwość x) ".
    Symbolicznie otrzymujemy ∃(M(x) ∧ R(x)).
    Natomiast zdanie "Wszystkie wiśnie są czerwone" należy przeformułować na: "Jeśli to wiśnia, to jest czerwona".
    Formalizacja to: Πx (M*(x)→R*(x)).
    "Żadna wiśnia nie jest czerwona" formalizuje:
    (M(x) ∧ R(x)).
    •  M i R są odpowiednio predykatami i symbolami relacji. Są to przykłady logiki predykatów pierwszego poziomu. Wielopoziomowa logika predykatów służy do tworzenia klas, wykresów, schematów lub ramek. Oto przykład sformalizowania klasy (zwierząt) za pomocą podklas:



    Wykresy przedstawiają relacje między obiektami, znane na przykład z map myśli. Termin "schemat" został ukuty przez Frederica Charlesa Bartletta w psychologii poznawczej. Po doświadczeniach z grą "Silent Post" zbadał, w jaki sposób istniejąca wcześniejsza wiedza wpływa na postrzeganie i przechowywanie nowych informacji. Wyniki swoich badań doprowadziły go do przekonania, że pamięć jest rodzajem zbioru schematów, które wpływają na percepcję, a tym samym także na pamięć. Schemat jest zatem mentalną strukturą wiedzy, która zawiera informacje o określonym przedmiocie lub pojęciu w abstrakcyjnej, uogólnionej formie. Jeżeli np. schemat "myśliwy" jest aktywowany w odpowiedniku przez postrzeganą osobę noszącą kapelusz z zamszowej brody, zachowanie tej osoby jest następnie odpowiednio interpretowane na podstawie informacji zawartych w schemacie "myśliwy" w " odbiorca". Ten efekt nazywa się "asymilacją". Wizyta w restauracji jest często przytaczana jako przykład takiego zapamiętanego schematu: Zapamiętany proces przebiega według schematu: przeczytaj menu, złóż zamówienie, zjedz jedzenie, zapytaj o rachunek. Taki schemat restauracji kontroluje oczekiwania osoby, kieruje jej percepcją oraz kontroluje jej działania i interakcje. Terminy "ramki" i "skrypty" mają podobne znaczenie. Roger C. Schank i Robert P. Abelson wprowadzili termin "rama" dla obiektów i ich właściwości oraz termin "skrypt" dla działań. Skrypt jest więc strukturą, która opisuje odpowiednie sekwencje wydarzeń w określonych kontekstach. Jako przykład takiego scenariusza literatura podaje produkcję ciastek cynamonowych. Tutaj prostsza ramka jest pokazana w Tabeli poniżej . Podsumowując, logika predykatów jest rozszerzeniem logiki zdań. Może służyć do opisu właściwości poszczególnych obiektów i ich wzajemnych relacji na jednym lub kilku poziomach. Jest to zatem cenne narzędzie do reprezentacji wiedzy.




    Logika rozmyta

    Wiele decyzji w prawdziwym życiu należy podejmować w warunkach niepewności, a my, ludzie, radzimy sobie z tym każdego dnia. Komputer jednak odmawia przyjęcia takiej nieścisłości. W związku z tym opracowano logikę rozmytą lub fuzzinesslogic w rozpoznawaniu wzorców, aby precyzyjnie uchwycić niedokładności. Służy do modelowania tak zwanych "wyrażeń zabezpieczających", takich jak dość, silnie, gwałtownie, słabo lub bardzo matematycznie precyzyjnie. Odbywa się to poprzez podzielenie takiego "rozmytego" terminu, jak "dość szybko" na precyzyjne poziomy wartości, a tym samym umożliwienie jego obliczenia. Ale precyzja ma też swoje rozsądne granice. Na fakt, że precyzja przekraczająca pewien poziom nie jest uzasadniona, zwrócił uwagę twórca logiki rozmytej, matematyk Lotfi A. Zadeh z University of California Berkeley w 1973 roku w swojej "Principle of Incompatibility": "W takim samym stopniu, w jakim wzrasta złożoność systemu, maleje nasza zdolność do formułowania precyzyjnych i jednocześnie znaczących stwierdzeń na temat jego zachowania. Po przekroczeniu pewnego progu precyzja i znaczenie (trafność) stają się niemal wzajemnie wykluczającymi się właściwościami." Innym podejściem jest funkcja przynależności, która ma stopień przynależności elementu do zbioru definicji, gdzie wartość musi mieścić się w zakresie od 0 do 1. Tutaj stopień 1 oznacza pełne przynależność, a 0 oznacza brak przynależności. Tak więc w poniższym przykładzie niemowlę ma stopień przynależności 1 dla kategorii wiekowej "dzieciństwo", a autor ma stopień 0,8 dla kohorty "starość". Obliczenie tak dokładnej wartości ze zbioru rozmytego nazywa się "rozmyciem". W przypadku logiki rozmytej "niejasności" wyrażeń językowych przeciwstawia się zatem "rozmycie" wartości prawdy o stopień afiliacji, czyli uczynienie jej programowalnym. Te rozmyte zestawy mają bardzo praktyczne znaczenie. Mogą służyć do programowania reguł rozmytych dla tzw. "inteligentnych narzędzi", o czym szerzej omówimy w rozdziale "Przemysł 4.0". Reguły te zazwyczaj składają się z poprzednika, który określa sytuację rozmytą za pomocą wartości tolerancji oraz z następnika, który kończy z niej instrukcję. Konkretny przykład: elastyczność blachy stalowej zmienia się wraz z czasem jej przechowywania przed obróbką. Docisk zaciskarki jest zatem programowany w sposób zróżnicowany dla różnych czasów przechowywania (tutaj = ilości rozmyte). Innym praktycznym zastosowaniem logiki rozmytej jest użycie instrukcji prawdopodobieństwa, które może zaoszczędzić znaczne możliwości w programowaniu. Specjaliści mogą wybaczyć następujący laikowi szkic podejścia: na przykład istnieje około 6900 gatunków ptaków i wszystkie te ptaki potrafią latać z wyjątkiem pingwinów, strusi i kilku innych ptaków bezgrzebieniowych. Zatem prawdopodobieństwo, że ptak potrafi latać, wynosi ponad 99%. Teraz zamiast programować za każdym razem: Bird może latać, jeśli nie pingwin, udawać, że nie ma pingwinów i przypisywać wartość prawdy równą 1. Dla większości operacji nie będzie to stanowić problemu. Tylko w przypadku, gdy rzadko zdarzają się wyniki, które nie są wiarygodne, błąd jest wykrywany krok po kroku za pomocą tzw. "propagacji wstecznej" (? błędu wstecznej propagacji błędów), która zostanie omówiona bardziej szczegółowo w rozdziałach dotyczących nadzorowanego uczenia maszynowego. Obecnie logika rozmyta odgrywa ważną rolę w inżynierii sterowania, gdzie jest wykorzystywana w szczególności w inżynierii medycznej, rozrywkowej i motoryzacyjnej. Jest to forma tzw. "soft computing" w odróżnieniu od dokładnych metod numerycznych. Termin został wprowadzony przez Lotfi A. Zadeha, twórcę logiki rozmytej. To fragmentaryczny opis najważniejszych logik stosowanych w AI. Stanowią programowe podstawy uczenia maszynowego, którym poświęcone są kolejne sekcje.


    Ludzie sterują, maszyna myśli - uczenie maszynowe

    Uczenie maszynowe (ML) stało się główną techniką sztucznej inteligencji. ML oznacza "sztuczne" lub maszynowe generowanie wiedzy w oparciu o duże ilości danych. Istotne jest tutaj to, że algorytmy zorientowane na wyniki nie są już programowane przez ludzi; zamiast tego zadania są wykonywane przez uczenie maszynowe z danych wejściowych, w którym system rozpoznaje wzorce i prawidłowości oraz odpowiednio je analizuje i podejmuje decyzje w razie potrzeby. Algorytmy ML są skonstruowane w taki sposób, że stale poprawiają się w sposób "uczący się", gdy otrzymują dalsze dane, umożliwiając w ten sposób adaptację modelu. W tym momencie sztuczna inteligencja dochodzi do punktu, w którym ma przewagę nad ludzką inteligencją. Podczas gdy ludzki mózg ma trudności z rozpoznaniem znaczących wzorców dla więcej niż 7-8 zmiennych w obszernym zestawie danych, komputer radzi sobie z tym bez wysiłku dla setek zmiennych w krótkim czasie. W tym kontekście mówi się również o "automatyzacji inteligentnych zachowań". Istnieją różne rodzaje uczenia się i rozbieżne skupienie się na treściach systemów uczenia się, które zostaną wyjaśnione bardziej szczegółowo w następnych sekcjach.


    Nadzorowana nauka

    Termin "nadzorowane uczenie się" już wskazuje, że w tym przypadku użytkownik nadal kontroluje sytuację, ponieważ w dużej mierze odpowiada za proces analizy. Termin "uczenie się" jest w rzeczywistości trochę zbyt homoaffine i lepiej jest go zastąpić "treningiem" lub "wkuwaniem", ponieważ komputerowi jeszcze nie udaje się "przyswajać" uczenia się, jak to robi na przykład uczeń. Istotą nadzorowanego uczenia się jest to, że szkolenie odbywa się na podstawie znanych danych wejściowych i wyjściowych, dzięki czemu efekt uczenia się jest mierzalny. Rozwiązanie problemu już istnieje, a sztuczna inteligencja uczy się na tych przykładach. Porównanie między przewidywaną i rzeczywistą wartością wyjściową jest dozwolone podczas uczenia w celu stopniowego ulepszania modelu, a tym samym tworzenia lepszych prognoz. Warunkiem wstępnym procesu uczenia jest to, że twórca programu segmentuje zestaw uczący i zestaw testowy z dużej masy danych, na których komputer może zdefiniować i rozwiązać problem wiedzy. Zbiór danych jest określony przez złożoność "prawdziwej funkcji". Na przykład, jeśli istnieje wiele współzależności między zmiennymi wejściowymi, wymagana jest znacznie większa ilość danych niż w przypadku relacji jednowymiarowej. "Superwizjer" (ekspert) najpierw składa "właściwy" zestaw treningowy. Dane treningowe muszą być ustawione w taki sposób, aby odpowiadały tzw. "hipotezie" lub dwóm wybranym parametrom. Tak więc, jeśli algorytm uczenia ma doprowadzić do rozróżnienia kotów od psów, należy również dostarczyć obrazy kota i psa. Gdy algorytm uczący wykryje wzorce, te znalezione modele są przetwarzane na wyniki (wyjście) przez algorytm wnioskowania lub predykcyjny. Teraz następuje etap kontroli jakości, w którym dane testowe są analizowane za pomocą przetworzonego modelu. Dla zestawu danych testowych dostępne są prawidłowe wyniki ("podstawa prawdy"/"etykiety") bez wiedzy komputera. Odchylenie wyników komputera od rzeczywistych danych wskazuje na stopień dokładności modelu. Dodanie nowych lub innych parametry modelu analitycznego, który komputer stworzył na podstawie danych wejściowych, ta miara jakości może być poprawiona, jednak ten proces optymalizacji ma swoje ograniczenia, jeśli specyfikacja modelu zawiera zbyt wiele zmiennych objaśniających, tzw. "overfitting" występuje tak, że współczynnik determinacji predykcji lub współczynnik korelacji maleje. Tu może pomóc "brzytwa Ockhama", która próbuje dojść do wyniku za pomocą najprostszej teorii lub najprostszego drzewa decyzyjnego. Może to jednak również prowadzić do "niedopasowania". To wyjaśnia, jak ważne jest wstępne zdefiniowanie "rozsądnych cech" (cech) już w zestawie szkoleniowym, które wywodzą się z doświadczenia lub wiedzy eksperckiej i e dobre zmienne predykcyjne. Według Pedro Domingosa ta inżynieria funkcji jest najbardziej ekscytującym działaniem w procesie uczenia się. Należy również zadbać o to, aby ze zbioru uczącego wyeliminować tzw. "szum", czyli odfiltrować nieodpowiednie zbiory danych, takie jak wartości nieistotne, nieprawidłowe lub ekstremalne. W uczeniu nadzorowanym rozróżniamy dwa problemy związane z uczeniem się lub cele wynikowe: regresję i klasyfikację. W regresji model wykrywa korelacje między różnymi zmiennymi (np. typowa sprzedaż towarów w określone dni kalendarzowe). Należy w tym miejscu podkreślić, że ten proces uczenia się - i dotyczy to wszystkich typów uczenia maszynowego - wykrywa jedynie korelacje, a nie przyczyny (!). Stanowi to decydującą zmianę paradygmatu w badaniach. Autor, wciąż pod wpływem empirycznych badań społecznych ze szkoły kolońskiej, miałby pokusę, aby najpierw stworzyć dedukcyjnie wyprowadzoną hipotezę dla zbioru uczącego, aby zweryfikować jego "poprawność" na przebiegu danych lub sfalsyfikować go za pomocą hipotezy zerowej . Termin ten jest celowo umieszczony w cudzysłowie, ponieważ twierdzeń empirycznych nigdy nie można zweryfikować, a co najwyżej sfałszować. Jeśli przyczyny wyjaśniające nie odgrywają już roli, zaleca się, przynajmniej w przypadku zaskakujących korelacji, nawet jeśli są one istotne statystycznie, sprawdzenie zbioru uczącego, aby zobaczyć, czy przyczyną mogą być zmienne zewnętrzne. Modele regresji to linia regresji i drzewo regresji. Linia regresji pokazuje korelację między zmienną niezależną a zmienną docelową i wynika z minimalnej kwadratowej odległości punktów danych od linii trendu. Siła związku jest mierzona współczynnikiem korelacji między 0 a 1. Drzewo regresji jest binarnym drzewem decyzyjnym, w którym każdy "liść" (= koniec wykresu) przewiduje jednolitość liczbową. W klasyfikacji zbiory danych są w większości podzielone według cech jakościowych, takich jak wiadomości spamowe/niebędące spamem z filtrem Naive Bayes, gdzie charakterystyczne słowa danej wiadomości są wykorzystywane do wywnioskowania właściwości, które są niepożądane u odbiorcy. Ten przykład byłby "tylko" problemem klasyfikacji binarnej. Ale także wiele klas można posortować za pomocą nadzorowanego uczenia się przy użyciu drzew decyzyjnych lub metody wektora wsparcia. Takie drzewo decyzyjne zaczyna się od "węzła głównego" (np. samochód), z którego tzw. "krawędzie" prowadzą do "węzłów" (np. nowych lub starych), do których odpytywana jest właściwość obiektu. "Odpowiedź" węzła decyduje o kolejnym węźle (np. zdatny do ruchu lub niezdatny do ruchu drogowego). Ta procedura jest kontynuowana, dopóki nie dotrze się do liścia, przy którym podejmowana jest decyzja (np. Sprzedający lub niesprzedający). "Support Vector Machine" (SVM), która w rzeczywistości nie jest maszyną, ale oprogramowaniem, dzieli zbiór obiektów na klasy w taki sposób, że jak najszerszy obszar wokół granic klas pozostaje wolny od obiektów; jest to tak zwany klasyfikator dużej marży. Na przykład odmiany owoców i warzyw są sortowane według różnych poziomów jakości. Inną metodą rozpoznawania wzorców w uczeniu nadzorowanym jest algorytm K-Nearest Neighbor (KNN). Zgodnie z zasadą k-najbliższego sąsiada, przypisanie do klasy jest wykonywane z uwzględnieniem k-najbliższych sąsiadów. Nauka odbywa się poprzez zwykłe przechowywanie przykładów treningowych, co jest również nazywane leniwym uczeniem. Metoda ta jest używana głównie do oceny kredytowej, przewidywania wyborów i pisma ręcznego, rozpoznawania obrazów i wideo. Stopień skuteczności algorytmu uczenia się w klasyfikacji można zmierzyć za pomocą klasyfikatora Bayesa. Ten klasyfikator, który przypisuje każdy obiekt do klasy, do której należy z największym prawdopodobieństwem, jest obliczany dla zbioru testowego, a następnie porównywany z wynikiem zbioru uczącego. Odchylenia między dwoma zestawami są minimalizowane przez wsteczną propagację błędów. Fakt, że rozpoznawanie wzorców nie zawsze działa, został pokazany w 2015 roku w bardzo żenujący sposób dzięki nowej usłudze fotograficznej Google. Ważenie algorytmów sortowania doprowadziło do tego, że czarnoskóry programista Jack Alciné i jego dziewczyna, która również była czarna, zostali sklasyfikowani jako "goryle" w albumie fotograficznym. Na koniec należy zwrócić uwagę na "dylemat stronniczości i wariancji". W modelowaniu algorytmu uczenia trzeba się zmierzyć z niekompatybilnością prostoty i dokładności wyników. "Wariancja" odnosi się do stopnia odchylenia wyniku uczenia się pomiędzy różnymi zestawami treningowymi. Jeśli występuje duża wariancja, prawdopodobnie albo jednorodność danych nie jest wystarczająca do uzyskania użytecznych wyników uczenia się, albo cechy modelu przestrzeni wejściowej wymagają rozszerzenia. Kontrastuje to z "biasem", który wskazuje na błąd wynikający z uproszczenia modelu. Gdy między zmiennymi modelu istnieje liniowa funkcjonalność, uproszczenie "hipotezy" jest przydatne, ale gdy złożoność problemu w świecie rzeczywistym jest wysoka, uproszczenie nie daje użytecznych wyników. Innym wariantem "uczenia maszynowego" jest "uczenie bez nadzoru", którym zajmiemy się w następnym rozdziale.


    Nauka nienadzorowana

    W przeciwieństwie do uczenia nadzorowanego, uczenie nienadzorowane nie zna superwizora ani znanych z góry wartości docelowych. Ucząca się maszyna próbuje raczej rozpoznać wzorce w samych danych wejściowych. W związku z tym nie ma zestawu szkoleniowego i testowego. Przestrzeń wejściowa nie jest wstępnie sortowana, co znacznie upraszcza dostarczanie danych. Tak więc w nauce bez nadzoru system nie wie, co rozpoznać. Identyfikuje wzorce i dzieli dane na klastry lub kategorie, ale nie wiedząc, do jakich kategorii należą ani do jakiej etykiety należą. Algorytm poprawnie segmentuje koty od psów, na przykład bez treningu, ale bez nazywania ich w ten sposób. To już rozwiązuje najczęstszy problem w uczeniu się bez nadzoru, a mianowicie tak zwaną analizę skupień. Tutaj celem jest uporządkowanie zestawu punktów danych w określoną liczbę grup (tzw. klastrów). Zamiast odpowiadać na informacje zwrotne, analiza skupień autonomicznie identyfikuje podobieństwa w danych i reaguje na podstawie obecności lub braku takich podobieństw w każdym nowym fragmencie danych. Takie podejście pomaga również zidentyfikować anomalne punkty danych, które nie pasują do żadnej grupy. Uczenie się tutaj klasycznie odbywa się zgodnie z regułą Hebba. Już w 1949 roku psycholog Donald Olding Hebb udowodnił, że neurony mają wspólne synapsy i że obowiązuje zasada: Im częściej neuron A jest aktywny jednocześnie z neuronem B, tym bardziej preferencyjnie oba neurony będą na siebie reagować ("co odpala razem, przewody razem"). Oprócz analizy skupień, uczenie nienadzorowane rozwiązuje również kompresję danych w celu zmniejszenia wymiarowości. W tym przypadku podjęto próbę przedstawienia wielu wartości wejściowych w bardziej zwartej formie, przy jednoczesnym utracie jak najmniejszej ilości informacji. Na przykład analizę głównych składowych można rozumieć jako technikę kompresji, w której pomijane są najmniej ważne składniki danych. Jest to praktycznie odpowiednik liniowego autokodera. Jest to wielowarstwowa sztuczna sieć neuronowa, której wartościami docelowymi są wartości wejściowe, z ukrytą warstwą z mniejszą liczbą węzłów niż wartości wejściowe pełniące rolę "wąskiego gardła". Aktywacje tych neuronów to skompresowane dane, z których należy jak najlepiej zrekonstruować (zdekompresować) oryginalne dane. Atrakcyjną cechą uczenia się bez nadzoru jest to, że algorytm wyszukiwania może dawać zaskakujące wyniki. Przy dużych ilościach danych komputer wyraźnie przewyższa ludzki intelekt pod względem rozpoznawania wzorców. Rozpoznaje korelacje, które pozostają ukryte nawet przed ekspertami w swojej dziedzinie. Dobrze znanym tego przykładem jest zaskakujący przykład z badań nad rakiem. Tam nienadzorowane przebiegi danych dowiodły, że w celu przewidzenia przebiegu choroby nie tylko należy obserwować komórki chore, ale współdeterminantami są zdrowe komórki w sąsiedztwie raka. Uczenie nienadzorowane to ogólne "zrozumienie" dostępnych danych. To, co określa się mianem "odkrywania wiedzy", jest ostatecznie odkryciem ukrytych struktur lub relacji w danych. Istnieje oczywiście ryzyko, że jednostka, raz zaklasyfikowana do klastra, popadnie w "algorytmiczną klanowość". Problematyczne jest również to, że ścieżka rozwiązania w uczeniu bez nadzoru - jak sama nazwa wskazuje - jest niezrozumiała, ale proces wyszukiwania pozostaje "czarną skrzynką". Lub, jak ujął to brytyjsko-węgierski filozof Michael Polanyi w tzw. paradoksie Polanyi: "Wiemy więcej, niż możemy powiedzieć". Szczególną formą uczenia się nienadzorowanego jest uczenie konkurencyjne, "w którym poszczególne neurony specjalizują się w podzbiorach danych uczących". Rywalizacja podczas treningu może być "twarda", w której tylko jeden neuron jest aktywowany na każdy bodziec i zmienia swoją wagę (zwycięzca bierze wszystko) lub "miękka", dzięki czemu wagi kilku neuronów są dostosowywane na każdym etapie nauki (miękka konkurencja). Często używana tutaj funkcja meksykańskiego kapelusza, której wykres jest podobny do profilu meksykańskiego kapelusza, to krzywa "odzwierciedlająca stopień, w jakim wpływa na zmianę wagi". W trosce o kompletność należy tu wspomnieć o "uczeniu się częściowo nadzorowanym". Jak sugeruje termin, jest to skrzyżowanie uczenia nadzorowanego i nienadzorowanego. W częściowo nadzorowanym uczeniu się, niewielka ilość danych oznaczonych jest dostarczana z dużą ilością danych nieoznakowanych w przestrzeni wejściowej. Dzieje się tak, ponieważ zauważono, że dane nieoznakowane, użyte z niewielką ilością danych oznaczonych, mogą zapewnić znaczną poprawę dokładności uczenia się . Koszty związane z procesem etykietowania mogą sprawić, że w pełni oznakowany zestaw treningowy stanie się nieopłacalny, podczas gdy zbieranie danych nieoznaczonych jest stosunkowo niedrogie. W takich sytuacjach nauka częściowo nadzorowana może mieć wielką wartość praktyczną. Specjalną hybrydową formą uczenia maszynowego jest również tzw. "uczenie wzmacniające". Ze względu na duże znaczenie praktyczne poświęcono mu osobną sekcję.





    Od naturalnej głupoty do sztucznej inteligencji




    Wprowadzenie

    AI dla sprzedaży i marketingu

    Dlaczego sztuczna inteligencja w sprzedaży i marketingu


    Jednym z głównych celów marketerów jest znalezienie najlepszego sposobu na zaoferowanie odpowiedniego produktu właściwemu klientowi we właściwym czasie. Ale nawet przy stawce miliardów dolarów marketerzy cierpią z powodu różnych ograniczeń. Pierwszym był brak danych. Kiedy świat nie był tak połączony jak teraz, jedynym sposobem na uzyskanie odpowiedzi na pytania była rozmowa z ludźmi. Internet w dużej mierze rozwiązał ten problem: teraz łatwiej niż kiedykolwiek dotrzeć do szerokiego grona odbiorców, narazić ich na przesłanie i zmierzyć ich reakcję. Drugą stroną medalu jest to, że łatwo jest uzyskać dane, które są tak duże i szczegółowe, że ludzie nie są w stanie zrozumieć i wydobyć spostrzeżeń. Chcemy rozpocząć, dając ci mały wgląd w to, dlaczego sztuczna inteligencja wszystko zmienia. Każdy marketer wie, że nie wszyscy klienci są tacy sami i że najlepiej reagują, gdy angażują się w spersonalizowaną wiadomość. Powszechną strategią marketingową jest dzielenie klientów na segmenty według danych demograficznych lub podobnych aspektów. Prostym segmentem mogą być "zamożne kobiety w wieku od 25 do 30 lat, które wydają na rozrywkę ponad 1000 USD rocznie". Marketer może wymyślić niestandardową wiadomość, aby dotrzeć do tej kategorii ludzi, co różni się od tego, co zostanie zrobione dla innych segmentów. Chociaż ta technika jest tak stara jak rynek, to naprawdę było najlepsze, co mogliśmy zrobić, zanim sztuczna inteligencja pojawiła się na scenie. Problem z tym podejściem polega na tym, że bez względu na to, jak dokładna jest segmentacja (marketerzy mówią o mikrosegmentacji), zawsze dojdziesz do sytuacji, w której dwóch klientów będzie traktowanych dokładnie tak samo, nawet jeśli zasadniczo się różnią, tylko dlatego, że należą do tej samej kategorii. Istnieje ograniczenie liczby kategorii, którymi może zarządzać ludzki mózg. Pomyśl tylko, ilu Twoich znajomych ma na papierze cechy podobne do Ciebie (w tym samym wieku, sąsiedztwo, wykształcenie), ale ma zupełnie inne gusta. AI zmienia zasady gry, ponieważ może przetwarzać znacznie więcej informacji. Dzięki sztucznej inteligencji możesz osiągnąć personalizację na dużą skalę, ucząc się o ludziach na podstawie ich konkretnych działań i cech oraz kierując ich na to, kim naprawdę są, a nie na ręcznie wykonane wiadro, w które wpadają. Co dla firmy oznacza zdolność tak precyzyjnej personalizacji? Cóż, firmy specjalizujące się w sztucznej inteligencji na potrzeby marketingu mogą pokazać przykuwające wzrok wskaźniki, które byłyby marzeniem każdego marketera. Przykładem jest Amplero, amerykańska firma specjalizująca się w marketingu opartym na sztucznej inteligencji. Oto niektóre z wyników, które raportuje w swoich materiałach marketingowych:

    •  Pomogło to dużemu europejskiemu operatorowi telekomunikacyjnemu zwiększyć pierwsze 30-dniowe średnie przychody na użytkownika z 0,32% do 2,8%, co stanowi prawie 800% wzrost.
    •  Obniżyło koszt pozyskania klienta (CAC) jednego z pięciu największych północnoamerykańskich operatorów komórkowych o ponad 97%: z 40 USD na klienta do zaledwie 1 USD.
    •  Udało się ponownie dotrzeć do najbardziej niezadowolonych klientów dużego europejskiego operatora komórkowego na trzy tygodnie przed anulowaniem swoich planów, stworzyło bardziej znaczące wrażenia klientów w celu ponownego ich zaangażowania i zwiększyło współczynniki utrzymania z 2% do 10%.

    Te liczby nie mają na celu pochwalić się wynikami konkretnej firmy marketingowej. Znajdziesz wiele startupów i większych organizacji, które mogą osiągnąć podobne wyniki. Jeśli pomysł osiągnięcia tego rodzaju wyników w Twojej organizacji przyprawia Cię o gęsią skórkę, nie jesteś sam. Zobaczmy, jak można to zrobić możliwie. Marketing to złożona funkcja, więc zamiast wymieniać wszystkie możliwe zastosowania, skupimy się na trzech ogólnych problemach, które dotyczą większości firm:

    •  Określenie, którzy klienci prawdopodobnie opuszczą Twoją usługę (maselnica)
    •  Określenie, którzy klienci są skłonni kupić nową usługę (sprzedaż dodatkowa)
    •  Identyfikacja podobnych grup klientów (segmentacja klientów)


    Przewidywanie odchodzących klientów

    Jednym z najważniejszych wskaźników marketingowych jest odpływ klientów (znany również jako odpływ lub rotacja klientów ). Rezygnacja jest zdefiniowana jako odsetek klientów opuszczających firmę w określonym czasie. Czy nie byłoby wspaniale wiedzieć wcześniej, którzy klienci są najbardziej niezadowoleni i najprawdopodobniej porzucą produkt lub usługę w najbliższej przyszłości? Właśnie w ten sposób sztuczna inteligencja może pomóc Ci rozwiązać problem odpływu klientów: korzystając z uczenia maszynowego i zasobów danych organizacji, możemy znaleźć klientów, którzy z największym prawdopodobieństwem opuszczą Twoją usługę i dotrzeć do nich ze spersonalizowanymi wiadomościami, aby przyciągnąć ich zaangażowanie się ponownie. Następnie pokażemy, jak działa predyktor rezygnacji, dając Ci pewność, że zobaczysz możliwości dla tej aplikacji w Twojej organizacji. W tym problemie z uczeniem maszynowym mamy dwie klasy klientów: tych, którzy prawdopodobnie odejdą, i tych, którzy tego nie zrobią. Dlatego etykietą, którą nasz model ML będzie musiał nauczyć się przewidywać, jest to, czy klient należy do jednej klasy, czy do drugiej (załóżmy, że klienci, którzy mają zamiar odejść, należą do klasy 1, a pozostali należą do klasy 0). Na przykład firma telekomunikacyjna może oznaczyć "odszedłem" wszystkich klientów, którzy zrezygnowali z jej planu telefonicznego, a "nie odeszli" wszystkich pozostałych, którzy nadal korzystają z jego planu. Teraz, gdy zdefiniowaliśmy etykietę, którą nasz algorytm musi przewidzieć, przyjrzyjmy się, jakich funkcji możemy użyć. Pamiętaj, że cechy w problemie ML to parametry, na które model będzie zwracał uwagę, aby rozróżnić klasy. Może to być atrybut użytkownika (np. dane demograficzne) lub jego interakcja z Twoim produktem (np. liczba wejść na daną usługę w ciągu ostatniego miesiąca). To, co właśnie opisaliśmy, ma postać problemu nadzorowanego uczenia się: algorytm ML jest proszony o nauczenie się mapowania między zestawem cech (charakterystyka klienta) a etykietą (zrezygnowano/niezrezygnowano) na podstawie danych historycznych. Podsumujmy kroki niezbędne do rozwiązania tego problemu

    1. Zdefiniuj zadanie ML zaczynając od biznesowego (identyfikując klientów, którzy prawdopodobnie opuszczą naszą usługę).

    2. Wyraźnie zidentyfikuj etykietę: odrzucona lub niezmieniona.

    3. Zidentyfikuj cechy: elementy klienta, które mogą wpływać na prawdopodobieństwo odejścia. Możesz wymyślić możliwe przykłady, myśląc o tym, na co byś spojrzał, gdybyś musiał wykonywać tę pracę sam

    4. Wiek

    5. Jak długo klient korzystał z usługi?

    6. Pieniądze wydane na usługę

    7. Czas spędzony na korzystaniu z usługi w ciągu ostatnich dwóch miesięcy

    8. Zbierz dane historyczne odchodzących i aktywnych klientów.

    9. Trenuj model: model ML nauczy się przewidywać etykietę, biorąc pod uwagę cechy.

    10. Przeprowadź wnioskowanie: użyj modelu na nowych danych, aby określić, którzy z Twoich obecnych klientów prawdopodobnie odejdą.

    Zwróć uwagę, że etykieta musi zostać odnaleziona z mocą wsteczną, patrząc na przeszłe zapisy klientów. Rozważmy najpierw najłatwiejszą sytuację. Załóżmy, że masz model biznesowy oparty na subskrypcji, taki jak Netflix lub Spotify. Subskrypcje odnawiają się zwykle automatycznie, więc klienci muszą aktywnie podjąć działania w celu anulowania abonamentu: zadzwonić do obsługi klienta w przypadku firmy telefonicznej lub wejść na stronę i wyłączyć automatyczne odnawianie w przypadku Netflix lub Spotify. W takich sytuacjach znalezienie etykiety jest łatwe: nie ma wątpliwości, czy klient jest nadal na pokładzie, czy nie, a istnieje przejrzysta tabela bazy danych, która może dokładnie powiedzieć, kiedy to się stało. Inne modele biznesowe są bardziej złożone. Załóżmy, że jesteś kierownikiem marketingu supermarketu i używasz kart lojalnościowych do śledzenia klientów za każdym razem, gdy wchodzą i robią zakupy. Najprawdopodobniej klient, który znalazł lepszy supermarket, nie zadzwoni do ciebie i powie: "Przy okazji, chcę tylko poinformować, że nie wrócę ponownie do twojego supermarketu". Zamiast tego ta osoba prawdopodobnie już się nie pojawi i to wszystko! Brak śladów, brak kolumny Unsubscribed w Twojej bazie danych, brak łatwej etykiety. Czy nadal możesz znaleźć sposób na przypisywanie etykiet takim klientom? Oczywiście że możesz. Powszechnym i prostym sposobem na to jest przyjrzenie się wzorcom zakupów i zobaczenie, kiedy nagle się zmieniają. Załóżmy, że w każdą niedzielę bardzo lojalna rodzina przychodzi po zakupy spożywcze. Jednak w ostatnim miesiącu ich nie widziałeś. Możesz założyć, że postanowili już nie przychodzić, i dlatego oznacz ich jako "odrzuconych". Czy jeden miesiąc to właściwy próg? Trudno powiedzieć bez dodatkowego kontekstu, ale na szczęście nie jest to twoja praca: zostaw zadanie rozpracowania danych analitykom danych. Ważne jest, abyś zrozumiał, że niezależnie od firmy, jeśli masz powracających klientów - i zebrałeś dane o ich interakcjach - prawdopodobnie istnieje sposób na zdefiniowanie rezygnacji i zidentyfikowanie, kto odszedł, a kto jest nadal aktywny. Kiedy już wymyślisz jakieś etykiety, aby odróżnić "szczęśliwych klientów" od tych, którzy odeszli, sytuacja staje się podobna do przykładu przewidywania ceny domu, który widzieliśmy wcześniej. Na szczęście dane szkoleniowe do przewidywania rezygnacji można łatwo wyodrębnić z systemu zarządzania relacjami z klientami (CRM) firmy. Mówiąc dokładniej, możemy wyodrębnić dane CRM z okresu do, powiedzmy, 18 miesięcy temu, a następnie oznaczyć, czy klienci zrezygnowali w ciągu ostatnich 6 miesięcy. Do tej pory jesteś już znacznie bardziej pewny siebie i skuteczny w definiowaniu etykiety dla projektu prognozowania rezygnacji niż większość menedżerów biznesowych. Każdy analityk danych będzie za to wdzięczny, ale jeśli naprawdę chcesz im pomóc, musisz włożyć dodatkowy wysiłek: pomóc im w wyborze funkcji. Jeśli brzmi to jak szczegół techniczny, tracisz świetną okazję, aby zabłysnąć swoim doświadczeniem i wiedzą o domenie. W przypadku problemu z ML pamiętaj, że cecha jest atrybutem zjawiska, które próbujemy modelować, i wpływa na jego wynik. Zakładając, że jesteś ekspertem ds. marketingu, nikt na świecie nie ma lepszego wglądu w odpowiednie funkcje, a Twoja wiedza może pomóc Twojemu zespołowi zajmującemu się analizą danych podążać ścieżką prowadzącą do pomyślnych wyników. Aby zorientować się, jak może wyglądać Twój wkład, zadaj sobie pytanie: "Gdybym miał odgadnąć prawdopodobieństwo odejścia tylko jednego klienta, na jakie parametry bym spojrzał?" Może to poinformować rozmowa z inżynierem:

    Inżynier: Czy wiesz, co wpływa na odejście klientów? Muszę wymyślić kilka istotnych funkcji.

    Marketer: Jasne, wiemy, że konfiguracja płatności ma duże znaczenie dla rezygnacji. Zwykle ktoś, kto ma umowę zamiast karty przedpłaconej, jest mniej skłonny do rezygnacji z usługi, ponieważ ma większe uzależnienie. Prawdą jest również, że kiedy zbliżamy się do daty wygaśnięcia umowy, klienci zaczynają patrzeć na konkurencję, więc to kolejny czynnik.

    Inżynier: Interesujące. Na pewno użyję funkcji w modelu, która wyraża "umowa" lub "przedpłata". Kolejną cechą będzie liczba dni do wygaśnięcia umowy. Coś jeszcze?

    Marketer: Jasne, wiemy, że wiek odgrywa dużą rolę. Ci młodzi millenialsi cały czas zmieniają firmy, podczas gdy starsi ludzie są bardziej lojalni. Ponadto, jeśli ktoś jest naszym klientem od dłuższego czasu, to dobry wskaźnik lojalności.

    Inżynier: Ładnie, możemy zajrzeć do CRM i dodać funkcję "dni od rejestracji" i jedną dla wieku. Czy wiek jest jedynym interesującym atrybutem demograficznym?

    Marketer: Nie sądzę, że płeć jest; nigdy nie zauważyliśmy żadnego wpływu. Zawód jest ważny: wiemy, że samozatrudnieni mniej chętnie zmieniają plany.

    Inżynier: OK, spróbuję sprawdzić, czy płeć ma jakikolwiek związek z odejściem. Jeśli chodzi o zawód, to dobra wskazówka. Dzięki!

    Taka rozmowa może trwać całymi dniami, zwykle z ciągłym przepychaniem się między inżynierami a tobą. Przekażesz swoje doświadczenie i wiedzę domenową, a inżynier przełoży to na coś czytelnego dla maszyny. W końcu inżynier powróci z pewnymi spostrzeżeniami lub pytaniami wynikającymi z analizy danych, które wymagają Twojej pomocy w interpretacji. Jak widać, nie jest to ćwiczenie dla nerdów: to praca zespołowa między biznesem a nerdami.


    Wykorzystanie sztucznej inteligencji do zwiększenia współczynników konwersji i sprzedaży dodatkowej

    Widziałeś, jak przewidywanie rezygnacji może być potężnym zastosowaniem algorytmów klasyfikacji. W tym przypadku klasy, którymi oznaczamy klientów, to "odeszli" lub "nie odeszli". W innych sytuacjach możesz oznaczyć klientów klasą, która jest odpowiednia dla Twojego działu marketingu i użyć algorytmów ML do przewidywania. Naturalnym jest to, czy klient kupi usługę na podstawie wcześniejszej sprzedaży. Wyobraźmy sobie, że masz klasyczny lejek marketingowy: klienci subskrybują bezpłatną usługę, a następnie niektórzy z nich przechodzą na usługę premium. Masz zatem dwie klasy klientów:

    •  Przekonwertowani - Klienci, którzy kupili usługę premium po wypróbowaniu darmowej wersji
    •  Brak konwersji - Klienci, którzy nadal korzystali z bezpłatnej usługi

    Firmy internetowe mogą w końcu zainwestować miliony, aby zmaksymalizować liczbę użytkowników, którzy przechodzą na płatny produkt. Ta miara jest święta dla firm programistycznych, które mają model biznesowy Software as a Service (SaaS): firm oferujących usługi zakupione w ramach subskrypcji. W zależności od współczynnika konwersji firma korzystająca z subskrypcji internetowej może przeżyć lub umrzeć. Najbardziej naiwnym sposobem na zwiększenie współczynnika konwersji płacących użytkowników jest masowe ukierunkowanie działań marketingowych na całą bazę użytkowników: biuletyny, oferty, bezpłatne wersje próbne i tak dalej. Bardziej wyrafinowani marketerzy mogą pomyśleć o stworzeniu rozbudowanych strategii, aby ocenić prawdopodobieństwo konwersji i mądrzej zainwestować budżet marketingowy. Na przykład możemy sądzić, że użytkownik, który otworzył biuletyn, jest bardziej zainteresowany zakupem usługi premium niż użytkownik, który nigdy żadnej nie otworzył, i kieruje do niego reklamy na Facebooku (czy kiedykolwiek zostałeś spamowany na Facebooku po odwiedzeniu strony internetowej lub otwarciu biuletyn?). Biorąc pod uwagę wagę tematu i ilość pieniędzy, które na nim płyną, zobaczmy, czy możemy użyć ML do sklasyfikowania użytkowników według ich prawdopodobieństwa konwersji, optymalizacji naszych kosztów marketingowych i osiągania lepszych wyników. Jeśli przyjrzysz się problemowi, zobaczysz, że idealnie nadaje się do uczenia maszynowego. Widziałeś już, że masz jasno określone zadanie: identyfikację użytkowników, którzy mogą przejść z usługi bezpłatnej na płatną. To jest nadzorowane zadanie klasyfikacji uczenia i masz gotowe etykiety: powiedzmy 1 dla użytkowników, którzy kupili płatną usługę, i 0 dla użytkowników, którzy tego nie zrobili. Teraz musisz pomyśleć o funkcjach, których użyjesz do wytrenowania swojego klasyfikatora. Pamiętaj, że dobrym punktem wyjścia do identyfikacji cech jest zadanie sobie pytania: "Gdybym sam musiał odgadnąć prawdopodobieństwo konwersji, jakich informacji bym potrzebował?" Informacje te mogą obejmować:

    •  Korzystanie z bezpłatnego produktu. Pamiętaj, że musi to być rzeczywista liczba, więc musisz wymyślić użyteczny sposób, aby to opisać. Jeśli sprzedajesz usługę taką jak Dropbox, użycie można opisać kilkoma parametrami:

    •  Liczba przechowywanych plików
    •  Liczba urządzeń, z których zalogowali się użytkownicy (podpowiada, jak przydatna jest usługa dla użytkownika)
    •  Liczba wejść na dzień/tydzień/miesiąc (wskazuje, jak często korzysta z niej użytkownik)
    •  Wskaźniki otwarć newslettera (Jak zainteresowany jest użytkownik naszą wiadomością?)
    •  Jak dawno temu użytkownik zasubskrybował?
    •  Kanał pozyskiwania (Ktoś, kto zasubskrybował po skierowaniu znajomego, może być bardziej wartościowy niż ktoś, kto kliknął reklamę na Facebooku).

    Zmienne te mogą się różnić w zależności od rodzaju prowadzonej działalności, ale koncepcja jest generalnie prosta: zastanów się, jakie czynniki mogą wskazywać na prawdopodobieństwo konwersji, a następnie dodaj je do algorytmu ML. Warto zaznaczyć, że niektóre firmy mają więcej danych niż inne: na przykład serwisy internetowe korzystające z loginu Facebook będą mogły poznać wszystkie zainteresowania swoich użytkowników jako funkcje takich klasyfikatorów. Zakładając, że masz dane historyczne dotyczące wcześniejszych klientów, którzy dokonali konwersji, oraz tych, którzy nie dokonali konwersji, możesz wytrenować swój algorytm, aby określić, w jaki sposób wybrane funkcje wpływają na prawdopodobieństwo zakupu Twojej usługi premium przez użytkownika. Gdy faza szkolenia jest jedna, Twój algorytm jest w końcu gotowy do zastosowania tego, czego nauczył się od poprzednich klientów, do obecnych klientów, ustawiając ich od najbardziej prawdopodobnych do najmniej prawdopodobnych. Jak pamiętasz z poprzedniego rozdziału, ta faza nazywa się wnioskowaniem (przewidywanie nowych danych po nauczeniu algorytmu na danych z przeszłości). Zauważ, że zastosowaliśmy tę metodologię w przypadku systemu internetowego, który korzysta z modelu freemium (usługa bezpłatna i płatne uaktualnienie), ale można ją zastosować w każdym innym przypadku, w którym grupa klientów wykonuje jedną czynność oraz inna grupa robi coś innego (lub nic). Ten scenariusz jest wspólny i zachęcamy do szukania takich sytuacji i zastanowienia się, czy jest miejsce na zbudowanie dla nich klasyfikatora ML. Aby dać ci inspirację, oto kilka innych przypadków, w których możesz zastosować tę metodologię:

    •  Masz podstawowy produkt i niektóre dodatki (akcesoria lub dodatkowe usługi, które są wspólne dla firm telekomunikacyjnych).
    •  Możesz oznaczyć klientów etykietą "kupił up-sell X " lub "nie kupił up-sell X " i użyć ich podstawowych produktów, aby ocenić, czy warto zaproponować up-sell swojemu klientowi.
    •  Masz newsletter i chcesz zoptymalizować jego stawki otwarć. Twoje etykiety to "otwarły biuletyn" lub "nie otworzyły biuletynu". Funkcje, których używasz w klasyfikatorze, mogą obejmować czas wysłania wiadomości e-mail (dzień tygodnia, godzina itd.) oraz niektóre funkcje związane z użytkownikiem, a także możesz oznaczać wiadomości e-mail według ich treści (na przykład "informacyjne, " "wiadomości produktowe" lub "biała księga").
    •  Masz sklep fizyczny z kartą lojalnościową (aby śledzić, który klient co kupuje). Możesz uruchamiać inicjatywy marketingowe (ponownie biuletyny lub reklamy fizyczne) i klasyfikować użytkowników na podstawie tego, co sprowadziło ich do Twojego sklepu, a co nie.

    Jak widać, metoda, którą właśnie opisaliśmy, polegająca na podzieleniu użytkowników na dwie oddzielne klasy i zbudowaniu klasyfikatora ML, który potrafi je rozpoznać, jest dość elastyczna i może być stosowana w wielu problemach. Całkiem potężne, prawda?


    Wykonywanie automatycznej segmentacji klientów

    We wstępie odnieśliśmy się do jednej z kluczowych czynności, które marketerzy muszą wykonać podczas opracowywania planu marketingowego: segmentacji klientów. Segmentacja rynku oznacza dzielenie na grupy klientów o podobnych cechach i zachowaniach. Główną ideą tego wysiłku jest to, aby klienci z tej samej grupy reagowali na podobne działania marketingowe. Na przykład sprzedawca odzieży prawdopodobnie skorzystałby na osobnych segmentach rynku dla mężczyzn i kobiet oraz nastolatków i młodych dorosłych i profesjonalistów. Segmenty mogą być mniej lub bardziej szczegółowe, a zatem mniej lub bardziej szczegółowe. Oto dwa przykłady:

    •  Szeroki segment - młodzi mężczyźni w wieku od 20 do 25 lat
    •  Bardzo specyficzny segment - młodzi mężczyźni w wieku od 20 do 25 lat, studiujący na studiach, mieszkający w jednym z pięciu największych miast USA i pasjonujący się grami wideo FPS

    Wielu marketerów może intuicyjnie wykonać to zadanie segmentacji w swoich mózgach, o ile ilość danych jest ograniczona, zarówno pod względem przykładów (liczba klientów), jak i funkcji. Zwykle tworzy to ogólne segmenty klientów, takie jak pierwszy, co może być ograniczeniem, biorąc pod uwagę stopień zróżnicowania występującego między tymi grupami. Marketer mógłby próbować zdefiniować bardziej konkretny segment, taki jak drugi, ale jak to wymyślić? Oto pytania, które można by zadać podczas typowej sesji burzy mózgów:

    •  Czy dobrym pomysłem jest stosowanie progu 20-25 lat, czy lepiej 20-28 lat?
    •  Czy jesteśmy pewni, że studenci mieszkający w dużych miastach zasadniczo różnią się od tych mieszkających w mniejszych? Czy nie możemy umieścić ich wszystkich w jednym klastrze?
    •  Czy istnieje zasadnicza różnica między mężczyznami a kobietami? Czy naprawdę musimy stworzyć dwa segmenty, czy to tylko banał?

    Odpowiedzi na te pytania można uzyskać na trzy sposoby:

    •  Kieruj się instynktem. Nie jesteśmy w 1980 roku, więc nie rób tego.
    •  Spójrz na dane i użyj instynktu marketera, aby je zinterpretować. To lepsze niż przeczucie, ale marketerzy prawdopodobnie przeniosą swoje uprzedzenia na swoją analizę i zobaczą to, co chcą zobaczyć. Więc tego również unikaj.
    •  Pozwól sztucznej inteligencji samodzielnie wymyślić segmenty klientów, informując marketera, aby mógł wykorzystać swoją kreatywność i znajomość kontekstu.

    Opcja 3 najprawdopodobniej przewyższy pozostałe. Zobaczmy, dlaczego i jak.


    Nauka nienadzorowana (lub grupowanie)

    Przyjrzyjmy się problemowi, który właśnie opisaliśmy: Od czego zaczynamy: pula klientów, z mnóstwem elementów, które ich charakteryzują (wiek, lokalizacja, zainteresowania itd.) Czego chcemy: pewna liczba segmentów, których możemy użyć podzielić naszych klientów Możesz sobie wyobrazić ten problem jako posiadanie grupy klientów i konieczność umieszczenia każdego z nich w wiązce, którą nazwiemy klastrem



    Cechy klientów, których będziemy używać, przypominają to, co nazywaliśmy funkcjami wcześniej, więc możesz pomyśleć, że mamy do czynienia z tym samym rodzajem zadania i możemy korzystać z tych samych narzędzi, które już opisaliśmy. Ale diabeł tkwi w szczegółach: ponieważ nie znamy z góry grup, które chcemy zdefiniować, nie wiemy, które etykiety zastosować. Do tej pory w książce używaliśmy podzbioru uczenia maszynowego zwanego uczeniem nadzorowanym. Typowa recepta na nadzorowane zadanie uczenia się jest następująca:

    1. Posiadamy dane o grupie klientów charakteryzujących się określonymi cechami.
    2. Ci klienci mają również etykietę: wartość docelową, którą chcemy przewidzieć (na przykład, czy odeszli, czy nie).
    3. Nadzorowany algorytm uczenia przechodzi przez dane klientów i uczy się ogólnego mapowania między funkcjami a etykietami.

    W naszym nowym scenariuszu brakuje punktu 2: nie mamy etykiety dołączonej do każdego użytkownika. Właśnie to chcemy, aby nasz nowy algorytm znalazł. Dlatego tak wygląda nasze nowe zadanie:

    1. Tak jak poprzednio, dysponujemy danymi o gronie klientów charakteryzujących się określonymi cechami.
    2. Chcemy podzielić klientów na określoną liczbę segmentów (klastrów) - powiedzmy trzy z nich.
    3. Uruchamiamy jakiś algorytm ML, który patrząc na dane, określa najlepsze klastry, jakie możemy wymyślić i dzieli na nie użytkowników.

    Ten nowy rodzaj algorytmu ML nazywa się grupowaniem lub uczeniem nienadzorowanym. Uczenie nienadzorowane to kolejna forma uczenia maszynowego, w której algorytm jest zasilany zestawem nieoznaczonych przykładów (tylko zestaw parametrów) i jest proszony o podzielenie przykładów na grupy, które mają pewne podobieństwo. W tym sensie nienadzorowane algorytmy uczenia się wykorzystują koncepcję podobieństwa, aby przezwyciężyć brak wcześniej zdefiniowanej etykiety, dzieląc przykłady, które są karmione na grupy w sposób autonomiczny. Jest to podstawowa różnica między uczeniem nadzorowanym i nienadzorowanym: algorytmy uczenia nadzorowanego uczą się mapowania między zestawem cech i etykiet, podczas gdy algorytmy nienadzorowane po prostu patrzą na etykiety i grupują punkty danych w klastrach, które mają pewne podobieństwo, jak pokazano na rysunku



    Zadanie znalezienia podobnych grup w zestawach danych jest dość proste, gdy wymiary, które musimy wziąć pod uwagę, są ograniczone. Spójrz na rysunek i zobaczysz, że punkty naturalnie kondensują się w dwie dobrze oddzielone grupy.



    Ale co się dzieje, gdy chcemy wziąć pod uwagę dużą liczbę cech użytkownika? Jeśli chcemy rozważyć, powiedzmy, 10 atrybutów, nasze umysły nie są w stanie zidentyfikować grup, które są do siebie podobne. Właśnie wtedy błyszczą algorytmy nienadzorowanego uczenia się: mogą bez problemu skalować pojęcie podobieństwa nawet do setek wymiarów, a my możemy wykorzystać wyniki do uzyskania przydatnych informacji. W tej chwili powinieneś mieć przeczucie, dlaczego rodzaj ML, którego używaliśmy do tej pory, nazywa się nadzorowany: nasze algorytmy zostały poproszone o mapowanie danego zestawu funkcji do danego zestawu etykiet. Ponieważ nie mamy od początku żadnych etykiet, algorytm musi je znaleźć sam, w nienadzorowany sposób. Możesz o tym pomyśleć w ten sposób: W nadzorowanym uczeniu się już wiesz, czego szukasz. Jeśli możesz klasyfikować klientów do różnych klas (na przykład, którzy odeszli/nie odeszli, tak jak robiliśmy to wcześniej), algorytm ML może nauczyć się rozpoznawać klientów należących do jednej lub drugiej klasy. W nauce nienadzorowanej nie wiesz dokładnie, czego szukasz: nie możesz przypisać etykiety klientom. Algorytm uczenia nienadzorowanego rozpozna grupy podobnych klientów i przypisze im etykietę. Nie powie ci jednak, co oznacza ta etykieta: algorytm powie tylko, że klienci z etykietą A są do siebie podobni i różnią się od klientów z etykietą B; to od Ciebie zależy, czy zrozumiesz, dlaczego. Zobaczmy, jak potoczy się rozmowa między ekspertem ML a marketerem:

    Marketer: Szukam sposobów, w jakie ML może pomóc naszemu zespołowi poprawić segmentację klientów.
    Ekspert ML: Jak wcześniej robiłeś segmentację klientów?
    Marketer: Wiesz, "stary dobry sposób": użycie mieszanki ankiet, doświadczenia i przeczucia. Wiem, że jest kilka technik ML, które mogą w tym pomóc.
    Ekspert ML: Tak, mogę używać uczenia nienadzorowanego do automatycznego generowania klastrów. Zacznijmy od czegoś prostego: jakie są trzy najważniejsze elementy, które są istotne dla segmentacji naszych klientów?
    Marketeer: Na pewno dane demograficzne, takie jak wiek i płeć, dodałbym do tego średnie miesięczne wydatki. To dobry wskaźnik prawdopodobieństwa zakupu od nas nowych usług.
    Ekspert ML: Miło. Dostanę eksport z naszego CRM o tych wymiarach dla 1000 klientów i oddzwonię do Ciebie. Potrzebuję twojej pomocy w interpretacji wyników.

    [Po chwili]

    Ekspert ML: Zrobiłem kilka wstępnych grupowań i wygląda na to, że mamy trzy dobrze zdefiniowane klastry: młodzi mężczyźni o niskich wydatkach, kobiety o wysokich wydatkach po trzydziestce i jeden, który jest pomiędzy.
    Marketeer: Ciekawe - nie wiedzieliśmy, że kobiety po trzydziestce są dla nas tak dochodowym segmentem. Chciałbym kopać głębiej; czy możemy dodać kolejny wymiar do grupowania? Interesuje mnie częstotliwość ich zakupów: wiemy, że kobiety lubią kupować częściej niż mężczyźni i zastanawiam się, czy nauka bez nadzoru może się podnieść coś głębszego.
    Ekspert ML: Jasne, zdefiniujmy etykietę, która jest "średnim czasem między zamówieniami". Przyjrzę się wynikom.

    Jako osoba biznesowa ważne jest, abyś rozpoczynał te rozmowy z pewną wiedzą na temat uczenia się bez nadzoru, dzięki czemu możesz prowadzić konstruktywną dyskusję z osobami technicznymi i z otwartym nastawieniem, które może zaakceptować dane wejściowe, które są przekazywane przez nich. Dobrym sposobem na wizualizację gromad jest zobrazowanie, jak gwiazdy są rozrzucone na nocnym niebie. Nasz mózg intuicyjnie grupuje sąsiednie gwiazdy i przypisuje im znaki zodiaku. Większość rzeczywistych aplikacji jest nieco bardziej złożona z trzech głównych powodów: *Czasami punkty danych są rozmieszczone jednorodnie, co utrudnia podjęcie decyzji o tym, ile klastrów należy wziąć pod uwagę, nie mówiąc już o tym, jak podzielić klientów.

    •  Jako ludzie z łatwością przeprowadzamy segmentację w ograniczonych wymiarach, ale mamy problemy, gdy liczba wymiarów wzrasta. Wróćmy do przykładów znaków zodiaku: widzimy niebo jako dwuwymiarowe płótno; wykonanie tego samego zadania w przestrzeni trójwymiarowej byłoby znacznie trudniejsze. W czterech wymiarach byłoby to niemożliwe. A co z 20 wymiarami informacji o kliencie?
    •  Z biznesowego punktu widzenia segmentacja nie jest pustym ćwiczeniem, ale jest najbardziej przydatna tylko wtedy, gdy różne segmenty można powiązać z wynikami biznesowymi, często pod względem wartości życiowej klienta, wrażliwości na cenę lub preferencji kanału.
    W następnej sekcji zajmiemy się tymi problemami na przykładzie. Na razie przyjrzyjmy się nieco głębiej w nakrętce i śrubie klastrowania. Jedną z pierwszych ważnych decyzji, które należy podjąć podczas rozwiązywania problemu klastrowania, jest decyzja, które funkcje (lub wymiary) należy użyć do klastrowania. W naszym trywialnym przykładzie nocnego nieba wybór wymiarów jest oczywisty: pozioma i pionowa pozycja każdej gwiazdy. Jednak aplikacje w świecie rzeczywistym mogą być znacznie bardziej złożone.


    Nienadzorowana nauka segmentacji klientów

    Ta sekcja zawiera więcej szczegółów na temat uczenia się bez nadzoru i rzuci trochę światła na wewnętrzne działanie tych algorytmów. Podstawowe pojęcia, których się do tej pory nauczyłeś, wystarczą, aby wyobrazić sobie nowe aplikacje do nienadzorowanej nauki w Twojej organizacji. Jeśli to wystarczy do Twoich celów, możesz pominąć tę sekcję. Jeśli chcesz dowiedzieć się więcej o tym, jak korzystać z tych technik w praktyce, czytaj dalej. Posłużmy się przykładem serwisu e-commerce, który sprzedaje obuwie i ma dostęp do historii zakupów swoich klientów. Każdy punkt danych reprezentuje zakup lub zwrot i zawiera informacje o bucie, takie jak cena, marka, rozmiar, kolor, data i godzina transakcji oraz czy został kupiony razem z innymi przedmiotami. Możemy zdecydować się na wykorzystanie wszystkich tych funkcji do segmentacji lub ograniczyć naszą analizę do podzbioru. Na przykład przyjrzenie się kolorom wszystkich butów, które klient kupił, może pomóc nam lepiej zrozumieć jego gust, a spojrzenie na porę dnia na te zakupy może dostarczyć sugestii dotyczących najlepszej pory dnia na proponowanie rabatów. Moglibyśmy nawet ekstrapolować parametry, takie jak średnia kwota wydana na zakup i liczba butów kupionych w ciągu miesiąca. Te dwie informacje razem wzięte prawdopodobnie pomogłyby algorytmowi grupowania znaleźć naturalne rozróżnienie między klientami o wysokiej częstotliwości/niskiej wartości a klientami o niskiej częstotliwości/wysokiej wartości. Dla uproszczenia załóżmy, że budujemy prosty algorytm grupowania, który analizuje trzy cechy każdego klienta:

    Wiek
    Płeć
    Średnie miesięczne wydatki na e-commerce

    Należy pamiętać, że atrybuty, które nie są używane do grupowania, nie są odrzucane, ale można je wykorzystać do profilowania. Oznacza to opisanie cech każdej grupy w celu podjęcia decyzji marketingowych. Tabela 1 przedstawia nasze dane dla pierwszych pięciu klientów.

    Identyfikator klienta : Wiek : Płeć : Średnie miesięczne wydatki ($)

    1 : 18 : M : 14,67
    2 : 21 : M : 15,67
    3 : 28 : M : 18,02
    4 : 27 : przód : 34,61
    5:32:F:30,66

    W niektórych z najczęściej używanych algorytmów klastrowania następnym krokiem byłoby określenie liczby klastrów, których szukamy. Często jest to sprzeczne z intuicją: w końcu czy nie chciałbyś, aby algorytm powiedział ci, ile jest grup użytkowników? Jeśli jednak się nad tym zastanowisz, istnieje wiele sposobów na podzielenie populacji na kawałki, a wybór liczby klastrów z góry jest jedynym sposobem na kierowanie algorytmem. Na razie uprośćmy sprawę i powiedzmy, że chcemy uzyskać trzy klastry. Algorytm grupowania znajdzie sposób na podzielenie użytkowników w taki sposób, aby Klienci w ramach tego samego klastra byli do siebie podobni. Klienci w różnych klastrach różnią się od siebie. W ten sposób mamy matematyczną pewność, że wybierając akcję skierowaną do klientów z określonego klastra, maksymalizujemy prawdopodobieństwo, że zareagują w ten sam sposób. Warto przyjrzeć się dwóm wynikom algorytmu grupowania:

    •  Klaster, który zostanie powiązany z każdym użytkownikiem, jak wskazano w tabeli 2.
    •  Centra klastrowe. Każdy klaster ma centrum, które można uznać za "stereotyp" rodzaju użytkownika, który należy do tego klastra. Marketer nazwałby to personą kupującego.

    Identyfikator klienta : Wiek : Płeć : Średnie miesięczne wydatki ($) : Klaster

    1 : 18 : M : 14,67 : 1
    2 : 21 : M : 15,67 : 1
    3 : 28 : M : 18,02 : 3
    4:27:P:34,61:2
    5 : 32 : F : 30,66 : 2

    Spojrzenie na centra klastrów ma kluczowe znaczenie, ponieważ daje nam informacje ilościowe na temat tego, co znalazł algorytm, które możemy następnie zinterpretować w celu wyodrębnienia spostrzeżeń. Każde centrum będzie charakteryzować się tymi samymi trzema cechami, których używaliśmy wcześniej do opisywania użytkowników (choć możemy je zmienić, aby były bardziej znaczące). Zazwyczaj dodamy również liczbę użytkowników należących do każdego klastra. Tabela 3 pokazuje, jak mogą wyglądać centra klastrowe, przy założeniu, że zaczęliśmy od danych od 1000 klientów.

    Numer klastra: Wiek: % kobiety: Średnie miesięczne wydatki ($): Liczba klientów

    1 : 18,2 : 20% : 15,24 : 290
    2 : 29,3 : 90% : 28,15 : 120
    3 : 22 : 40% : 17,89 : 590

    Ta pozornie nieszkodliwa tabela jest pełna przydatnych informacji. Poświęćmy trochę czasu na ekstrapolację spostrzeżeń i poznanie naszych segmentów:

    •  Cluster 1 składa się głównie z młodych (średnia wieku: 18,2), głównie mężczyzn, którzy nie wydają dużych pieniędzy (średnie miesięczne wydatki to 15,24 USD). Jest to klaster o średniej wielkości (jest tutaj 29% użytkowników).
    •  Cluster 2 skłania się ku starszym kobietom (średnio 29,3 lat), które wydają znacznie więcej niż jakikolwiek inny klaster (średnie wydatki 28,15 USD w porównaniu z odpowiednio 15,24 USD i 17,89 USD w klastrach 1 i 3). To raczej niewielki segment, do którego należy 12% użytkowników.
    •  Cluster 3 jest prawie równo podzielone na samce i samice. Nie są tak oszczędni i młodzi jak skupienie 1, ale zdecydowanie wydają mniej niż skupienie 2 i są znacznie młodsi (22 lata w porównaniu z 29,3).

    Marketerzy mogą dobrze wykorzystać te informacje i wymyślić spersonalizowane strategie, aby sprzedawać produkty każdej grupie ludzi. Na przykład klientom z klastrów 1 i 3 można oferować tańsze produkty w porównaniu z tymi z klastra 2. Dodanie nowych funkcji, takich jak kolory kupowanych butów, może dać nam więcej informacji, aby móc podejmować bardziej precyzyjne decyzje. Zwróć uwagę, jak proces rozpoczął się od danych i ustaleń algorytmu na jego temat, ale zakończył się, gdy człowiek spojrzał na wyniki i zinterpretował centra klastrów w celu wyodrębnienia przydatnych informacji, które można podjąć. Ten aspekt jest kluczowy dla każdego algorytmu ML, ale jest szczególnie ważny dla klastrowania: prawdziwą wartość osiąga się dzięki symbiozie między tym, co może zrobić sztuczna inteligencja, a tym, co mogą na tym zbudować eksperci i ciekawscy ludzie.

    Pomiar wydajności

    Ponieważ prognozy oparte na ML mają bezpośredni wpływ na wyniki biznesowe, ocena ich wydajności jest ważną umiejętnością. Badacze i inżynierowie często opracowują dla Ciebie modele i raportują wydajność algorytmów za pomocą różnych metryk. Chociaż te metryki dobrze opisują wydajność statystyczną modeli, nie opowiadają całej historii. W rzeczywistości związek między tymi liczbami dla nerdów a wynikami biznesowymi może być subtelny. Twoim zadaniem jest zrozumienie metryk ML na tyle, aby podejmować świadome decyzje o tym, jak dokładność modelu może wpłynąć na Twoje cele biznesowe.


    Algorytmy klasyfikacji

    Dużą częścią pracy z uczeniem maszynowym jest wygodne radzenie sobie z błędami. Nawet najlepiej działający algorytm nie będzie w 100% doskonały i spowoduje błędną klasyfikację niektórych przykładów. Pamiętaj, że proces tworzenia aplikacji ML polega najpierw na przeprowadzeniu szkolenia na danych historycznych, a następnie na wykorzystaniu ich "w świecie rzeczywistym": ważne jest, aby mieć świadomość, ile błędów prawdopodobnie popełni algorytm po jego wdrożeniu i jakiego rodzaju błędów. Najprostszym i najbardziej naiwnym sposobem oceny algorytmu jest zastosowanie metryki zwanej dokładnością , która przedstawia procent poprawnych domysłów w stosunku do wszystkich przewidywań:

    Dokładność = Prawidłowe przewidywania / Łączne przewidywania

    Jednak nie wszystkie błędy są takie same. W przypadku naszego predyktora churn, możliwe są dwa błędy:

    •  Klient został błędnie oznaczony przez algorytm jako odchodzący, ale w rzeczywistości nadal jest zaangażowany. Ten przypadek nazywa się fałszywie pozytywnym (FP ).
    •  Klient został błędnie oznaczony przez algorytm jako aktywny, ale w rzeczywistości zamierza anulować swoją subskrypcję. Ten przypadek jest fałszywie ujemny (FN ).

    To rozróżnienie nie jest kolejną fiksacją dla nerdów: ma bezpośredni wpływ na biznes i ważne jest, abyś zrozumiał, jak wpłynie to na twoje decyzje biznesowe. Dobry naukowiec zajmujący się danymi nie powinien przedstawiać wyników z prostą liczbą dokładności, a ty też nie powinieneś. Lepszym pomysłem jest użycie bardziej informacyjnej tabeli. Prezentowanie wyników w tego typu tabeli jest typowe dla zadań klasyfikacji binarnej (w których etykieta ma tylko jeden z dwóch wyników - w tym przypadku odejście/brak odejścia. Badacze i inżynierowie spędzają dużo czasu przyglądając się tabelom, ponieważ zawarte w nich liczby często dają wgląd w to, jak algorytm będzie działał w prawdziwym świecie. Jako osoba, na której działalność mają wpływ te liczby, ważne jest, abyś zrozumiał niuanse, które mogą się za nimi kryć. Po pierwsze, liczba fałszywie pozytywnych i fałszywie negatywnych wyników jest powiązana ze sobą i łatwo jest wymienić jeden na drugi bez istotnych zmian w modelu lub dodatkowego szkolenia. Rozważmy na przykład bardzo naiwny model, który zawsze przewiduje, że klienci odchodzą: bez względu na to, jakie dane wejściowe otrzyma, zawsze daje wynik "tak, klient zaraz się odejdzie". Wskaźniki prawdziwie pozytywnych i fałszywie negatywnych będą zachęcające (100% tych pierwszych i 0% tego ostatniego - rozumiesz dlaczego?), ale fałszywe alarmy i prawdziwe negatywne wyniki będą okropne.

    Trudna sytuacja i jak nie dać się oszukać

    Wyobraź sobie, że budujesz swój predyktor rezygnacji na przykładowym zbiorze danych obejmującym 1000 użytkowników, podzielonym w następujący sposób:

    •  900 z nich jest aktywnych.
    •  100 z nich jest ubijanych.

    Tego rodzaju zbiory danych nazywane są niezrównoważonymi, ponieważ liczba przykładów reprezentatywnych dla jednej etykiety jest znacznie większa niż liczba przykładów reprezentatywnych dla drugiej. Załóżmy teraz, że tworzysz algorytm, który ma 90% dokładność przewidywania. Brzmi dobrze, ale czy tak jest? Jeśli zbudujesz swój algorytm do przewidywania "Aktywny" za każdym razem, będzie on poprawny w 90% przypadków (ponieważ 90% użytkowników jest aktywnych). W takim przypadku mielibyśmy:

    •  100% prawdziwych negatywów (wszystkie, które nie zostały odrzucone, są poprawnie zidentyfikowane).
    •  0% prawdziwych pozytywów (algorytm nigdy nie wykrył ani jednego odchodzącego klienta).

    W rzeczywistości twój algorytm działa słabo, mimo że jest poprawny w 90% przypadków. Jak widać, patrzenie na prawdziwe pozytywy i fałszywie negatywy jest o wiele bardziej przydatną strategią, aby uniknąć oszukania przez wysoką dokładność wyników.

    Teraz wyniki fałszywie pozytywne, fałszywie negatywne, prawdziwie pozytywne i prawdziwie negatywne są metrykami bezwzględnymi. Zawsze dobrze jest zgłosić je do metryki bezwzględnej, która nie jest wrażliwa na liczbę połączonych próbek. Mogą nam w tym pomóc dwie metryki, zwane dokładnością i przypomnieniem . Oto, co nam mówią:

    •  Precyzja - ilu spośród wszystkich klientów, których algorytm przewidział jako odchodzących (prawdziwe pozytywy), ilu naprawdę miało odejść?
    •  Przypomnij - ilu z nich odeszło ze wszystkich klientów jak algorytm mógł przewidzieć?

    Możesz sobie wyobrazić algorytm o wysokiej precyzji i niskim odwołaniu jako snajper: chce być pewien przed oddaniem strzału, więc pozostaje konserwatywny i nie strzela, dopóki nie jest pewny w 100%. Oznacza to, że nie trafia w niektóre cele, ale za każdym razem, gdy strzela, masz pewność, że trafi we właściwy cel. Z drugiej strony, algorytm o wysokim powrocie i niskiej precyzji jest jak karabin maszynowy: strzela dużo i trafia w wiele celów, w które powinien trafić, ale po drodze trafia również w niektóre niewłaściwe.


    Algorytmy klastrowania

    Jeśli chodzi o uczenie się nienadzorowane, ocena wydajności jest trudna, ponieważ nie ma obiektywnej miary "wielkości": ponieważ nie mamy etykiet do porównania, nie możemy określić, czy wynik algorytmu jest "poprawny", czy "błędny". Pamiętaj również, że większość algorytmów klastrowania wymaga zdefiniowania liczby klastrów, które chcesz zidentyfikować, więc kolejnym pytaniem, na które musisz odpowiedzieć, jest to, czy Twój wybór liczby klastrów był dobry. Jak wydostać się z tej pozornie mglistej sytuacji? Po pierwsze, niektóre narzędzia matematyczne mogą powiedzieć analitykowi danych, czy grupowanie zostało wykonane dobrze. Niestety posiadanie algorytmu, który działa świetnie z matematycznego punktu widzenia, niekoniecznie oznacza, że jest przydatny do celów biznesowych. Jeśli kupiłeś tę książkę, zakładamy, że nie używasz ML do publikowania artykułu naukowego, ale raczej do pomocy swojej organizacji. Jeśli to prawda, matematyczne akrobacje nie będą Cię interesować. Zamiast tego powinieneś spojrzeć na swoje wyniki i zadać sobie następujące pytania:

    1. Czy wyniki można interpretować? Innymi słowy, czy centra klastrów można interpretować jako persony nabywców, które mają logiczny sens? Jeśli odpowiedź brzmi tak, przejdź do pytania 2.
    2. Czy wyniki są wykonalne? Innymi słowy, czy moje klastry są na tyle różne, że mogę wymyślić różne strategie dotarcia do klientów należących do różnych centrów?

    Jeśli odpowiedź na te pytania jest twierdząca, gratulacje: możesz rozpocząć testowanie wyników w prawdziwym świecie, zbierać dane i iść naprzód, albo iterując i poprawiając swój algorytm, gdy masz więcej danych, albo wykorzystując nową wiedzę do przeprojektowania swojego zbliżać się. Na szczęście słabsze działanie nienadzorowanych algorytmów jest zwykle mniej ryzykowne niż słabsze działanie nadzorowanych algorytmów uczenia się, ponieważ pojęcie "właściwego" lub "złego" przewidywania jest bardziej mgliste. Z tego powodu nie musisz martwić się zbytnio o metryki, ale raczej o metodologię testowania, którą powinieneś mieć w celu oceny wpływu biznesowego swojego projektu.


    Powiązanie wskaźników ML z wynikami biznesowymi i ryzykiem

    Teraz, gdy już zapoznałeś się z popularnymi wskaźnikami ML, zobaczmy, co oznaczają one w scenariuszu biznesowym. Załóżmy, że wdrożyłeś świetny predyktor rezygnacji, który zidentyfikował grupę klientów, którzy prawdopodobnie opuszczą Twoją usługę, i chcesz skontaktować się ze spersonalizowanym telefonem do każdego z nich. Jeśli Twój zespół zajmujący się analizą danych zbudował model z dużą precyzją, ale niskim poziomem przypominania , nie zmarnujesz wielu połączeń telefonicznych: za każdym razem, gdy zadzwonisz, porozmawiasz z użytkownikiem, który naprawdę rozważa opuszczenie Cię. Z drugiej strony niektórzy użytkownicy opuszczają usługę, ale Twój algorytm ich nie wykrył. Algorytm o wysokim poziomie przywołania i niskiej precyzji zamiast tego sprawi, że wykonasz wiele połączeń telefonicznych - więc dotrzesz do dużej części (nawet wszystkich) klientów planujących zrezygnować z Twojej usługi, ale zmarnujesz rozmowy telefoniczne innym użytkownikom, którzy w ogóle nie planowali wypisać się. Kompromis między precyzją a pamięcią jest wyraźnie funkcją firmy. Jeśli każdy klient ma wysoką wartość, a dotarcie do niego jest tanie, postaw na wysoki poziom wycofania. Jeśli Twoi klienci nie dokonują drogich zakupów, nie chcesz, aby im niepotrzebnie przeszkadzano, a dzwonienie do nich jest drogie, skorzystaj z bardzo precyzyjnej. Jeszcze bardziej wyrafinowaną strategią może być rezerwowanie droższych działań, takich jak rozmowy telefoniczne, dla klientów o wyższej wartości lub wyższym prawdopodobieństwie rezygnacji, a korzystanie z tańszych działań, takich jak poczta e-mail, dla innych. Jak widać na rysunku 3.9, możesz zdecydować, czy skupić się na wycofaniu, czy na precyzji, w oparciu o dwa parametry: koszt utraty klienta i koszt działań, które podejmujesz, aby go zatrzymać. Problem staje się jeszcze poważniejszy w zastosowaniach krytycznych dla bezpieczeństwa. Jeśli mamy klasyfikator używany do diagnoz medycznych, koszt fałszywie dodatniego i fałszywie ujemnego jest bardzo różny. Załóżmy, że nasz algorytm wykrywa raka płuc. W tabeli możesz zobaczyć, co oznacza każdy błąd i jego konsekwencje.

    Metryka: Co to znaczy: Implikacja

    Prawdziwie pozytywne: Algorytm przewiduje, że pacjent ma raka i to prawda: pacjent naprawdę jest chory. : Pacjent natychmiast otrzymuje potrzebne leczenie.
    Prawda negatywna: Algorytm przewiduje, że pacjent jest zdrowy i rzeczywiście pacjent jest zdrowy. : Pacjent wraca do domu z ulgą.
    Fałszywe pozytywne : Algorytm przewiduje, że pacjent ma raka (stąd wynik pozytywny), ale pacjent faktycznie jest zdrowy (stąd fałsz). : Pacjent się boi i może rozpoczyna próbę, ale w rzeczywistości jest OK.
    Fałsz negatywny : Algorytm przewiduje, że pacjent jest zdrowy (negatywny), ale zamiast tego pacjent jest chory (fałsz). : Pacjent wraca do domu z ulgą, ale w rzeczywistości jest chory i nie otrzymuje potrzebnego leczenia.

    Jak widać, koszt związany z pomyłką jest bardzo różny, w zależności od tego, czy błędnie klasyfikujemy zdrowych czy chorych pacjentów. Fałszywie pozytywny może oznaczać dodatkowe badania lub niepotrzebne leczenie, ale fałszywie negatywny pozbawi pacjenta terapii desperacko potrzebnej do przeżycia. W takim scenariuszu wyraźnie widać, jak niebezpieczna jest optymalizacja pod kątem niewłaściwej metryki. Wysoka dokładność tutaj nie byłaby wskaźnikiem dobrego algorytmu, ponieważ w ten sam sposób ważyłby wyniki fałszywie ujemne i fałszywie dodatnie. W tym przypadku zależy nam na wysokim poziomie przypominania: chcemy, aby zidentyfikowano jak największą liczbę chorych pacjentów, nawet jeśli oznacza to występowanie fałszywych alarmów. Fałszywe alarmy mogą doprowadzić do dodatkowych niepotrzebnych egzaminów i przestraszyć niektóre rodziny, ale zapewnią dostrzeżenie i opiekę nad jak największą liczbą chorych. Jak widać, każdy algorytm ma wskaźnik swojej wydajności i musisz być w stanie ocenić, która metryka jest dla Ciebie najważniejsza, aby Twój zespół analityków danych mógł pracować nad jego maksymalizacją. Widzieliśmy, że najlepszy wybór nie zawsze jest oczywisty. Z biznesowego punktu widzenia najpotężniejszym pomysłem jest powiązanie każdej błędnej klasyfikacji z kwotą w dolarach. Jeśli Twoje założenia są prawidłowe, automatycznie doprowadzi to do najlepszego wyniku biznesowego. Nasza wyimaginowana firma telekomunikacyjna mogłaby opracować plan retencji dla niezadowolonych klientów, który da im premię w wysokości 100 USD, jeśli pozostaną w firmie przez następne 12 miesięcy, tym samym zachowując klienta, który w innym przypadku przeszedłby do konkurenta w najbliższej przyszłości. Z drugiej strony załóżmy, że każdy utracony klient traci dla firmy 500 dolarów zysku. Teraz, gdy mamy już wszystkie te liczby, możemy łatwo obliczyć, ile kosztują nas fałszywe negatywy i fałszywe alarmy. Każdy fałszywie negatywny wynik (klient, który przeszedł do konkurenta, zanim zdążyliśmy go skusić rabatem) kosztuje nas 500 USD utraconych przychodów. Każdy fałszywy alarm (lojalny klient, który by nie odszedł, ale i tak otrzymał prezent) kosztuje nas 100 USD utraconych przychodów. Możemy teraz użyć podstawowej rachunkowości, aby powiązać wydajność modelu z a wartość pieniężna:

    Całkowity koszt = 500 $ * FN + 0 $ * TN + 100 $ * PR + 100 $ * TP

    W tym przypadku FN to liczba wyników fałszywie ujemnych, TN to wyniki prawdziwie ujemne, FN to wyniki fałszywie ujemne, a TP to wyniki prawdziwie dodatnie. Możesz użyć tych samych pomysłów w innych sytuacjach, w których używasz binarnego modelu klasyfikacji. Załóżmy na przykład, że opracowujesz zautomatyzowany system kontroli jakości dla linii produkcyjnej. Możesz dostosować model, aby przepuścić więcej elementów (zwiększyć współczynnik wyników fałszywie ujemnych) lub od razu odrzucić więcej elementów (zwiększyć współczynnik wyników fałszywie dodatnich). Te pierwsze mogą przepuszczać więcej wadliwych elementów, prowadząc w ten sposób do większej liczby problemów na dalszych etapach procesu produkcyjnego. To ostatnie może spowodować niepotrzebne marnotrawstwo materiału, ponieważ idealnie drobne produkty są odrzucane. W każdym razie możesz dostosować poprzednią formułę do konkretnej sytuacji biznesowej. Niezależnie od przyjętej strategii, nadal musisz czuć się komfortowo z faktem, że żaden algorytm uczenia maszynowego nie będzie doskonały (jeśli tak, coś jest nie tak). Popełnisz błędy: upewnij się, że te błędy są akceptowalne i że zarówno Ty, jak i Twój algorytm uczysz się z nich.