Mail:





Słowniczek Sztucznej Inteligencji





Uważaj na lukę

O co toczy się gra

Głębokie uczenie i nie tylko

Skoro komputery są tak inteligentne, dlaczego nie potrafią czytać?

Gdzie jest Rosie?

Wglądy z ludzkiego umysłu

Zdrowy rozsądek i droga do głębokiego zrozumienia

Zaufanie

Epilog




Sztuczna Inteligencja : Gry


•  Wprowadzenie

•  Gry AI

•  Ruch

•  Znalezienie drogi

•  Podejmowanie decyzji

•  Taktyczna i strategiczna AI

•  Uczenie się

•  Proceduralne generowanie treści

•  Gry planszowe

•  Zarządzanie wykonaniem

•  Interfejs ze światem

•  Narzędzia i tworzenie treści

•  Programowanie gry AI

•  Projektowanie gry AI

•  Gatunki gier opartych na sztucznej inteligencji



A.I. dla Nie-Techników



•  Część 1 - Podstawy sztucznej inteligencji
•  Część 2 - Dane
•  Część 3 - Uczenie maszynowe
•  Część 4 - Głębokie uczenie
•  Część 5 - Robotic Process Automation
•  Część 6 - Przetwarzanie języka naturalnego (NLP)
•  Część 7 - Roboty fizyczne
•  Część 8 - Wdrażanie sztucznej inteligencji
•  Część 9 - Przyszłość sztucznej inteligencji





Sztuczna Inteligencja i Robotyka

• Co to są inteligentne roboty?

• Krótka historia robotyki

• Automatyzacja i autonomia

• Autonomia organizacji oprogramowania

• Telesystemy

• Zachowania

• Postrzeganie i zachowania

• Koordynacja behawioralna

• Lokomocja

• Czujniki i wykrywanie

• Wykrywanie zasięgu

• Warstwa deliberatywna

• Nawigacja

• Planowanie ścieżek metrycznych i planowanie ruchu

• Lokalizacja, mapowanie i eksploracja

• Uczenie się

• Funkcjonalność interaktywna

• Interakcja Człowiek-Robot

• Projektowanie i ocena systemów autonomicznych

• Etyka




Sztuczna inteligencja: podstawy i zastosowania

Część 1: Sztuczna inteligencja i nanotechnologia: superkonwergencja

Część 2: Sztuczna inteligencja w handlu elektronicznym: analiza procesów biznesowych

Część 3: ABC ery cyfrowej ze szczególnym odniesieniem do sektora bankowego

Część 4: Sztuczna inteligencja w predykcyjnej analizie ubezpieczeń i bankowości

Część 5: Sztuczna inteligencja w robotyce i automatyzacji.

Część 6: Sztuczna inteligencja: nowe podejście w opiece zdrowotnej

Część 7: Sztuczna inteligencja i spersonalizowane leki: Wspólna narracja o postępach w opiece medycznej

Część 8: Nanotechnologia i sztuczna inteligencja w medycynie precyzyjnej w onkologii

Część 9: Zastosowania sztucznej inteligencji w recepturach farmaceutycznych i leków

Część 10: Rola sztucznej inteligencji w diagnozowaniu gruźlicy

Część 11: Zastosowania sztucznej inteligencji w wykrywaniu i leczeniu COVID-19

Część 12: Sztuczna inteligencja oparta na Internecie rzeczy przy użyciu platformy Microsoft Azure

Część 13: Równoważenie obciążenia w bezprzewodowej sieci heterogenicznej za pomocą sztucznej inteligencji

Część 14: Zastosowania technik sztucznej inteligencji w systemach elektroenergetycznych

Część 15: Wpływ sztucznej inteligencji w sektorze lotniczym i kosmicznym

Część 16: Sztuczna inteligencja do prognozowania pogody

Część 17: Górnictwo molekularne: zastosowania w naukach farmaceutycznych




A.I. … i wszystko jasne




Wprowadzenie do Języka R




Język R … od słów do czynów !!!



 + Kody Źródłowe




A.I.: Jaka jest nasza Przyszłość?

[101 Prostych Pytań]




VIDEO



  Hipoteza Riemanna

 Pogadać z Maszyną 1

 Pogadać z Maszyną 2

 Pogadać z Maszyną 3

 Pogadać z Maszyną 4

 Wywiad z maszyną !

 Co słyszy Sztuczna Inteligencja?

 Komputer Kwantowy

 Świadomość Maszyn

 Sztuczna Inteligencja - Szansa czy Zagrożenie?

 This is AI 1

 This is AI 2 : How machines learn

 This is AI 3 : Learnig for life

 This is AI 4: A synthetic sixth sense




Bogowie Sztucznej Inteligencji






SŁOWNIK TERMINÓW ROBOTYCZNYCH




Anatomia Robota

  • Systemy Sterowania
  • Sprzęt Komputerowy
  • Niezawodność, Bezpieczeństwo i Zgodność
  • Kroki Projektowe: HLD
  • Energia i systemy zasilania
  • Kontrola Energii
  • DSP
  • Komunikacja
  • Silniki i Siłowniki
  • Mechanika



  • Artificial Intelligence




    Jak A.I. zmienia nasz świat




    Mity Sztucznej Inteligencji




    Króka Historia A.I.




    Fundamenty


    • Prolog

    • Wprowadzenie do A.I.

    • Definiowanie roli danych

    • Biorąc pod uwagę alogorytmy

    • Pionierski ,specjalistyczny sprzęt

    • Zastosowanie AI w aplikacjach komputerowych

    • Automatyzacja typowych procesów

    • Zastosowanie AI w medycynie

    • A.I. a poprawa interakcji

    • Analiza danych przez A.I.

    • Wykorzystanie machine learning

    • Poprawa A.I. (…)

    • Rozwój robotów

    • Latanie dronami

    • Samochód napędzany A.I.

    • Zroumieć aplikacje bez szans

    • AI w Kosmosie

    • Nowe zawody w erze A.I.

    •  X zawodów dla A.I.(?)

    • Wkład A.I. w społeczeństwo

    • Jak zawiodła A.I.




    "Ocieplamy" Fundamenty


    • Intuicyjna koncepcja sztucznej inteligencji

    • Podstawy wyszukiwania

    • Inteligentne wyszukiwanie

    • Algorytmy Ewolucyjne

    • Zaawansowane podejście ewolucyjne

    • Inteligencja Roju: Mrówki

    • Inteligencja roju: Cząstki

    • Uczenie maszynowe

    • Sztuczne sieci neuronowe

    •  Uczenie się ze wzmocnieniem za pomocą Q-Learning




    XVI Filarów Świątyni ArtInt′a


    • Korzenie i Zakres

    • Reprezentacja i wyszukiwanie

    • Struktury i strategie wyszukiwania

    • Wyszukiwanie Heurystyczne

    • Metody Stochastyczne

    • Budowanie algorytmów sterowania

    • Reprezentacja Wiedzy

    • Silna metoda rozwiązywanie problemów

    • Rozumowanie w niepewnych sytuacjach

    •  Uczenie maszynowe : oparte na symbolach

    • Uczenie maszynowe : koneksjonizm

    • Uczenie maszynowe : genetyczne i awaryjne

    • Uczenie maszynowe : probabilistyczne

    • Automatyczne wnioskowanie

    • Rozumienie języka naturalnego

    • Sztuczna Inteligencja jako pytanie empiryczne




    Sztuczna Inteligencja i Big Data

    Sekcja 1 : Big Data i systemy sztucznej inteligencji

    Sekcja 2 : Ontologia dla dużych zbiorów danych

    Sekcja 3: Uczenie się z dużych zbiorów danych

    Sekcja 4:Sieci neuronowe dla dużych zbiorów danych

    Sekcja 5: Deep Big Data Analytics

    Sekcja 6: Przetwarzanie języka naturalnego

    Sekcja 7: Systemy rozmyte

    Sekcja 8: Programowanie genetyczne

    Sekcja 9: Analiza roju

    Sekcja 10: Uczenie się przez wzmocnienie

    Sekcja 11: Cyberbezpieczeństwo

    Sekcja 12: Obliczenia poznawcze












    Wczoraj , Dziś … Jutro














    Odwiedzin: 22123
    Dzisiaj: 14
    On-line: 1
    Strona istnieje: 1183 dni
    Ładowanie: 0.743 sek


    [ 5977 ]



    Sztuczna Inteligencja z Językiem NetLogo



    LINK



    "Czy wiesz, jak było?": Historia AI

    Historia nie jest klubem, z którego można wyjść do woli. - John Major

    Ile i jaki rodzaj sztucznej inteligencji może znieść człowiek?

    Nauka, którą uprawia się dzisiaj, jest magicznym lustrem, w które musimy zajrzeć, jeśli chcemy ujrzeć przebłysk tego, co ma nadejść.       (Y. Gasset)

    Jak działa sztuczna inteligencja?: Techniki sztucznej inteligencji

    Technologia może nie oszczędza nam czasu, ale inaczej go rozdziela. - Helmar Nahr


    Jak realizowana jest sztuczna inteligencja?: AI określa nasze życie

    Często przyszłość jest tutaj, zanim będziemy na nią gotowi. - John Steinbeck

    Nadal kupujesz, czy już "wpływasz"?: Handel 4.0

    Dla człowieka do działania, jego własne ja jest kiepskim punktem wyjścia. - Francis Bacon

    Gdzie się udać z "ugorem społecznym"?: Przemysł 4.0

    Jedna maszyna może wykonać pracę pięćdziesięciu zwykłych ludzi. Żadna maszyna nie jest w stanie wykonać pracy jednego wyjątkowego człowieka - Elbert Hubbard.

    Jak zmienia się nasza wspólnota?: Społeczne implikacje sztucznej inteligencji

    Prognostyk to człowiek, który ma ponure przeczucia w jasnych chwilach. - Tennessee Williams

    Paradise Times czy End of the World?: Przyszłość z AI

    Futurologia to sztuka drapania, zanim zacznie swędzieć. - Robert Jungk




    Od naturalnej głupoty do sztucznej inteligencji




    Wprowadzenie

    AI dla sprzedaży i marketingu

    AI dla mediów

    AI dla języka naturalnego

    AI do kuracji treści i budowania społeczności

    Gotowy - wyszukiwanie możliwości AI

    Zbiór - przygotowanie danych, technologii i ludzi

    Ta część obejmuje:

    •  Identyfikacja potencjalnych źródeł danych, zarówno wewnątrz jak i na zewnątrz organizacji
    •  Ocena jakości i ilości danych
    •  Zgromadzenie efektywnego zespołu AI

    Ta część zaczyna się tam, gdzie została przerwana część 6. Teraz, gdy już wiesz, jak wykorzystać Płótno Ramowe, aby stworzyć przyjazną dla ML wizję swojego projektu, nadszedł czas, aby zebrać inne potrzebne Ci składniki. Ożywienie projektu wymaga trzech głównych składników: modelu ML, danych i ludzi. Podczas gdy wybór dobrego modelu ML to zadanie dla zespołu technicznego, Twoim zadaniem jest ich zrekrutowanie i stworzenie strategii danych , aby mogli zabrać się do pracy. Ta część koncentruje się na tym, jak znajdować i zarządzać danymi oraz jak rekrutować zespół utalentowanych osób o odpowiednich umiejętnościach dla Twojego projektu.

    Strategia danych

    Jednym z naszych celów było umożliwienie krytycznego myślenia o danych i zrozumienie, w jaki sposób inżynierowie wykorzystują je do tworzenia modeli ML. Ponieważ dane są tak ważne, opracowanie spójnej strategii danych ma kluczowe znaczenie dla powodzenia każdego projektu. W części 1 rozmawialiśmy o danych w sposób, który zakładał, że masz je łatwo dostępne do budowania modeli. Prawdopodobnie można się domyślić, że rzadko tak się dzieje; ten rozdział wypełni luki i pomoże Ci zrozumieć, ile danych potrzebujesz, gdzie możesz je zdobyć i jak nimi zarządzać. Musimy dokonać rozróżnienia między strategią daymi Twojej organizacji i strategią danych Twojego projektu AI. Kiedy media biznesowe lub dyrektorzy mówią o strategii dotyczącej danych , zwykle mają na myśli ogólną strategię pozyskiwania, przechowywania i wykorzystywania danych w całej firmie. Strategia ta wynika z długoterminowych celów i wizji firmy na przyszłość. Ten tekst skupia się na strategii danych projektu , która jest specyficzna dla pojedynczej inicjatywy AI. Koncentracja na konkretnym projekcie jest lepsza niż szeroka z dwóch powodów. Po pierwsze, opracowanie strategii dotyczącej danych nawet dla pojedynczego projektu zmusza do konkretów dotyczących konkretnych danych, które będziesz musiał zebrać, aby zbudować swój projekt, ile będziesz potrzebować i gdzie to dostaniesz. Aby opracować strategię AI, możesz powiedzieć: "Zbudujemy infrastrukturę do zbierania danych z interakcji użytkowników z platformą". Ale aby zbudować projekt AI, musisz powiedzieć: "Wykorzystamy kliknięcia użytkowników, czas spędzany na każdej stronie i udostępnienia społecznościowe, a następnie połączymy to z danymi CRM w celu rekomendowania treści". Ten poziom specyfikacji pomaga Ci zastanowić się, co naprawdę musisz zebrać, aby zbudować swoje projekty. Ktoś musi podjąć decyzję, co dokładnie zebrać, a jeśli wskazówki, które udzielasz zespołowi IT, są zbyt szerokie, wykona to wezwanie, często bez znajomości kontekstu biznesowego. Drugim (i ważniejszym) powodem, dla którego warto pomyśleć o strategii dotyczącej danych projektu AI, jest to, że strategia obejmująca całą organizację powinna opierać się na potrzebach każdego projektu AI, który planujesz realizować. Rozpoczęcie myślenia o strategii danych dla całej firmy bez żadnego doświadczenia jest jak rozpoczęcie myślenia o domu rodzinnym, gdy jesteś samotny. Po prostu nie wiesz, czego będziesz potrzebować. (Czy będziesz mieć zero, jedno czy pięcioro dzieci? Która lokalizacja jest wygodniejsza dla Ciebie i Twojego partnera? Jaki jest gust Twojego partnera? Na co Cię stać?) Tak samo jak indywidualne projekty AI pomagają tworzyć bardziej świadomą wizję AI, podobnie jak budowanie ulepsz swoją strategię dotyczącą danych, ponieważ minimalny zestaw danych potrzebnych do projektów pomaga upewnić się, że zbierasz potrzebne dane. Jeśli zamiast tego zaczniesz od projektów AI, budowanie strategii danych organizacji będzie prostym ćwiczeniem połączenia doświadczenia, które zdobyłeś podczas realizacji każdego projektu. Aby zbudować strategię danych dla projektu AI, musisz wiedzieć, skąd wziąć dane i ile potrzebujesz.

    Skąd mogę uzyskać dane?

    Dane były podstawowym pojęciem w całym tym tekście. Omówiliśmy różne rodzaje danych: ustrukturyzowane dane podstawowe, obrazy oraz dźwięk i język naturalny. Jeśli chcesz zbudować projekt AI, jeszcze ważniejsze rozróżnienie będzie miało na ciebie wpływ: dane, które masz, i dane, których nie masz. Zacznijmy od założenia, że Twoja organizacja posiada dane potrzebne do zbudowania projektu AI. Ponieważ te dane są tworzone i należą do Twojej organizacji, nazwiemy je danymi wewnętrznymi . Część 2 obejmowała już wartość określonego rodzaju danych wewnętrznych, które nazwaliśmy podstawowymi danymi biznesowymi: danymi mającymi bezpośredni wpływ na górną lub dolną linię organizacji. W przypadku naszej platformy nieruchomości mogą to być dane o cenach domów; dla Square Capital są to transakcje ich klientów; lub w przypadku Google dane dotyczące zużycia jego centrów danych (w zasadzie jedyny koszt zmienny). Twoja organizacja prawdopodobnie wytwarza również dane z procesów biznesowych, które mogą nie być bezpośrednio powiązane z głównymi źródłami dochodów lub kosztów. Taki rodzaj danych nazwiemy danymi pomocniczymi . W naszym przykładzie dotyczącym nieruchomości zdjęcia domów i recenzje domów można uznać za dane pomocnicze: nadal interesujące i przydatne, ale nie tak bardzo, jak cechy domów na sprzedaż i ich ceny sprzedaży. Jako kolejny bardziej konkretny przykład rozważmy platformę e-commerce, taką jak Amazon, Zappos w Stanach Zjednoczonych lub Zalando w Europie. W ich przypadku podstawowymi danymi biznesowymi byłyby zakupy każdego klienta, ponieważ są one bezpośrednio skorelowane z przychodami firmy. Dodatkowymi danymi mogą być strony odwiedzane przez klienta, otwarte wiadomości e-mail, recenzje produktów i tak dalej. Możesz budować niesamowite projekty z danymi pomocniczymi, ale najprawdopodobniej nie ma to tak dużego wpływu, jak to, co możesz zbudować z podstawowych danych biznesowych. Zanim przejdziemy dalej, chcemy Cię ostrzec, że posiadanie zestawu danych nie oznacza, że możesz z niego korzystać bezboleśnie. Być może planujesz korzystać z danych klientów, ale nie masz na to pozwolenia - niezależnie od tego, czy klienci odmówili zgody, czy, jak to często bywa, Twoja polityka prywatności nie została napisana, aby uwzględnić wykorzystanie, które planujesz teraz. Nawet jeśli masz pozwolenie na wykorzystanie danych, z naszego doświadczenia wynika, że większość ludzi nie docenia czasu i wyzwań związanych z przejściem od "mamy dane" do faktycznego przeniesienia ich do laptopa analityka danych, gotowego do przetworzenia. Nawet jeśli masz 100% pewności, że Twoja organizacja posiada dane, których potrzebujesz do projektu, nasza szczera sugestia jest taka, abyś spróbował uwzględnić wszystko, co może potencjalnie spowolnić Twoje faktyczne korzystanie z nich. W jednym projekcie, nad którym pracowaliśmy, dział prawny firmy tak utrudnił eksport potrzebnych nam danych, że dosłownie musieliśmy lecieć samolotem, dostać się do ich budynku, podłączyć laptopy, zaszyfrować dane i zabrać je do domu na dysku twardym. W innym projekcie wiedzieliśmy, że firma posiada dane, których potrzebujemy, ale wszyscy staraliśmy się zrozumieć, co oznaczają zmienne w zbiorze danych. Problem polegał na tym, że osoba, która projektowała procesy gromadzenia danych, przeszła na emeryturę i musieliśmy spędzić cały miesiąc na przeprowadzaniu wywiadów, aby zrozumieć dane, na które patrzyliśmy. Omówmy teraz przypadek, w którym jeszcze nie masz danych potrzebnch do projektu. Masz trzy opcje:

    •  Zacznij go zbierać i poczekaj, aż go będziesz mieć.
    •  Znajdź otwarte dane lub zeskrob je z Internetu za darmo.
    •  Kup od dostawców.

    Pierwsza opcja jest najwolniejsza; czasami jest też najdroższy, ale w niektórych przypadkach możesz nie mieć innego wyboru. Załóżmy, że prowadzisz stacjonarny sklep odzieżowy i nie masz systemu kart lojalnościowych ani żadnego innego sposobu śledzenia, kto co kupuje. Jeśli klient wchodzi, nie śledzisz, że ma na imię John i właśnie kupił buty Nike Air Jordan w rozmiarze 10 za 129 dolarów. Jeśli nie zapisałeś tych informacji, czy myślisz, że posiada je jakakolwiek inna firma? Oczywiście w tym przypadku jedyną opcją jest ustanowienie nowych procesów zbierania tych informacji, a następnie czekanie, aż zbierzesz wystarczającą ilość danych. Z drugiej strony, czasami Twoje projekty potrzebują danych, których albo nie możesz zebrać, albo nie chcesz podejmować wysiłku, aby je zebrać. Drugą opcją w tym przypadku jest użycie otwartych danych. To niesamowite, ile darmowych danych możesz uzyskać z Internetu. Przykładem są otwarte dane, które rządy często udostępniają jako źródło, z których możesz swobodnie korzystać w swoich projektach. Na przykład możesz wykorzystać dane o dochodach dla swojego kraju, aby skoncentrować swój marketing na najbogatszych obszarach. Oto kilka innych świetnych miejsc, w których można szukać otwartych zbiorów danych:

    •  kaggle.com - strona internetowa, na której firmy lub osoby prywatne mogą organizować konkursy ML i przesyłać zbiory danych.
    •  arxiv.org - bezpłatne repozytorium artykułów naukowych. Gdy badacze zbierają nowe zestawy danych, piszą i publikują artykuły naukowe, aby zaprezentować je społeczności naukowej, a także często udostępniają swoje zestawy danych.
    •  github.com - repozytorium kodu open source.

    Korzystając ze zbiorów danych stron trzecich, należy zwracać uwagę na jakość danych i kwestie prawne. Wiele z tych zbiorów danych jest tworzonych na zasadzie "najlepszych starań" i gromadzonych w razie potrzeby w celu obsługi nowych algorytmów lub obszarów zastosowań; często jakość danych nie jest gwarantowana. Ponadto wiele publicznie dostępnych zbiorów danych jest udostępnianych na licencji niekomercyjnej, co oznacza, że nie można ich używać do celów biznesowych; zawsze sprawdzaj, czy możesz użyć otwartego zbioru danych do zamierzonych celów. Trzecią opcją jest kupowanie danych od dostawców. Ta strategia może być czasami bardzo kosztowna, a także może postawić Cię w niebezpiecznej sytuacji, ponieważ możesz na zawsze polegać na tych dostawcach. Zanim zdecydujesz się na tę drogę, sugerujemy, abyś najpierw poświęcił wystarczająco dużo czasu na ocenę powiązanych kosztów długoterminowych i ustalenie, czy istnieje wielu dostawców, od których można je kupić. Jeśli jest tylko jeden, musisz znaleźć strategię, która zapewni sobie ochronę na wypadek, gdyby zniknęli z biznesu lub zmienili swoją strategię biznesową i przestali sprzedawać Ci swoje dane. W obu przypadkach zachęcamy do krytycznego myślenia o zestawach danych pochodzących spoza organizacji. Z definicji, jeśli jakieś dane są ogólnie dostępne - za darmo lub za pieniądze - oznacza to, że wszyscy inni też mogą je uzyskać. Często projekty oparte na zewnętrznych źródłach danych będą miały trudniejszy czas na rynku, ponieważ mogą być łatwo replikowane przez konkurencję. Niektóre z najsilniejszych projektów AI opierają się na zastrzeżonych zestawach danych, które są trudne do odtworzenia dla innych. Podsumowując, ściany Twojej organizacji (lub wirtualne jej centrum danych) mają duży wpływ na strategię danych Twojego projektu AI. Jeśli dane mieszczą się w granicach Twojej organizacji, masz unikalny i bardzo cenny zestaw danych, którego możesz użyć. W przeciwnym razie musisz go zdobyć za darmo lub kupić. W obu przypadkach weź pod uwagę zobowiązania, które wiążą się z tymi opcjami. Oczywiście możesz łączyć dane wewnętrzne i zewnętrzne. Właściwie to często dobry pomysł. Przykładem jest nasz predyktor cen nieruchomości: mogliśmy wykorzystać bezpłatne dane rządowe dotyczące dochodów każdej dzielnicy, aby ulepszyć model. Możesz nawet użyć danych z OpenStreetMap lub Google Maps, aby sprawdzić obecność usług i transportu publicznego w różnych dzielnicach, dodając kolejny wymiar do predyktora ceny domu. W projekcie, który zbudowaliśmy dla dużej organizacji, wykorzystaliśmy wszelkiego rodzaju dane. Firma posiadała dane o sprzedaży ze swoich sklepów, ale chcieliśmy zobaczyć korelacje między wynikami sprzedaży a danymi demograficznymi, więc zebraliśmy bezpłatne dane ze spisu. Dane ze spisu powszechnego, które były powszechnie dostępne, były przez większość czasu OK, ale w przypadku niektórych miast potrzebowaliśmy bardziej szczegółowego obrazu populacji. Następnie zwróciliśmy się do wyspecjalizowanych dostawców zewnętrznych i zintegrowaliśmy ich dane. Zauważ, że podczas gdy dane o sprzedaży są aktualizowane każdego dnia, dane demograficzne zmieniają się znacznie wolniej, więc nie było problemu poleganie na źródłach zewnętrznych. Gdziekolwiek otrzymujesz swoje dane, część informacji może stworzyć lub zepsuć Twój projekt: etykiety. Pamiętaj, że jeśli uczysz nadzorowanego algorytmu uczenia, komputer musi nauczyć się tworzyć liczbę lub klasę (etykietę) na podstawie innych liczb (funkcje). W większości przypadków możesz obejść brakujące funkcje, ale możesz mieć duże kłopoty, jeśli nie masz etykiet. Innymi słowy, jeśli chodzi o dane, etykiety są o wiele ważniejsze niż funkcje. Posłużmy się przykładem predyktora ceny domu. Naszą etykietą jest cena za jaką dom jest sprzedawany, a naszymi cechami może być powierzchnia, liczba pokoi, obecność ogrodu i tak dalej. Załóżmy, że projektując interfejs dla swojej witryny internetowej, nie pomyśleliście o dodaniu pola, które pozwoli użytkownikom określić, czy w ich domu jest ogród. Dlatego nie masz tych informacji w swojej bazie danych i nie możesz ich użyć do zbudowania modelu. Jednak nadal masz inne istotne cechy zawarte w formularzu wykazu domów, w tym powierzchnię, liczbę pokoi i lokalizację. Nawet bez pola "ogrodowego" prawdopodobnie nadal będziesz w stanie zbudować przyzwoicie dokładny model. Z drugiej strony, jeśli zapomnisz zapytać użytkowników o cenę sprzedaży, całkowicie się zgubisz. Bez etykiet nie ma możliwości zbudowania nadzorowanego modelu uczenia się. Etykiety można zbierać na trzy sposoby:

    •  Naturalnie
    •  Hakerstwo
    •  Płacenie

    Naturalne etykiety są generowane przez Twoje procesy biznesowe. Na przykład, jeśli Twoja platforma nieruchomości poprosi klientów o wprowadzenie ceny sprzedaży domu podczas usuwania swojej oferty, naturalnie otrzymasz etykietę. Google naturalnie oszczędzał dane na temat wydajności energetycznej swoich centrów danych, ponieważ Google je obsługiwał. Amazon przechowuje w bazie danych wszystko, co kupiłeś. Wszystkie te informacje są przechowywane w celu prowadzenia działalności i mogą być w razie potrzeby wykorzystywane jako etykiety. Czasami etykiety nie są tak łatwe do zdobycia, ale nadal możesz znaleźć sprytne hacki, aby je zdobyć. Przykładem jest to, co Amazon robi z recenzjami produktów. Kiedy piszesz opinię o swojej miłości do nowego odkurzacza, dodajesz również ocenę w postaci gwiazdek (powiedzmy od 1 do 5). Wynik może być używany jako etykieta dla systemu analizy sentymentu. Zasadniczo dajesz Amazonowi zarówno dane wejściowe (recenzja tekstu), jak i etykietę (wynik w postaci gwiazdek), których może użyć do zbudowania technologii analizy sentymentu, za darmo. Innym przykładem jest Facebook, który na początku prosił użytkowników o oznaczanie znajomych na zdjęciach, klikając ich twarze. Facebook mógł po prostu poprosić Cię o napisanie, kto jest na zdjęciu, ale klikając twarz, dajesz Facebookowi przybliżoną etykietę algorytmów rozpoznawania obrazu. W końcu prawdopodobnie przyszło Ci do głowy, że rejestrując się w nowym serwisie internetowym, zostałeś poproszony o żmudne zadanie, takie jak znajdowanie samochodów na zdjęciach, aby udowodnić, że jesteś człowiekiem. Ta usługa nazywa się Google reCAPTCHA i do tej pory prawdopodobnie zgadłeś, do czego jest używana: za darmo nadajesz firmowe etykiety dla jej algorytmów ML. W niektórych przypadkach jedyną opcją jest płacenie ludziom za etykietowanie przykładów. Powszechnym wzorcem etykietowania danych jest korzystanie z platformy crowdsourcingowej, takiej jak Amazon Mechanical Turk, która zapewnia na żądanie, płatny za minutę dostęp do tymczasowej siły roboczej rozproszonej na całym świecie. W przypadku Mechanical Turk jedyne, na co możesz liczyć, to to kontrahenci będą mieli połączenie z Internetem: ponieważ zwykle są nieprzeszkoleni, musisz przygotować materiały szkoleniowe i interfejs do etykietowania, z którego pracownik może skorzystać, aby wybrać prawidłowe etykiety dla przykładów szkoleniowych. Ogólnie rzecz biorąc, platformy crowdsourcingowe są dobre do oznaczania zadań, które nie wymagają dużego szkolenia. Jeśli pracujesz nad projektem, który wymaga ludzkiego rozumowania na wysokim poziomie (powiedzmy, znajdowania komórek rakowych na skanach mikroskopowych), lepiej byłoby zebrać własną wysoko wykwalifikowaną siłę roboczą. Gdy już masz jasny obraz tego, skąd wziąć potrzebne dane, następnym krokiem jest ustalenie, ile potrzebujesz.

    Ile danych potrzebuję?

    Często widzieliśmy ludzi wpadających w pułapkę big data . Pocieszające jest myślenie, że posiadanie dużej ilości danych to srebrna kula do odblokowania niesamowitych możliwości. Ale jak zobaczysz w kolejnych sekcjach, jakość danych jest często ważniejsza niż ilość danych . Ilość danych potrzebnych do zbudowania produktu AI silnie zależy od samego produktu. W grę wchodzi tak wiele zmiennych, że podanie precyzyjnych reguł, takich jak "będziesz potrzebować danych od 10 523 klientów, aby zbudować 93% dokładny model przewidywania rezygnacji" jest po prostu niemożliwe w praktyce. To, co możemy Ci dać, to wskazówki, które mogą pomóc rozwinąć Twoją intuicję w zakresie wymagań dotyczących danych w przypadku najczęstszych rodzajów problemów, jakie możesz napotkać w świecie biznesu. Uważamy, że warto podzielić naszą prezentację według rodzaju danych, z którymi będzie miał do czynienia Twój projekt, tak jak zrobiliśmy to w pierwszej części książki. Porozmawiajmy najpierw o projektach, które wymagają uporządkowanych danych, takich jak przewidywanie cen domów czy odpływ klientów. Musisz wziąć pod uwagę trzy czynniki: * Czy cel (rzecz, którą chcesz przewidzieć) jest liczbą (regresja) czy wyborem (klasyfikacja)

    •  W przypadku problemów z klasyfikacją liczba zajęć, które Cię interesują
    •  Liczba funkcji, które wpływają na cel

    Zacznijmy od funkcji. Pamiętaj, że dane strukturalne to rodzaj danych, które przeglądasz po otwarciu arkusza Excela i są one zorganizowane w wiersze i kolumny. Dobrym sposobem myślenia o wymaganiach dotyczących danych jest wyobrażenie sobie, że gdybyś mógł wyświetlić swój zestaw danych na jednym ekranie, chciałbyś, aby dane wyglądały na bardzo cienkie i wysokie. Potrzebujesz znacznie więcej wierszy niż kolumn. Dzieje się tak, ponieważ wiersze wskazują przykłady, a kolumny wskazują cechy, z których model musi się uczyć. Intuicyjnie, im więcej informacji musi się nauczyć model (im więcej cech), tym więcej przykładów musi zobaczyć, aby zrozumieć, jak cechy wpływają na cel (co oznacza więcej wierszy). Jeśli nie masz wystarczającej liczby przykładów i zbyt wielu funkcji, niektóre kolumny mogą być nawet bezużyteczne lub mylące! Weźmy na przykład zestaw danych o cenie domu, taki jak ten w części 2. Dodanie kolumny ze znakiem zodiaku sprzedającego raczej nie poprawi dokładności prognoz cenowych. Jednak modele ML nie mogą wyciągać zdroworozsądkowych wniosków a priori: muszą je rozgryźć na podstawie danych. Dopóki masz wystarczającą liczbę wierszy (przykładów), większość rodzin modeli rzeczywiście jest w stanie to zrobić i słusznie "ignoruje" kolumnę znaku zodiaku. Jeśli jednak masz za mało danych treningowych, model nadal będzie starał się oszacować, jak znak zodiaku wpływa na cenę, dochodząc do liczbowo poprawnych, ale mylących wniosków. Jako skrajny przykład wyobraź sobie, że jedyny dom o wartości 1 miliona dolarów w zestawie danych został sprzedany przez Bliźnięta. Z pewnością nie oznacza to, że prognozy cenowe domów sprzedawanych przez Geminis powinny być wyższe niż te dotyczące domów sprzedawanych przez Barana. Większość modeli będzie w stanie uniknąć tego błędu, jeśli zbiór danych zawiera wiele willi za milion dolarów (zestaw danych z wieloma przykładami), ponieważ kupujący będą mieli wiele różnych znaków zodiaku, a ich wpływ można prawidłowo oszacować. Jeśli jednak nie masz wielu przykładów, model może "pomyśleć", że znak zodiaku jest motorem wartości domu. Przejdźmy teraz do szczegółów problemów klasyfikacji lub regresji. W problemach z klasyfikacją próbujesz przewidzieć, czy przykład należy do dwóch lub więcej klas. Pierwsze przykłady klasyfikacji w tej książce były następujące:

    •  Algorytmy kwalifikacji pożyczki Square w rozdziale 2, które dawały klientom jedną z dwóch klas: kwalifikujący się do pożyczki lub nie kwalifikujący się
    •  Przewidywanie rezygnacji z rozdziału 3, które oznaczało, że klient ma zamiar zrezygnować z usługi lub nie.

    Zakładając, że masz skromną liczbę funkcji (powiedzmy 10), powinieneś zaplanować co najmniej 1000 przykładów na każdą klasę, którą masz w swoim problemie. Na przykład w modelu odejścia klientów, który ma tylko dwie klasy (lojalną i nielojalną), możesz chcieć zaplanować co najmniej 2000 przykładów. Intuicyjnie, im więcej klas ma do czynienia z modelem, tym więcej przykładów będzie musiał zobaczyć, aby nauczyć się rozróżniać wszystkie klasy.

    Trudniej jest podać podobne reguły dla modeli regresji, ponieważ mogą one modelować bardziej złożone scenariusze i zjawiska. Wiele modeli regresji opiera się na danych szeregów czasowych , czyli specjalnym rodzaju danych, które opisują, jak pomiary lub liczby zmieniają się w czasie. Przykładem jest studium przypadku centrum danych Google z rozdziału 2, w którym zebrano pomiary środowiskowe w ciągu dnia. Innym przykładem, z którym możesz być bardziej zaznajomiony, są dane finansowe (na przykład cena akcji).

    W danych szeregów czasowych liczba zbieranych punktów danych nie jest tak ważna, jak okres, w którym je zbierasz. Powód jest dość intuicyjny: załóżmy, że jesteś Jimem Gao, inżynierem centrum danych Google z rozdziału 2, i zbierasz jeden punkt danych na sekundę z systemu klimatyzacji DC. Jeśli zbierzesz dane od stycznia do marca, będziesz mieć prawie 8 milionów punktów danych (3 miesiące × 30 dni w miesiącu × 24 godziny na dobę × 60 minut na godzinę × 60 sekund na minutę). Mając tak wiele punktów, możesz pomyśleć, że masz świetny zbiór danych, a Twoje modele mogą być bardzo dokładne . . . przez kilka dni. Ale co się dzieje, gdy zbliża się lato i rośnie temperatura? Model nie wie, jak zachowuje się centrum danych w najgorętszych miesiącach roku, ponieważ został przeszkolony przy użyciu wyłącznie danych zimowych. Mówiąc o sztucznej inteligencji dla mediów, najprostsze zadania klasyfikacji obrazów (pomyśl koty kontra psy) wymagają około kilkuset przykładów dla każdej klasy (słynny zbiór danych ImageNet zawiera około 700-800 obrazów na klasę). Jeśli miałbyś wybrać klasy bardziej do siebie podobne (np. rasy psów), liczba wymaganych próbek wzrasta do tysięcy, ponieważ model będzie potrzebował więcej przykładów, aby przyswoić subtelniejsze różnice. Jeśli korzystasz z uczenia transferu, zaczynasz uczenie od istniejącego modelu wytrenowanego na ogromnych zestawach danych, takich jak ImageNet (jak wyjaśniono w rozdziale 4), i możesz uzyskać dobrą wydajność w setkach obrazów (lub nawet dziesiątkach). do bardzo prostych zadań). Podanie podobnych wytycznych dla aplikacji w języku naturalnym jest trudniejsze, tylko dlatego, że krajobraz zadań jest bardziej zróżnicowany. W przypadku prostszych zadań, takich jak analiza sentymentu lub klasyfikacja tematów, 300-500 przykładów dla każdej klasy może wystarczyć, zakładając, że używasz uczenia transferu i osadzania słów. Teraz, gdy masz już wskazówki dotyczące ilości danych, które powinieneś zbierać, powinieneś zrozumieć, że nie wszystkie punkty danych mają takie samo znaczenie podczas uczenia modeli. Dodanie szczególnie złych przykładów może nawet przynieść odwrotny skutek i zmniejszyć ogólną dokładność modelu. To jest temat następnej sekcji.