AI : Technologie, Aplikacje i Wyzwania : ANPPR z wykorzystaniem głębokiego uczenia

https://aie24.pl/

Tesseract OCR działa skutecznie tylko ze starannie oczyszczonymi i wstępnie przetworzonymi obrazami wejściowymi. Zaawansowane modele głębokiego uczenia są preferowane głównie w niekontrolowanym środowisku. Jednak uczenie modelu uczenia głębokiego wymaga dużej ilości danych uczących, a adnotowanie tysięcy obrazów z zestawu danych zajmuje niezliczone godziny. Duże i solidne zbiory danych ANPR do szkolenia/testowania są trudne do uzyskania z następujących powodów:

  1. Te zbiory danych zawierają wrażliwe dane osobowe, w tym czas i lokalizację pojazdu oraz jego kierowcę.
  2. Firmy ANPR i podmioty rządowe ściśle strzegą tych zbiorów danych jako informacji zastrzeżonych.

Ze względu na brak dużego odpowiedniego zbioru danych, tylko tradycyjne techniki przetwarzania obrazu są często wdrażane w systemie ANPR bez modelu głębokiego uczenia się. Pierwszym krokiem w budowie systemu ANPR jest zwykle zebranie danych i zgromadzenie wystarczającej liczby przykładowych tablic w różnych warunkach. W takim przypadku duży zestaw obrazów różnych rodzajów pojazdów o różnych wymiarach płyt w różnych warunkach oświetleniowych i cechach kolorystycznych musi zostać przechwycony lub zebrany z innego źródła. Aby poprawić rozpoznawanie OCR przy użyciu podobnych obrazów znaków podczas uczenia, należy zebrać zestaw danych zawierający wszystkie powszechnie występujące znaki alfanumeryczne na tablicach rejestracyjnych z wieloma przykładami. W celu wdrożenia w pełni funkcjonalnego systemu konieczne jest zintegrowanie obrazu z kamer CCTV w czasie rzeczywistym z systemem ANPR, generującym klatki obrazu w przypadku wykrycia poruszającego się pojazdu. Przechwycony obraz jest dalej przetwarzany przed podaniem danych wejściowych do modułów ANPR. Jest to następnie wprowadzane do wytrenowanego modelu uczenia głębokiego w celu zlokalizowania tablicy rejestracyjnej i rozpoznania tekstu znajdującego się na tablicy rejestracyjnej. Kroki związane z ogólnym wykonaniem są wymienione w kolejności poniżej:

Akwizycja obrazu: przechwytywanie klatek wejściowych poruszającego się pojazdu za pomocą kamery wideo.

Wykrywanie płyt: algorytm wykrywania obiektów oparty na głębokim uczeniu, używany do identyfikacji obiektów na obrazie lub filmie. Model wykrywania obiektów jest szkolony na wielu tablicach rejestracyjnych, aby wykryć położenie tablicy rejestracyjnej. Lokalizacja ramki ograniczającej, która zawiera tablicę rejestracyjną i punktację, wskazuje pewność, czy wykrycie jest prawidłowe.

Fazy ​​wstępnego przetwarzania obrazu to:

  1. Konwersja obrazu RGB na obraz w skali szarości: Przetwarzanie obrazu RGB jest złożone i czasochłonne, dlatego obraz kolorowy jest konwertowany na obraz w skali szarości.
  2. Wzmocnienie obrazu: Adaptacyjna korekcja histogramu ma na celu zwiększenie kontrastu obrazu (obraz w kolorze szarym). Tworzy się kilka histogramów, każdy dla odrębnego regionu obrazu. Jest to korzystne, ponieważ zwykle istnieje tylko jeden histogram dla całego obrazu. Oprócz tego wykonywane jest filtrowanie mediów w celu usunięcia szumu z obrazu. Po tym następuje binaryzacja, w której szary obraz jest przekształcany w obraz o wartościach czystej czerni i czystej bieli.

Segmentacja: na tym etapie obraz, który jest silnie współbrzmiący z obiektami lub obszarami zawartymi w przechwyconym obrazie, jest podzielony na przedziały.

Wykrywanie krawędzi: Krawędź to granica między dwoma regionami o stosunkowo odrębnych właściwościach poziomu szarości. Wykrywa nieciągłości w wartościach natężenia. Podstawowym krokiem w rozpoznaniu płytki jest wykrycie jej kształtu (prostokąta); w ten sposób wykrywana jest krawędź prostokątnej płyty. Używając operatora Sobela, krawędzie obrazu są podświetlane. To z kolei zmniejsza ilość danych w obrazie i przetwarza wymagane dane do dalszego wykorzystania.

Morfologiczne przetwarzanie obrazu: element strukturyzujący używany do tworzenia danych wyjściowych o tym samym rozmiarze za pomocą dylatacji i dodawania pikseli do granicy obiektu w celu zwiększenia grubości krawędzi. Użycie operacji zmniejszania powoduje rozrzedzenie obrazu w celu wyeliminowania nieistotnych części.

Próg: W tej metodzie pikselom znajdującym się powyżej i poniżej wybranej wartości progowej przyznaje się dwa różne poziomy. Aby oddzielić obiekt od obrazu tła, jest on konwertowany w formie binarnej. Próg poziomu szarości to prosty proces. Wartość progu jest wybierana i porównywana z pikselem obrazu. Przekształca również obraz wejściowy w wyjściowy obraz binarny, który jest segmentowany. W progu globalnym histogram obrazu jest podzielony przy użyciu pojedynczej wartości progowej. Próg oznacza poziom szarości mieszczący się między granicą linii bazowej, która leży pomiędzy pikselami znajdującymi się na pierwszym planie i w tle.

Segmentacja: Segmentacja znaków jest pomostem między ekstrakcją tablic rejestracyjnych a rozpoznawaniem znaków. W tym przypadku różne znaki na powierzchni tablicy rejestracyjnej są podzielone na segmenty. Różne przyczyny, takie jak zróżnicowanie oświetlenia, ramy płyt i rotacja, utrudniają prace segmentacyjne. Metoda segmentacji jest również znana jako analiza ramki granicznej. Dzięki tej metodzie znaki są przypisywane do połączonych komponentów, które są wyodrębniane za pomocą analizy ramki granicznej. Proces segmentacji zostaje zakończony po zmniejszeniu szumu w obrazie.

Rozpoznawanie znaków: Metoda rozpoznawania znaków jest uzupełniana przez wyodrębnienie cech znaków i ich różnych technik klasyfikacji. Do rozpoznawania znaków z tablicy rejestracyjnej wykorzystywany jest algorytm uczenia maszynowego.

Transfer uczenia się i uczenie wielozadaniowe

https://aie24.pl/

W uczeniu transferowym doświadczenie z jednym zadaniem edukacyjnym pomaga agentowi lepiej uczyć się w innym zadaniu. Na przykład osobie, która już nauczyła się grać w tenisa, zazwyczaj łatwiej będzie nauczyć się pokrewnych sportów, takich jak racquetball i squash; pilot, który nauczył się latać jednym typem komercyjnego samolotu pasażerskiego, bardzo szybko nauczy się latać innym typem; uczniowi, który już nauczył się algebry, łatwiej jest nauczyć się rachunku różniczkowego. Nie znamy jeszcze mechanizmów uczenia się transferu człowieka. W przypadku sieci neuronowych uczenie polega na dostosowaniu wag, więc najbardziej prawdopodobną metodą uczenia transferu jest skopiowanie wag wyuczonych dla zadania A do sieci, która będzie wytrenowana dla zadania B. Wagi są następnie aktualizowane przez opadanie gradientu w zwykły sposób wykorzystania danych w zadaniu B. Dobrym pomysłem może być użycie mniejszej szybkości uczenia się w zadaniu B, w zależności od tego, jak podobne są zadania i ile danych wykorzystano w zadaniu A. Zauważ, że takie podejście wymaga ludzkiej wiedzy w zakresie wyboru zadania: na przykład wagi wyuczone podczas treningu algebry mogą nie być zbyt przydatne w sieci przeznaczonej do racquetballa. Ponadto pojęcie wag kopiowania wymaga prostego odwzorowania przestrzeni wejściowych dla dwóch zadań i zasadniczo identycznej architektury sieci. Jednym z powodów popularności uczenia transferowego jest dostępność wysokiej jakości przeszkolonych modeli. Na przykład, możesz pobrać wstępnie wyszkolony model rozpoznawania obiektów wizualnych, taki jak model ResNet-50 wyszkolony na zestawie danych COCO, oszczędzając w ten sposób tygodnie pracy. Stamtąd możesz modyfikować parametry modelu, dostarczając dodatkowe obrazy i etykiety obiektów dla konkretnego zadania. Załóżmy, że chcesz sklasyfikować typy monocykli. Masz tylko kilkaset zdjęć różnych monocykli, ale zbiór danych COCO zawiera ponad 3000 zdjęć w każdej z kategorii rowerów, motocykli i deskorolek. Oznacza to, że model przeszkolony w COCO ma już doświadczenie z kołami i drogami oraz innymi istotnymi funkcjami, które będą pomocne w interpretacji obrazów monocykla. Często będziesz chciał zamrozić kilka pierwszych warstw wstępnie wytrenowanego modelu — warstwy te służą jako detektory cech, które przydadzą się w nowym modelu. Twój nowy zestaw danych będzie mógł modyfikować tylko parametry wyższych poziomów; są to warstwy, które identyfikują cechy specyficzne dla problemu i dokonują klasyfikacji. Czasami jednak różnica między czujnikami powoduje, że nawet warstwy najniższego poziomu wymagają przeszkolenia. Jako kolejny przykład, dla tych, którzy budują system języka naturalnego, często zaczyna się od wytrenowanego modelu, takiego jak model ROBERTA (patrz Rozdział 25.6), który już „wie” bardzo dużo o słownictwie i składni języka potocznego. Następnym krokiem jest dostrojenie modelu na dwa sposoby. Po pierwsze, podając mu przykłady słownictwa specjalistycznego używanego w pożądanej dziedzinie; być może domena medyczna (gdzie dowie się o „zawale mięśnia sercowego”) lub może domena finansowa (gdzie dowie się o „odpowiedzialności powierniczej”). Po drugie, trenując model pod kątem zadania, które ma wykonać. Jeśli ma odpowiadać na pytania, wytrenuj go na parach pytanie/odpowiedź. Jednym z bardzo ważnych rodzajów uczenia się transferu jest transfer między symulacjami a światem rzeczywistym. Na przykład kontroler autonomicznego samochodu może zostać przerzucony na miliardy mil symulowanej jazdy, co byłoby niemożliwe w prawdziwym świecie. Następnie, po przejściu kontrolera do prawdziwego pojazdu, szybko dostosowuje się do nowego środowiska. Uczenie się wielozadaniowe to forma uczenia się transferowego, w której jednocześnie szkolimy model na wielu celach. Na przykład, zamiast trenować system języka naturalnego w zakresie znakowania części mowy, a następnie przenosić wyuczone wagi do nowego zadania, takiego jak klasyfikacja dokumentów, trenujemy jednocześnie jeden system w zakresie znakowania części mowy, klasyfikacji dokumentów, wykrywania języka , przewidywanie słów, modelowanie trudności zdań, wykrywanie plagiatu, wywoływanie zdań i odpowiadanie na pytania. Pomysł polega na tym, że aby rozwiązać dowolne z tych zadań, model może być w stanie wykorzystać powierzchowne cechy danych. Ale aby rozwiązać wszystkie osiem naraz za pomocą wspólnej warstwy reprezentacji, model z większym prawdopodobieństwem utworzy wspólną reprezentację, która odzwierciedla rzeczywiste użycie i treść języka naturalnego.

AMG: Na czym polega ta „zmowa”?

https://www.remigiuszkurczab.pl/aspergeraut.php

Jeśli chodzi o Pomysł 1, związek oparty na zmowie wymaga dużo pracy na froncie uwagi/intymności na wczesnym etapie. Jeśli chodzi o Pomysł 2, oznacza to zerwanie z konwencjonalną męską grą (jak już omówiono). Jeśli chodzi o Pomysł 3, wiąże się to z wieloma treningami i pozycjonowaniem w przestrzeni relacji, zanim spróbujesz czegoś jawnie intymnego lub seksualnego.

AI : Technologie, Aplikacje i Wyzwania : Technologie i ich definicje

https://aie24.pl/

Intencją proponowanego systemu jest wykorzystanie niektórych wbudowanych pakietów do wdrożenia niektórych tradycyjnych technik przetwarzania obrazu z naciskiem na operacje morfologiczne w celu identyfikacji konturu z tablicą rejestracyjną. Ta sekcja jest przeznaczona dla czytelników, którzy nie mają jasnego pojęcia o definicjach/celach niektórych bibliotek i technologii.

(a) Optyczne rozpoznawanie znaków: OCR to elektroniczna lub mechaniczna konwersja obrazów tekstu pisanego na maszynie, odręcznie lub drukowanego na tekst zakodowany maszynowo, z zeskanowanego dokumentu, zdjęcia dokumentu, zdjęcia sceny (na przykład tekst na znakach i billboardach na zdjęciu poziomym) lub z tekstu napisów nałożonych na obraz. Jest to powszechna metoda digitalizacji tekstów drukowanych, dzięki czemu można je elektronicznie edytować, przeszukiwać, przechowywać w bardziej zwarty sposób, wyświetlać online i wykorzystywać w procesach maszynowych, takich jak przetwarzanie kognitywne, tłumaczenie maszynowe, (wyodrębnione) zamiana tekstu na mowę i kluczowanie. eksploracja danych i tekstu. OCR to dziedzina badań nad rozpoznawaniem wzorców, sztuczną inteligencją i widzeniem komputerowym.

(b) OpenCV: OpenCV to biblioteka Pythona zaprojektowana do rozwiązywania problemów z widzeniem komputerowym. Jest to biblioteka funkcji programistycznych ukierunkowanych głównie na widzenie komputerowe w czasie rzeczywistym. Obsługuje wysoce ulepszone moduły głębokiego uczenia. Obsługuje również kilka platform uczenia głębokiego, w tym Caffe, TensorFlow i Torch/PyTorch. Obsługuje interfejsy API do używania wstępnie wytrenowanych modeli uczenia głębokiego, które są zgodne z wieloma językami, takimi jak C++, API i Python.

(c) Tesseract: Tesseract to mechanizm optycznego rozpoznawania znaków typu open source i program wiersza poleceń. Jest wydany na licencji Apache. W najnowszej wersji Tesseract większy nacisk położono na rozpoznawanie linii; jednak nadal obsługuje starszy silnik Tesseract OCR, który rozpoznaje wzorce znaków. Może być używany bezpośrednio lub (dla programistów) za pomocą interfejsu API do wyodrębniania drukowanego tekstu z obrazów. Obsługuje szeroką gamę języków. Tesseract nie ma wbudowanego GUI, ale jest kilka dostępnych od zewnętrznych dostawców.

(d) Sieci neuronowe: Sieci neuronowe wykorzystują neurony do przesyłania danych w postaci wartości wejściowych i wyjściowych poprzez połączenia. Są one luźno modelowane na ścieżkach neuronalnych w ludzkim mózgu, aby poznać przydatne funkcje.

(e) Splotowa sieć neuronowa: Jest to architektura warstwowa, w której każdy węzeł sieci (punkt połączenia) ma możliwość przetwarzania danych wejściowych i przekazywania danych wyjściowych do innych węzłów w sieci.

Tłumaczenie nienadzorowane

https://aie24.pl/

Zadania tłumaczeniowe, szeroko rozumiane, polegają na przekształceniu wejścia x, które ma bogatą strukturę, w wyjście y, które również ma bogatą strukturę. W tym kontekście „bogata struktura” oznacza, że ​​dane są wielowymiarowe i mają interesujące zależności statystyczne między różnymi wymiarami. Obrazy i zdania w języku naturalnym mają bogatą strukturę, ale pojedyncza liczba, taka jak identyfikator klasy, nie. Przekształcenie zdania z angielskiego na francuski lub przekształcenie zdjęcia sceny nocnej w równoważne zdjęcie wykonane w ciągu dnia to przykłady zadań tłumaczeniowych. Translacja nadzorowana polega na zebraniu wielu (x,y) par i nauczeniu modelu, aby odwzorował każdy x na odpowiadający y. Na przykład systemy tłumaczenia maszynowego są często szkolone na parach zdań, które zostały przetłumaczone przez profesjonalnych tłumaczy. W przypadku innych rodzajów tłumaczeń nadzorowane dane szkoleniowe mogą być niedostępne. Rozważmy na przykład zdjęcie sceny nocnej zawierającej wiele poruszających się samochodów i pieszych. Prawdopodobnie nie jest możliwe znalezienie wszystkich samochodów i pieszych i przywrócenie ich do ich pierwotnych pozycji na zdjęciu nocnym, aby ponownie zrobić to samo zdjęcie w ciągu dnia. Aby przezwyciężyć tę trudność, można użyć nienadzorowanych technik translacji, które są zdolne do uczenia się na wielu przykładach x i wielu oddzielnych przykładach y, ale bez odpowiadających im par (x,y). Podejścia te są generalnie oparte na sieciach GAN; na przykład można wytrenować generator GAN, aby wytworzył realistyczny przykład y, gdy jest on uwarunkowany x, a inny generator GAN, aby wykonać odwrotne mapowanie. Ramy treningowe GAN umożliwiają trenowanie generatora w celu wygenerowania dowolnej z wielu możliwych próbek, które dyskryminator akceptuje jako realistyczny przykład y przy danym x, bez żadnej potrzeby konkretnego sparowanego y, jak to jest tradycyjnie potrzebne w uczeniu nadzorowanym.

AI : Technologie, Aplikacje i Wyzwania : Przypadki brzegowe i założenia

https://aie24.pl/

  • Tablice europejskie i międzynarodowe są często dłuższe i nie tak wysokie jak tablice rejestracyjne w USA. W tym rozdziale nie bierzemy pod uwagę tablic rejestracyjnych w USA.
  • Czasami motocykle i duże wywrotki montują płyty z boku.
  • W niektórych krajach i regionach można stosować płyty wielowierszowe o współczynniku proporcji zbliżonym do 1:1.
  • Nie wszystkie samochody mają podobny kontrast w kolorze tablicy rejestracyjnej, dlatego zakłada się jaśniejsze tło z ciemniejszym tekstem.

Wdrożenie systemu ANPR jest trudne ze względu na następujące ograniczenia:

  • Ogromna różnorodność i asortyment typów tablic rejestracyjnych w różnych stanach i krajach.
  • Dynamiczne warunki oświetleniowe, w tym odbicia, cienie i rozmycie
  • Pojazdy szybko poruszające się
  • Przeszkody

Sieci generatywnych przeciwników

https://aie24.pl/

Sieć generatywnych przeciwników (GAN) to w rzeczywistości para sieci, które łączą się, tworząc system generatywny. Jedna z sieci, generator, odwzorowuje wartości od z do x w celu uzyskania próbek z rozkładu Pw(x). Typowy schemat pobiera próbkę z z jednostki gaussowskiej o umiarkowanym wymiarze, a następnie przechodzi przez głęboką sieć hw, aby uzyskać x. Druga sieć, dyskryminator, jest klasyfikatorem wyszkolonym do klasyfikowania wejść x jako rzeczywistych (pobranych ze zbioru uczącego) lub fałszywych (stworzonych przez generator). GAN są rodzajem modelu niejawnego w tym sensie, że próbki mogą być generowane, ale ich prawdopodobieństwa nie są łatwo dostępne; z drugiej strony w sieci Bayesa prawdopodobieństwo próbki jest po prostu iloczynem prawdopodobieństw warunkowych na ścieżce generowania próbki. Generator jest ściśle powiązany z dekoderem z wariacyjnej struktury autokodera. Wyzwaniem w modelowaniu niejawnym jest zaprojektowanie funkcji straty, która umożliwia trenowanie modelu przy użyciu próbek z rozkładu, zamiast maksymalizowania prawdopodobieństwa przypisanego do przykładów szkoleniowych ze zbioru danych. Zarówno generator, jak i dyskryminator są trenowane jednocześnie, przy czym generator uczy się oszukiwać dyskryminator, a dyskryminator uczy się dokładnie oddzielać dane rzeczywiste od fałszywych. Konkurencję między generatorem a dyskryminatorem można opisać językiem teorii gier . Pomysł polega na tym, że w stanie równowagi w grze generator powinien doskonale odtwarzać rozkład treningu, tak aby dyskryminator nie mógł działać lepiej niż losowe zgadywanie. Sieci GAN sprawdzają się szczególnie dobrze w zadaniach związanych z generowaniem obrazów. Na przykład GAN mogą tworzyć fotorealistyczne obrazy o wysokiej rozdzielczości ludzi, którzy nigdy nie istnieli.

AI : Technologie, Aplikacje i Wyzwania : Optyczne rozpoznawanie znaków (OCR)

https://aie24.pl/

OCR jest wykonywany na obszarze tablicy rejestracyjnej wykrytym w poprzednim kroku. Odbywa się to poprzez zdefiniowanie opcji Tesseract ANPR, w tym białej listy znaków OCR i trybu segmentacji strony. Za pomocą operacji morfologicznych OpenCV i przetwarzania konturów do tablicy rejestracyjnej jest identyfikowany i generowany jest czysty obraz, który jest przesyłany jako dane wejściowe do następnego modułu, aby przesłać go przez silnik Tesseract OCR. Metoda segmentacji strony jest realizowana poprzez ustawienie trybu działania tak, aby obraz traktował jako pojedynczą linię tekstu. Jest to ustawienie, które wskazuje na analizę układu obrazów i dokumentów. Biała lista to lista postaci branych pod uwagę przez Tesseract. Metoda OCR zajmuje trzy kanały kolorowego obrazu z tabliczką rejestracyjną, tryb pracy PSM i zmienną flagową weryfikującą konieczność oczyszczenia konturów stykających się z granicami tablicy rejestracyjnej. Ustawiając opcje PyTesseract wykonuje się OCR . Podsumowując, wdrożenie systemu ANPR można przeprowadzić w następujących krokach:

  1. Załaduj obraz wejściowy z dysku
  2. Znajdź tablicę rejestracyjną na obrazie wejściowym
  3. OCR tablicę rejestracyjną
  4. Wyświetl wynik ANPR na naszym ekranie i przechowuj go w bazie danych w czasie rzeczywistym w celu dalszego przetwarzania

Wyniki systemu ANPR są poprawiane poprzez wyczyszczenie granicy (wyczyszczenie pikseli pierwszego planu, które dotykają granic tablicy rejestracyjnej). Wyniki są uzyskiwane z systemu ANPR przy użyciu OpenCV. Obraz na rysunku przedstawia kilka pomyślnych wyników uzyskanych z algorytmu ANPR do wykrywania liczb przy użyciu Python, OpenCV i Tesseract OCR do implementacji każdego modułu. Jednak system jest bardzo wrażliwy na niektóre warunki i ma wiele błędnych prognoz – w tym przypadku pozwolenie postaci na dotykanie krawędzi obrazu powoduje zaszumienie danych wejściowych do Tesseract OCR, co prowadzi do mniejszej dokładności. Wynika to głównie z ilości założeń przyjętych podczas budowy systemu.

Modele głębokiej autoregresji

https://aie24.pl/

Model autoregresyjny (lub model AR) to taki, w którym każdy element xi wektora danych x jest przewidywany na podstawie innych elementów wektora. Taki model nie posiada zmiennych ukrytych. Jeśli x ma stały rozmiar, model AR można traktować jako w pełni obserwowalną i możliwie w pełni połączoną sieć Bayesa. Oznacza to, że obliczenie prawdopodobieństwa danego wektora danych zgodnie z modelem AR jest trywialne; to samo dotyczy przewidywania wartości pojedynczej brakującej zmiennej biorąc pod uwagę wszystkie inne, oraz do próbkowania wektora danych z modelu. Najczęstszym zastosowaniem modeli autoregresyjnych jest analiza danych szeregów czasowych, gdzie model AR rzędu k przewiduje xt przy danym xt-k,…,xt-1. W terminologii model AR jest nieukrytym modelem Markowa. W terminologii rozdziału 24 n-gramowy model ciągu liter lub słów jest modelem AR rzędu n-1. W klasycznych modelach AR, w których zmienne są wartościami rzeczywistymi, rozkład warunkowy P(xt|jxt-k,…,xt-1) jest modelem liniowo-gaussowskim ze stałą wariancją, którego średnia jest ważoną kombinacją liniową xt-k,…,xt-1 – innymi słowy standardowy model regresji liniowej. Rozwiązanie maksymalnego prawdopodobieństwa jest podane przez równania Yule’a-Walkera, które są ściśle związane z równaniami normalnymi . Głęboki model autoregresyjny to taki, w którym model liniowy-Gaussowski jest zastąpiony dowolną głęboką siecią z odpowiednią warstwą wyjściową w zależności od tego, czy xt jest dyskretny czy ciągły. Najnowsze zastosowania tego autoregresyjnego podejścia obejmują model WaveNet firmy DeepMind do generowania mowy. WaveNet jest szkolony na surowych sygnałach akustycznych, próbkowanych 16 000 razy na sekundę i implementuje nieliniowy model AR rzędu 4800 z wielowarstwową strukturą splotową. W testach okazuje się, że jest znacznie bardziej realistyczny niż poprzednie, najnowocześniejsze systemy generowania mowy.

AI : Technologie, Aplikacje i Wyzwania : Tablica rejestracyjna do przycinania

https://aie24.pl/

W tej sekcji definiujemy metodę lokalizowania tablic rejestracyjnych z regionów kandydujących. Obejmuje to trzy parametry wejściowe: obraz w skali szarości, kandydujące kontury zwrócone przez poprzedni moduł oraz wartość logiczną wskazującą, czy system powinien wyeliminować wszelkie kontury dotykające krawędzi obrazu. Korzystając z tych wartości wejściowych, kandydujące kontury są dalej filtrowane, aby ostatecznie zlokalizować obszar tablicy rejestracyjnej na obrazie. Pętle metody, miejsce, w którym zmienne muszą przechowywać kontur tablicy rejestracyjnej i interesujący obszar tablicy rejestracyjnej, są inicjowane z pewną wartością. Ta pętla ma na celu wyizolowanie konturu zawierającego tablicę rejestracyjną i wyodrębnienie obszaru zainteresowania tablicy rejestracyjnej. Ten krok ma na celu określenie prostokąta obwiedni konturu. Współczynnik kształtu obwiedni obwiedni jest obliczany w celu zapewnienia prawidłowego prostokątnego kształtu tablicy rejestracyjnej. Tutaj współczynnik proporcji reprezentuje relację między wysokością a szerokością prostokąta. Prawidłowe wartości konturu tablicy rejestracyjnej i obszaru zainteresowania są ustawiane, gdy współczynnik kształtu jest akceptowalny i mieści się w zakresie minimalnego i maksymalnego współczynnika kształtu.