Tesseract OCR działa skutecznie tylko ze starannie oczyszczonymi i wstępnie przetworzonymi obrazami wejściowymi. Zaawansowane modele głębokiego uczenia są preferowane głównie w niekontrolowanym środowisku. Jednak uczenie modelu uczenia głębokiego wymaga dużej ilości danych uczących, a adnotowanie tysięcy obrazów z zestawu danych zajmuje niezliczone godziny. Duże i solidne zbiory danych ANPR do szkolenia/testowania są trudne do uzyskania z następujących powodów:
- Te zbiory danych zawierają wrażliwe dane osobowe, w tym czas i lokalizację pojazdu oraz jego kierowcę.
- Firmy ANPR i podmioty rządowe ściśle strzegą tych zbiorów danych jako informacji zastrzeżonych.
Ze względu na brak dużego odpowiedniego zbioru danych, tylko tradycyjne techniki przetwarzania obrazu są często wdrażane w systemie ANPR bez modelu głębokiego uczenia się. Pierwszym krokiem w budowie systemu ANPR jest zwykle zebranie danych i zgromadzenie wystarczającej liczby przykładowych tablic w różnych warunkach. W takim przypadku duży zestaw obrazów różnych rodzajów pojazdów o różnych wymiarach płyt w różnych warunkach oświetleniowych i cechach kolorystycznych musi zostać przechwycony lub zebrany z innego źródła. Aby poprawić rozpoznawanie OCR przy użyciu podobnych obrazów znaków podczas uczenia, należy zebrać zestaw danych zawierający wszystkie powszechnie występujące znaki alfanumeryczne na tablicach rejestracyjnych z wieloma przykładami. W celu wdrożenia w pełni funkcjonalnego systemu konieczne jest zintegrowanie obrazu z kamer CCTV w czasie rzeczywistym z systemem ANPR, generującym klatki obrazu w przypadku wykrycia poruszającego się pojazdu. Przechwycony obraz jest dalej przetwarzany przed podaniem danych wejściowych do modułów ANPR. Jest to następnie wprowadzane do wytrenowanego modelu uczenia głębokiego w celu zlokalizowania tablicy rejestracyjnej i rozpoznania tekstu znajdującego się na tablicy rejestracyjnej. Kroki związane z ogólnym wykonaniem są wymienione w kolejności poniżej:
Akwizycja obrazu: przechwytywanie klatek wejściowych poruszającego się pojazdu za pomocą kamery wideo.
Wykrywanie płyt: algorytm wykrywania obiektów oparty na głębokim uczeniu, używany do identyfikacji obiektów na obrazie lub filmie. Model wykrywania obiektów jest szkolony na wielu tablicach rejestracyjnych, aby wykryć położenie tablicy rejestracyjnej. Lokalizacja ramki ograniczającej, która zawiera tablicę rejestracyjną i punktację, wskazuje pewność, czy wykrycie jest prawidłowe.
Fazy wstępnego przetwarzania obrazu to:
- Konwersja obrazu RGB na obraz w skali szarości: Przetwarzanie obrazu RGB jest złożone i czasochłonne, dlatego obraz kolorowy jest konwertowany na obraz w skali szarości.
- Wzmocnienie obrazu: Adaptacyjna korekcja histogramu ma na celu zwiększenie kontrastu obrazu (obraz w kolorze szarym). Tworzy się kilka histogramów, każdy dla odrębnego regionu obrazu. Jest to korzystne, ponieważ zwykle istnieje tylko jeden histogram dla całego obrazu. Oprócz tego wykonywane jest filtrowanie mediów w celu usunięcia szumu z obrazu. Po tym następuje binaryzacja, w której szary obraz jest przekształcany w obraz o wartościach czystej czerni i czystej bieli.
Segmentacja: na tym etapie obraz, który jest silnie współbrzmiący z obiektami lub obszarami zawartymi w przechwyconym obrazie, jest podzielony na przedziały.
Wykrywanie krawędzi: Krawędź to granica między dwoma regionami o stosunkowo odrębnych właściwościach poziomu szarości. Wykrywa nieciągłości w wartościach natężenia. Podstawowym krokiem w rozpoznaniu płytki jest wykrycie jej kształtu (prostokąta); w ten sposób wykrywana jest krawędź prostokątnej płyty. Używając operatora Sobela, krawędzie obrazu są podświetlane. To z kolei zmniejsza ilość danych w obrazie i przetwarza wymagane dane do dalszego wykorzystania.
Morfologiczne przetwarzanie obrazu: element strukturyzujący używany do tworzenia danych wyjściowych o tym samym rozmiarze za pomocą dylatacji i dodawania pikseli do granicy obiektu w celu zwiększenia grubości krawędzi. Użycie operacji zmniejszania powoduje rozrzedzenie obrazu w celu wyeliminowania nieistotnych części.
Próg: W tej metodzie pikselom znajdującym się powyżej i poniżej wybranej wartości progowej przyznaje się dwa różne poziomy. Aby oddzielić obiekt od obrazu tła, jest on konwertowany w formie binarnej. Próg poziomu szarości to prosty proces. Wartość progu jest wybierana i porównywana z pikselem obrazu. Przekształca również obraz wejściowy w wyjściowy obraz binarny, który jest segmentowany. W progu globalnym histogram obrazu jest podzielony przy użyciu pojedynczej wartości progowej. Próg oznacza poziom szarości mieszczący się między granicą linii bazowej, która leży pomiędzy pikselami znajdującymi się na pierwszym planie i w tle.
Segmentacja: Segmentacja znaków jest pomostem między ekstrakcją tablic rejestracyjnych a rozpoznawaniem znaków. W tym przypadku różne znaki na powierzchni tablicy rejestracyjnej są podzielone na segmenty. Różne przyczyny, takie jak zróżnicowanie oświetlenia, ramy płyt i rotacja, utrudniają prace segmentacyjne. Metoda segmentacji jest również znana jako analiza ramki granicznej. Dzięki tej metodzie znaki są przypisywane do połączonych komponentów, które są wyodrębniane za pomocą analizy ramki granicznej. Proces segmentacji zostaje zakończony po zmniejszeniu szumu w obrazie.
Rozpoznawanie znaków: Metoda rozpoznawania znaków jest uzupełniana przez wyodrębnienie cech znaków i ich różnych technik klasyfikacji. Do rozpoznawania znaków z tablicy rejestracyjnej wykorzystywany jest algorytm uczenia maszynowego.