Zainspirowani wynikami CrackNet, wdrożyliśmy wykrywanie obiektów za pomocą modeli Faster R-CNN i SSD do wykrywania dziur na drodze. Modele są wyszkolone do wykrywania dziur o różnych kształtach i rozmiarach, a także w różnych warunkach oświetlenia. Szybsze modele RCNN i SSD MobileNet zwracają ramkę ograniczającą każdego wyboju. Ponadto przyjęto algorytm śledzenia oparty na głębokim SORT, aby uniknąć liczenia wielu wystąpień tej samej dziury. Faster R-CNN [33] ma dwie sieci do wykrywania. Wykorzystuje wyszukiwanie selektywne do generowania propozycji regionów. Początkowo szybsze R-CNN pobiera obraz wejściowy z klasą obiektu do wykrycia wraz z jego obwiednią. Obraz jest następnie wyodrębniany przy użyciu głębokiej sieci ConvNet, a ostateczna warstwa splotu mapy funkcji jest używana do wprowadzania sieci propozycji regionu (RPN) w celu predykcji. Następnie wykorzystywane są mapy cech do wyodrębnienia cech proponowanych regionów poprzez zastosowanie RPN. Funkcja softmax przewiduje kategorie obiektów w celu osiągnięcia celów klasyfikacji obiektów i regresji granic. Architektura SSD [34] jest specjalnie dostosowanym lub mobilnym i ograniczonym zasobami środowisk, w których sploty wgłębne zastępują regularne sploty w predykcyjnym polu ograniczającym. Jest znacznie bardziej wydajny obliczeniowo. MobileNetV2 jest proponowany w oparciu o framework SSDLite [35]. Do walidacji dokładności modelu wykorzystano klatki z filmu przedstawiającego drogę zebranego w różnych warunkach oświetleniowych. Początkowy wskaźnik uczenia się wynosił 0,004 z zanikiem uczenia 0,9 na 10 000 iteracji. Przeszkoliliśmy sieć za pomocą optymalizatora RMSProp i tempa uczenia 0,9. Sieć została przeszkolona dla ponad 9000 iteracji przy wielkości partii 24. W celu zachowania i utrzymania jednolitego wymiaru obrazu, na górze i na dole obrazu stosuje się zero padding, aby zachować proporcje, tj. 300×300 pikseli. Zestaw danych jest podzielony na dwie klasy: jedną dla wybojów i jedną dla tła. Kotwice są tworzone przez przesuwane okna. Ponieważ proces przesuwania okna jest splotem, procesor graficzny może z łatwością go obsłużyć. Dowolna kotwica z IoU większym niż 0,5 jest uznawana za dopasowanie. Użytą funkcją straty jest utrata zaufania wraz z utratą lokalizacji. Do lokalizacji wykorzystywana jest gładka strata L1 między przewidywaną a rzeczywistością podstawową, a do utraty ufności wykorzystywana jest strata softmax na poziomie ufności kilku klas. Pomijanie niemaksymalne jest używane do filtrowania wielu pól na obiekt, które mogą być dopasowane podczas przewidywania. Opracowaliśmy prototypową aplikację pulpitu nawigacyjnego do przechwytywania i wizualizacji dziur w czasie rzeczywistym ,detekcja ze szczegółami zliczania w domenie przestrzennej. Wynik eksperymentalny uzyskany z przedstawionych tutaj prac prototypowych jest dość zachęcający i pozwala monitorować jakość dróg skuteczniej niż wcześniej stosowane metody.
Śledzenie dziur
Aby zapewnić, że do obliczenia wskaźnika jakości drogi zgłaszane jest tylko jedno wystąpienie każdego wyboju, każdy wybój jest śledzony przez całą jego identyfikację, aż będzie widoczny w ramce wideo. Obecne badanie wykorzystuje strukturę śledzenia Deep SORT (Simple Real-time Tracker) [36] do śledzenia dziur. Deep SORT to platforma śledzenia obiektów oparta na SORT, która szacuje istniejącą ścieżkę w bieżącej ramce za pomocą filtra Kalmana. Stan zawiera w sumie osiem zmiennych, z których cztery są pozycjami w polu ograniczającym, a pozostałe cztery to prędkość każdej ze współrzędnych. W ten sposób, gdy nadejdzie każda ramka, pozycja bieżącej ścieżki jest obliczana na podstawie jej poprzedniej pozycji [37]. Deskryptor wyglądu uzyskuje informacje o wyglądzie wykryć i śladów. CNN służy do uczenia deskryptora wyglądu w zbiorze danych dotyczących ponownej identyfikacji na dużą skalę. Dzięki przybliżonej lokalizacji oryginalnych ścieżek i deskryptorom wyglądu nowe wyniki wykrywania można skorelować z istniejącymi ścieżkami w każdej kolejnej ramce. Próg służy do odsiewania wszystkich wykryć z poziomem ufności niższym od niego. Kwadratowa odległość Mahalanobisa uwzględnia niepewności z filtra Kalmana. Gdy nowa detekcja zostanie połączona z istniejącą ścieżką, zostanie zastosowana do śladu, a wiek powiązanego śladu zostanie zresetowany do zera. Gdy nowe detekcje nie wchodzą w interakcję z istniejącymi ścieżkami w ramce, tworzone są niepewne ścieżki. Jeśli nowe wykrycia powiodły się połączone, utwór jest modyfikowany jako zweryfikowane, w przeciwnym razie niepewne utwory są natychmiast usuwane. Nieskojarzony wiek każdej klatki jest zwiększany o jeden, jeśli bieżąca ścieżka nie jest skorelowana z nowymi wykryciami. Jeśli nieskojarzony wiek przekroczy maksymalny próg wieku, ścieżka zostanie usunięta.