[BIG DATA] GLOSARIUSZ (X) : NABYCIE – "Bądź człowiekiem … A.I. !"

Większość interesujących publicznych źródeł danych jest słabo zorganizowanych, pełnych hałasu i trudno dostępnych. Prawdopodobnie spędzam więcej czasu na przekształcaniu niechlujnych danych źródłowych w coś użytecznego niż w pozostałych procesach analizy danych, więc jestem wdzięczny, że pojawia się wiele narzędzi, które mogą pomóc.

Google Refine

Google Refine to aktualizacja narzędzia Freebase Gridworks do czyszczenia dużych, nieuporządkowanych arkuszy kalkulacyjnych. Został zaprojektowany, aby ułatwić naprawę najczęstszych błędów napotkanych w tworzonych przez ludzi zestawach danych. Na przykład łatwo jest wykryć i poprawić typowe problemy, takie jak literówki lub niespójności w wartościach tekstowych, i zmienić komórki z jednego formatu na inny. Istnieje również bogate wsparcie dla łączenia danych przez wywoływanie interfejsów API z danymi zawartymi w istniejących wierszach w celu rozszerzenia arkusza kalkulacyjnego o informacje z zewnętrznych źródeł. Dzięki funkcji “Refine” nie można zrobić niczego, czego nie można zrobić za pomocą innych narzędzi, ale jego moc wynika z tego, jak dobrze obsługuje typowy proces wypakowywania i przekształcania. Wydaje się, że to dobry krok w abstrakcji, proces pakowania, który zwykle wymaga wielu kroków w języku skryptowym lub pakietu arkuszy kalkulacyjnych w pojedyncze operacje z rozsądnymi wartościami domyślnymi.

Needlebase

Needlebase zapewnia interfejs “wskaż i kliknij” do wydobywania uporządkowanych informacji ze stron internetowych. Jako użytkownik wybierasz elementy na przykładowej stronie, która zawiera dane, które Cię interesują, a następnie narzędzie wykorzystuje zdefiniowane wzorce do wyciągania informacji z innych stron w witrynie o podobnej strukturze. Na przykład możesz wyodrębnić nazwy produktów i ceny z witryny zakupowej. Za pomocą tego narzędzia możesz znaleźć stronę pojedynczego produktu, wybrać nazwę produktu i cenę, a następnie te same elementy zostaną pobrane dla każdej innej strony zindeksowanej z witryny. Polega ona na tym, że większość stron internetowych generuje się poprzez połączenie szablonów z informacjami pobranymi z bazy danych, a więc ma bardzo spójną strukturę. Po zebraniu danych oferuje kilka funkcji przypominających usługę Google Refine dla usuwania duplikatów i czyszczenia danych. Podsumowując, jest to bardzo potężne narzędzie służące do przekształcania treści internetowych w uporządkowane informacje o bardzo przystępnym interfejsie.

ScraperWiki

ScraperWiki to hostowane środowisko do pisania zautomatyzowanych procesów skanowania publicznego strony internetowe i wyciągnąć uporządkowane informacje ze stron, które opublikowały. Obsługuje cały kod, który normalnie musisz napisać, aby obsługiwać indeksowanie strony internetowe, zapewnia prosty edytor internetowy dla skryptów Ruby, Python lub PHP, oraz automatycznie uruchamia twój robot jako proces w tle. Co naprawdę lubię, to sposób, w jaki większość skryptów jest publikowanych na stronie, więc nowi użytkownicy mają wiele istniejących przykładów na początek, a ponieważ strony internetowe zmieniają swoje struktury, popularne starsze skrobaczki mogą być aktualizowane przez społeczność.

Post Views: 316

Dodaj komentarz Anuluj pisanie odpowiedzi