[BIG DATA] GLOSARIUSZ (VI) : PRZETWARZANIE

Dostarczenie zwięzłych, wartościowych informacji, które chcesz uzyskać z morza danych, może być trudne, ale w systemach, które pomagają zmienić twoje zbiory danych w coś sensownego, nastąpił duży postęp. Ponieważ istnieje tak wiele różnych barier, narzędzia te obejmują zarówno szybkie systemy analizy statystycznej, jak i pozyskiwanie ludzkich pomocników.

R

Projekt R jest zarówno językiem specjalistycznym, jak i zestawem modułów skierowanych do osób pracujących ze statystyką. Obejmuje wszystko, od ładowania danych do wykonywania skomplikowanych analiz na nim, a następnie eksportowanie lub wizualizację wyników. Interaktywna powłoka ułatwia eksperymentowanie z danymi, ponieważ możesz bardzo szybko wypróbować wiele różnych podejść. Największym minusem z punktu widzenia przetwarzania danych jest to, że jest przeznaczony do pracy z zestawami danych mieszczącymi się w pamięci pojedynczej maszyny. Można go używać w Hadoop jako inny język przesyłania strumieniowego, ale wiele z najbardziej zaawansowanych funkcji wymaga dostępu do pełnego zestawu danych, aby był skuteczny. R tworzy wspaniałą platformę do tworzenia prototypów do projektowania rozwiązań, które muszą być uruchamiane na ogromnych ilościach danych, lub do zrozumienia mniejszych wyników przetwarzania.

Yahoo! Pipes

Minęło kilka lat odkąd Yahoo! wydała środowisko Pipes, ale wciąż jest niedoścignione narzędzie do budowy prostych potoków danych. Posiada graficzny interfejs, w którym przeciągasz i upuszczasz komponenty, łącząc je w przepływy operacji przetwarzania. Wiele ciekawych interfejsów API firmy Yahoo! jest prezentowanych jako elementy składowe, a także komponenty do importowania stron internetowych i kanałów RSS oraz przesyłania wyników w postaci dynamicznych plików danych. Jako bezpłatne narzędzie skierowane do użytkowników mających praktyczne wymagania techniczne, Pipes nie może obsłużyć ogromnych zestawów danych, ale jest odpowiednikiem taśmy klejącej do wielu mniejszych zadań. Podobne, ale bardziej wyspecjalizowane narzędzia, takie jak Alpine Miner, odniosły wiele sukcesów w komercyjnym świecie, więc mam nadzieję, że interfejs typu Pipes pojawi się częściej w aplikacjach do przetwarzania danych.

Mechanical Turk

Pierwotny Mechanical Turk był nieuczciwym urządzeniem, które wyglądało na robota szachowego, ale było kontrolowane przez ukrytego karła . Usługa Amazon wykorzystuje tę samą zasadę, uznając, że istnieją pewne mentalne zadania o które najskuteczniej można prosić prawdziwych ludzi do wykonania. Może to kosztować zaledwie kilka centów za operację, w zależności od czasu trwania i złożoności każdej małej pracy, którą chcesz wykonać. Niski koszt może sprawić, że poczuje się trochę wyzyskiwać pracowników, ale jest to niesamowicie skuteczny sposób na wprowadzenie prawdziwej inteligencji do twojego systemu. Często będziesz miał poważny problem, który nie jest jeszcze niezawodnie rozwiązany w AI, ale może być szybko wykonany przez osobę. Na przykład możesz podawać zdjęcia, aby uzyskać szacunki dotyczące płci i wieku, czyli coś, czego po prostu nie możesz zrobić niezawodnie przy użyciu czystego kodu. Musisz zintensyfikować myślenie i planowanie przed zintegrowaniem go z systemem, ponieważ nawet przy stosunkowo niskich stawkach jest znacznie droższy w przeliczeniu na operację. Nie można go pobić jako karty wolnej od zła, gdy napotkasz uporczywie problemy z AI.

Solr / Lucene

Lucene jest biblioteką Java, która obsługuje indeksowanie i przeszukiwanie dużych zbiorów dokumentów, a Solr to aplikacja korzystająca z biblioteki do budowy serwera wyszukiwarki. Początkowo oddzielne projekty, zostały niedawno połączone w jeden zespół open source Apache. Jest przeznaczony do obsługi bardzo dużej ilości danych, z architekturą, która oznacza, że ​​skaluje się poziomo w całym klastrze maszyn. Posiada również bardzo elastyczny system architektury i konfiguracji wtyczek oraz może być zintegrowany z wieloma różnymi źródłami danych. Funkcje te, wraz z dobrze przetestowaną bazą kodu, sprawiają, że jest to doskonały wybór dla każdego, kto musi rozwiązać problem wyszukiwania na dużą skalę.

ElasticSearch

Podobnie jak Solr, ElasticSearch to usługa wyszukiwarek zbudowana na bazie Lucene. Jest to młodszy projekt, skierowany bardziej do ludzi w świecie internetu (w przeciwieństwie do intensywnego korzystania z Solr w przedsiębiorstwach). Umożliwia aktualizację indeksu wyszukiwania przy znacznie niższym opóźnieniu, ma bardziej minimalny interfejs oparty na REST / JSON i opcje konfiguracyjne oraz skaluje się poziomo w bardziej płynny sposób. Nie ma jeszcze społeczności ani liczby współpracowników bardziej utrwalonego projektu i brakuje niektórych z szerszych funkcji oferowanych przez Solr, więc warto je ocenić.

Dataameer

Mimo że jest skierowany na dobrze znany rynek wywiadowczy, Datameer jest interesujący, ponieważ wykorzystuje Hadoop do zasilania jego przetwarzania. Oferuje uproszczone środowisko programistyczne umożliwiające operatorom określenie rodzaju potrzebnej analizy, a następnie przetwarza je w zadania MapReduce za kulisami. Posiada również pewne przyjazne dla użytkownika narzędzia do importowania danych, a także opcje wizualizacji. Jest to znak, gdzie kierujemy się rozwiązaniami do przetwarzania danych, ponieważ lepiej budujemy interfejsy i przechodzimy na wyższe i bardziej wydajne poziomy abstrakcji.

BigSheets

IBM BigSheets to aplikacja internetowa, która umożliwia użytkownikom nietechnicznym zbieranie niestrukturalnych danych z zasobów internetowych i wewnętrznych oraz analizowanie ich w celu tworzenia raportów i wizualizacji. Podobnie jak Datameer, wykorzystuje Hadoop za kulisami do obsługi bardzo dużych ilości danych, wraz z usługami takimi jak OpenCalais, aby poradzić sobie z wydobywaniem użytecznych uporządkowanych informacji z zupy o nieustrukturyzowanym tekście. Jest skierowany do użytkowników, którzy czują się komfortowo z interfejsem arkusza kalkulacyjnego, a nie z tradycyjnymi programistami, więc nie można go używać jako części niestandardowego rozwiązania, ale oferuje pomysły na to, jak sprawić, by aplikacja do przetwarzania danych była dostępna dla zwykłych użytkowników.

Tinkerpop

Grupa programistów pracująca nad oprogramowaniem graficznym Open Source, Tinkerpop stworzyła zintegrowany zestaw narzędzi. Trochę jak stos LAMP do przetwarzania wykresów, projektują zestaw usług, które dobrze współpracują, aby wykonać typowe operacje, takie jak połączenie z wyspecjalizowanymi bazami danych wykresów, pisanie zapytań traversal i udostępnianie całego systemu jako serwera opartego na REST. Jeśli masz do czynienia z danymi wykresowymi, Tinkerpop dostarczy ci interfejsów wysokiego poziomu, które mogą być znacznie wygodniejsze w obsłudze niż bazy danych z surowymi wykresami.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *