Zrozumienie recenzji za pomocą analizy tekstu

“Wspomóż rozwój naszego Bloga. Kliknij w Reklamę. Nic nie tracisz a zyskujesz  naszą wdzięczność … oraz lepsze, ciekawsze TEKSTY. Dziękujemy”

Powszechnie wiadomo, że bardzo duży procent istotnych informacji pochodzi z nieuporządkowanej formy, a ważnym graczem są dane tekstowe. Analiza tekstu, przetwarzanie języka naturalnego (NLP), wyszukiwanie informacji (IR) i uczenie statystyczne (SL) to niektóre obszary skoncentrowane na opracowywaniu technik i procesów radzenia sobie z tymi danymi. Te techniki i procesy odkrywają i prezentują wiedzę, fakty, reguły biznesowe, relacje, między innymi, które w innym przypadku są zamknięte w formie tekstowej, niedostępne dla automatycznego przetwarzania. Biorąc pod uwagę eksplozję danych tekstowych, którą obserwujemy obecnie, ważną umiejętnością dla analityków, takich jak statystycy i naukowcy zajmujący się danymi, jest umiejętność wydajnej pracy z tymi danymi i znajdowania spostrzeżeń, których szukają. W tej części postaramy się przewidzieć, czy klient dokona kolejnych zakupów, biorąc pod uwagę opinie przesłane do The Cake Factory. Ponieważ analiza tekstu to bardzo szeroki obszar badań, musimy zawęzić techniki, którym przyjrzymy się w tym rozdziale, do najważniejszych. Przyjmiemy podejście Pareto, skupiając się na 20% technik, które będą używane w 80% przypadków podczas wykonywania analizy tekstu.

 Niektóre z ważnych tematów omawianych są następujące:

* Macierze funkcji dokumentu jako podstawowa struktura danych

* Losowe lasy do modelowania predykcyjnego z danymi tekstowymi

* Termin dokumentacja częstotliwości odwrotnych częstotliwości do pomiaru ważności

* Modelowanie N-gramowe w celu przywrócenia porządku w analizie

* Rozkład wektorów osobliwych dla redukcji wymiarowości

* Podobieństwo cosinusowe w celu znalezienia podobnych wektorów cech

* Analiza nastrojów jako dodatkowa funkcja wektorowa

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *