Wymagane pakiety

“Wspomóż rozwój naszego Bloga. Kliknij w Reklamę. Nic nie tracisz a zyskujesz  naszą wdzięczność … oraz lepsze, ciekawsze TEKSTY. Dziękujemy”

Konfiguracja pakietów dla tej części może być nieco uciążliwa, ponieważ niektóre z nich zależą od bibliotek systemu operacyjnego, które mogą się różnić w zależności od komputera

lsa: Obliczanie podobieństwa cosinusów

rilba :  Efektywny rozkład SVD

caret :  Framework uczenia maszynowego

twitteR: Interfejs do API Twittera

quanteda :  Przetwarzanie danych tekstowych

setimentr : Analiza nastrojów danych tekstowych

randomForest :  Losowe modele lasów

Będziemy używać pakietu rilba (który zależy od kodu C) do wydajnego obliczania części rozkładu wartości osobliwej (SVD) przy użyciu rozszerzonych niejawnie ponownie uruchomionych metod bidiagonalizacji Lanczosa, autorstwa Baglama i Reichel. Będziemy używać pakietu parallel do przetwarzania równoległego, ponieważ niektóre analizy tekstu mogą wymagać wielu obliczeń. Pakiet parallel jest obecnie najbardziej ogólnym pakietem zrównoleglania w języku R, ale zgłoszono, że nie działa poprawnie w niektórych systemach. Inne opcje to doParallel, doMC i do SNOW. Jeśli napotkasz problemy podczas używania jednego parallel, spróbuj przełączyć się na jeden z innych pakietów. Kod, który je uruchamia, jest bardzo podobny. Jeśli chodzi o dane tekstowe, istnieje kilka pakietów, których możesz użyć w R. Najpopularniejsze z nich to pakiet tm i pakiet quateda. Oba są doskonałe i różnią się głównie stylem. Wszystkie funkcje, które zobaczymy, mogą być używane z jednym z nich, ale zdecydowaliśmy się pracować z pakietem quanteda. Jest zbudowany z pakietem stringi do przetwarzania tekstu, pakietem data.table do dużych dokumentów i pakietem Matrix do obsługi rzadkich obiektów. Dlatego możesz oczekiwać, że będzie bardzo szybki i bardzo dobrze obsługiwał Unicode i UTF-8. Jeśli nie wiesz, czym są Unicode i UTF-8, proponuję zapoznać się z nimi. Z grubsza można myśleć o Unicode jako o standardzie identyfikatorów dla znaków, podczas gdy UTF-8 jest tłumaczeniem tych identyfikatorów na bajty, które komputery mogą zrozumieć. W tym rozdziale nie będziemy się martwić o kodowanie (wszystkie dane są w UTF-8), ale jest to coś, co często pojawia się podczas pracy z danymi tekstowymi i jest ważne, aby obsługiwać je poprawnie.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *