“Wspomóż rozwój naszego Bloga. Kliknij w Reklamę. Nic nie tracisz a zyskujesz naszą wdzięczność … oraz lepsze, ciekawsze TEKSTY. Dziękujemy”
Konfiguracja pakietów dla tej części może być nieco uciążliwa, ponieważ niektóre z nich zależą od bibliotek systemu operacyjnego, które mogą się różnić w zależności od komputera
lsa: Obliczanie podobieństwa cosinusów
rilba : Efektywny rozkład SVD
caret : Framework uczenia maszynowego
twitteR: Interfejs do API Twittera
quanteda : Przetwarzanie danych tekstowych
setimentr : Analiza nastrojów danych tekstowych
randomForest : Losowe modele lasów
Będziemy używać pakietu rilba (który zależy od kodu C) do wydajnego obliczania części rozkładu wartości osobliwej (SVD) przy użyciu rozszerzonych niejawnie ponownie uruchomionych metod bidiagonalizacji Lanczosa, autorstwa Baglama i Reichel. Będziemy używać pakietu parallel do przetwarzania równoległego, ponieważ niektóre analizy tekstu mogą wymagać wielu obliczeń. Pakiet parallel jest obecnie najbardziej ogólnym pakietem zrównoleglania w języku R, ale zgłoszono, że nie działa poprawnie w niektórych systemach. Inne opcje to doParallel, doMC i do SNOW. Jeśli napotkasz problemy podczas używania jednego parallel, spróbuj przełączyć się na jeden z innych pakietów. Kod, który je uruchamia, jest bardzo podobny. Jeśli chodzi o dane tekstowe, istnieje kilka pakietów, których możesz użyć w R. Najpopularniejsze z nich to pakiet tm i pakiet quateda. Oba są doskonałe i różnią się głównie stylem. Wszystkie funkcje, które zobaczymy, mogą być używane z jednym z nich, ale zdecydowaliśmy się pracować z pakietem quanteda. Jest zbudowany z pakietem stringi do przetwarzania tekstu, pakietem data.table do dużych dokumentów i pakietem Matrix do obsługi rzadkich obiektów. Dlatego możesz oczekiwać, że będzie bardzo szybki i bardzo dobrze obsługiwał Unicode i UTF-8. Jeśli nie wiesz, czym są Unicode i UTF-8, proponuję zapoznać się z nimi. Z grubsza można myśleć o Unicode jako o standardzie identyfikatorów dla znaków, podczas gdy UTF-8 jest tłumaczeniem tych identyfikatorów na bajty, które komputery mogą zrozumieć. W tym rozdziale nie będziemy się martwić o kodowanie (wszystkie dane są w UTF-8), ale jest to coś, co często pojawia się podczas pracy z danymi tekstowymi i jest ważne, aby obsługiwać je poprawnie.