W świecie, w którym dane stają się coraz ważniejsze, biznesmeni i naukowcy potrzebują narzędzi do wydajnej analizy i przetwarzania dużych ilości danych. R jest jednym z narzędzi, które w ostatnich latach stawało się coraz bardziej popularne do przetwarzania danych, analizy statystycznej i nauki o danych, a chociaż R ma swoje korzenie w środowisku akademickim, jest obecnie używane przez organizacje z wielu branż i obszarów geograficznych. Niektóre z ważnych tematów omawianych w tej sekcji są następujące:
* Historia R i dlaczego został zaprojektowany tak, jak był
* Czym jest tłumacz i konsola i jak z nich korzystać
* Jak pracować z podstawowymi typami danych i strukturami danych w języku R.
* Jak podzielić pracę za pomocą różnych funkcji
* Jak wprowadzić złożoną logikę ze strukturami sterującymi
Czym jest R, a czym nie jest
Jeśli chodzi o wybór oprogramowania do obliczeń statystycznych, trudno jest spierać się z R. Kto mógłby nie lubić wysokiej jakości, wieloplatformowego oprogramowania statystycznego typu open source? Posiada interaktywną konsolę do prac eksploracyjnych. Może działać jako język skryptowy do replikacji procesów. Ma wbudowanych wiele modeli statystycznych, więc nie musisz odkrywać koła na nowo, ale gdy podstawowy zestaw narzędzi nie wystarczy, masz dostęp do bogatego ekosystemu pakietów zewnętrznych. I to nic nie kosztuje! Nic dziwnego, że R stał się faworytem w dobie danych.
Inspiracja dla R – język S.
R został zainspirowany językiem statystycznym S opracowanym przez Johna Chambersa w AT&T. Nazwa S jest aluzją do innego jednoliterowego języka programowania opracowanego również w AT&T, słynnym języku C. R został stworzony przez Rossa Ihakę i Roberta Gentlemana na Wydziale Statystyki Uniwersytetu Auckland w 1991 roku. Ogólna filozofia S wyznacza grunt pod projekt samego języka R, co wielu programistów wywodzących się z innych języków programowania uważa za nieco dziwne i mylące. W szczególności ważne jest, aby zdać sobie sprawę, że S został opracowany, aby maksymalnie ułatwić analizę danych.
„Chcieliśmy, aby użytkownicy mogli rozpocząć pracę w interaktywnym środowisku, w którym nie myśleli świadomie o programowaniu. Następnie, gdy ich potrzeby stały się jaśniejsze, a ich wyrafinowanie wzrosło, powinni móc stopniowo wsuwać się w programowanie, gdy język i aspekty systemu stałby się ważniejszy ”. – John Chambers
Kluczową częścią jest tutaj przejście od analityka do programisty. Chcieli zbudować język, który z łatwością obsługiwałby oba typy użytkowników. Chcieli zbudować język, który byłby odpowiedni do interaktywnej analizy danych za pomocą wiersza poleceń, ale który mógłby być również używany do programowania złożonych systemów, takich jak tradycyjne języki programowania. To nie przypadek, że ta książka ma taką strukturę. Najpierw zaczniemy przeprowadzać analizę danych i stopniowo będziemy dążyć do opracowania pełnego i złożonego systemu wyszukiwania informacji z aplikacją internetową.
R to wysokiej jakości system obliczeń statystycznych
R jest porównywalny i często lepszy od produktów komercyjnych, jeśli chodzi o możliwości programowania, rozwój złożonych systemów, produkcję grafiki i ekosystemy społeczności. Naukowcy zajmujący się statystyką i uczeniem maszynowym, a także wielu innych dyscyplin związanych z danymi, często publikują pakiety R, które towarzyszą ich publikacjom. Przekłada się to na natychmiastowy publiczny dostęp do najnowszych technik statystycznych i wdrożeń. Niezależnie od tego, jaki model lub grafikę próbujesz opracować, są szanse, że ktoś już go wypróbował, a jeśli nie, możesz przynajmniej nauczyć się na jego podstawie.