Ta część pokazuje, jak pracować z modelami statystycznymi przy użyciu R. Pokazuje, jak sprawdzić założenia dotyczące danych, określić modele liniowe, tworzyć prognozy i mierzyć dokładność predykcyjną. Pokazuje również, jak programowo znaleźć dobre modele, aby uniknąć ręcznego wykonywania analiz, co może potencjalnie zaoszczędzić dużo czasu. Pod koniec będziemy pracować z różnymi narzędziami ilościowymi, które są obecnie używane w wielu obszarach biznesowych i badawczych. Pakiety użyte tu są tymi samymi, co w poprzedniej części. Podobnie jak poprzednio, skupimy się tutaj na programowej automatyzacji analizy, a nie na dogłębnym zrozumieniu technik statystycznych zastosowanych w tej części. Omówimy następujące kwestie:
* Dzielenie danych na zbiory szkoleniowe i testowe
* Tworzenie modeli regresji liniowej służących do prognozowania
* Sprawdzanie założeń modelu różnymi technikami
* Pomiar dokładności predykcyjnej dla danych liczbowych i jakościowych
* Programowe wyszukiwanie najlepszego możliwego modelu
Wymagane pakiety
ggplot2 – Wysokiej jakości wykresy
corrplot – Wykresy korelacji
progres – Pokaż postęp iteracji