Zrozumienie głosów za pomocą statystyk opisowych

Tu pokazujemy, jak przeprowadzić opisową analizę statystyczną, aby uzyskać ogólne pojęcie o danych, z którymi mamy do czynienia, co jest zwykle pierwszym krokiem w projektach analizy danych i jest podstawową umiejętnością dla analityków danych w ogóle. Dowiemy się, jak czyścić i przekształcać dane, podsumowywać dane w użyteczny sposób, znajdować konkretne obserwacje, tworzyć różnego rodzaju wykresy zapewniające intuicję dla danych, wykorzystywać korelacje do zrozumienia relacji między zmiennymi numerycznymi, używać głównych składowych do znajdowania optymalnych kombinacji zmiennych , i ułóż wszystko razem w kodzie, który jest wielokrotnego użytku, zrozumiały i łatwy do modyfikacji. Ponieważ jest to tekst programowaniu w R, a nie o robieniu statystyk w R, skupimy się na programowalej stronie rzeczy, a nie na statystycznej stronie. Miej to w pamięci podczas czytania. Niektóre z ważnych tematów omawianych w tym rozdziale są następujące:

* Czyszczenie, przekształcanie i operowanie na danych

* Programowe tworzenie różnego rodzaju wykresów

* Wykonywanie analizy jakościowej różnymi narzędziami w języku R

* Tworzenie nowych zmiennych za pomocą analizy głównych składników

* Tworzenie modułowego i elastycznego kodu, z którym łatwo się pracuje

Wymagane pakiety

Będziemy korzystać z następujących pakietów języka R.

ggplot2: wysokiej jakości wykresy

viridis: Paleta kolorów dla wykresów

corrplot: wykresy korelacji

ggbiplot: Wykresy głównych składników

progress : Pokaż postęp dla iteracji

Przykład głosów w sprawie Brexitu

W czerwcu 2016 r. W Wielkiej Brytanii odbyło się referendum, w którym zdecydowano, czy pozostać częścią Unii Europejskiej (UE). Udział wzięło 72% zarejestrowanych wyborców, z czego 51,2% zagłosowało za opuszczeniem UE. W lutym 2017 r. Martin Rosenbaum, specjalista ds. wolności informacji w BBC News, opublikował artykuł zatytułowany „Liczby głosowania lokalnego rzucają nowe światło na referendum w UE”. Otrzymał dane od 1070 okręgów wyborczych (najmniejszy podział administracyjny do celów wyborczych w Wielkiej Brytanii), z liczbą głosów na urlop i pozostanie w każdym z nich. Martin Rosenbaum obliczył pewne związki statystyczne między odsetkiem głosów zwolnionych na oddziale a niektórymi jego cechami społecznymi, ekonomicznymi i demograficznymi, korzystając z najnowszego spisu ludności w Wielkiej Brytanii, który przeprowadzono w 2011 r. Wykorzystał swoje dane dla klasy uniwersyteckiej , i to są dane, których użyjemy w tym przykładzie, po usunięciu niektórych zmiennych. W tabeli przedstawiono zmienne zawarte w danych

 

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *