Regresja za pomocą zmiennych manekin

Jak więc możemy wykorzystać te informacje? Zacznijmy od prostej sprawy, zanim zajmiemy się szerszym problemem. Jak możemy wykorzystać informacje o tym, czy ludzie palą, aby lepiej zgadywać o swojej długowieczności? Jednym prostym pomysłem jest oszacowanie średniego wieku w chwili śmierci dla palaczy i niepalących, a następnie wykorzystanie tych dwóch osobnych wartości jako naszych domysłów dla przyszłych przypadków, w zależności od tego, czy nowa osoba pali. Tym razem zamiast korzystać z MSE, wykorzystamy błąd średniej kwadratowej (RMSE), który jest bardziej popularny w literaturze dotyczącej uczenia maszynowego. Oto jeden ze sposobów obliczenia RMSE w R po podzieleniu palaczy i niepalących na dwie grupy, które są modelowane osobno:

Informacja : Błąd średni kwadratowy

Błąd bez informacji o paleniu : 5.737096

Błąd przy podawaniu informacji o paleniu : 5.148622

ages <- read.csv(‘data/longevity.csv’)

constant.guess <- with(ages, mean(AgeAtDeath))

with(ages, sqrt(mean((AgeAtDeath – constant.guess) ^ 2)))

smokers.guess <- with(subset(ages, Smokes == 1),

mean(AgeAtDeath))

non.smokers.guess <- with(subset(ages, Smokes == 0),

mean(AgeAtDeath))

ages <- transform(ages,

NewPrediction = ifelse(Smokes == 0,

non.smokers.guess,

smokers.guess))

with(ages, sqrt(mean((AgeAtDeath – NewPrediction) ^ 2)))

Jak widać, patrząc na RMSE, które otrzymujemy, nasze przewidywania naprawdę poprawiają się po tym, jak dołączymy więcej informacji o badanych ludziach: nasz błąd prognozowania przy szacowaniu długości życia ludzi staje się o 10% mniejszy, gdy uwzględniamy informacje o zwyczaju palenia u ludzi . Ogólnie rzecz biorąc, możemy zrobić coś więcej niż używać tylko wartości średniej, ilekroć mamy binarne rozróżnienia oddzielające dwa typy punktów danych – zakładając, że te binarne rozróżnienia są powiązane z wynikami, które staramy się przewidzieć. Kilka prostych przykładów, w których binarne rozróżnienia mogą pomóc, to kontrastowanie mężczyzn z kobietami lub kontrastowanie demokratów z republikanami w amerykańskim dyskursie politycznym. Mamy teraz mechanizm włączania zmiennych zastępczych do naszych prognoz. Ale w jaki sposób możemy wykorzystać bogatsze informacje o obiektach w naszych danych? Przez bogatszy mamy na myśli dwie rzeczy: po pierwsze, chcemy wiedzieć, w jaki sposób możemy korzystać z danych wejściowych, które nie są binarnymi rozróżnieniami, lecz ciągłe wartości, takie jak wysokości lub wagi; po drugie, chcemy wiedzieć, w jaki sposób możemy wykorzystać wiele źródeł informacji naraz, aby poprawić nasze prognozy. W naszym przykładzie aktuarialnym załóżmy, że wiedzieliśmy (a) czy ktoś był palaczem oraz (b) wiek, w którym zmarli jego rodzice. Naszą intuicją jest to, że posiadanie tych dwóch oddzielnych źródeł informacji powinno powiedzieć nam więcej niż jedną z tych zmiennych w oderwaniu. Ale wykorzystanie wszystkich posiadanych informacji nie jest łatwym zadaniem. W praktyce musimy poczynić pewne uproszczenia, aby wszystko zaczęło działać. Założenia, które opiszemy, są tymi, które leżą u podstaw regresji liniowej, która jest jedynym typem regresji, który opiszemy w tej części. Używanie tylko regresji liniowej jest mniejszym ograniczeniem niż mogłoby się wydawać, ponieważ regresja liniowa jest używana w co najmniej 90% praktycznych zastosowań regresji i może zostać zhakowana w celu uzyskania bardziej wyrafinowanych form regresji przy niewielkim nakładzie pracy.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *