Symulacja danych sprzedażowych

Wystarczająco dużo pojęć; zacznijmy programować. Aby uzyskać jasny obraz tego, dokąd zmierzamy, zaczynamy od zainicjowania ramki danych sales, której będziemy używać, z zerową liczbą obserwacji. Robimy to, definiując dostępne kategorie dla każdej zmiennej czynnikowej i definiując puste wartości z typem danych, którego potrzebujemy dla każdej zmiennej. Jak widać, posiada identyfikatory SALE_ID i CLIET_ID, które pozwolą nam powiązać te dane z tymi z clients i client_messages. Aby to zrozumieć, spójrzmy na następujący kod:

status_levels <- c(”PENDING” , DELIVERED” , „RETURED”, „CANCELLED”)

protein_soure_levels <- c(„BEEF, „FISH”, „CHICKEN”, „VEGETARIAN”)

continent_levels <- c(„AMERICA”, „EUROPE”, „ASIA”)

delivery_levels <- („IN STORE{, „TO LOCATION”)

paid_levels <- c(„YES”, „NO”)

sales <- data.frame(

SALE_ID = character(),

CLIENT_ID = character(),

DATE = as.Date(character() ),

QUANTITY = integer(),

COSI = numeric(),

PRICE = numeric(),

DISCOUNT = numeric(),

PROTEIN = numeric(),

CARBS = numeric(),

FAT = numeric (),

PROTEIN_SOURCE = factor(levels = protein_source_levels),

CONTINENT = factor(levels – cotinent_levels),

DELIVERY = factor(levels – delivery_levels),

STATUS = factor(levels = status_levels),

PAID = factor(levels = paid_levels)

)

Ten sposób inicjalizacji pustej ramki danych, w przeciwieństwie do wielu innych metod, które możesz znaleźć gdzie indziej, jest bezpieczniejszy, ponieważ od początku będziesz mieć poprawne typy kolumn. Jeśli twój kod opiera się na sprawdzaniu typów kolumn (tak jak to zrobimy), będzie działał nawet z ramkami danych z zerowymi wierszami (tak jak w tym przypadku)

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *