2012-10-11 11 views
5

Używam naiveBayes (e1071 http://en.wikibooks.org/wiki/Data_Mining_Algorithms_In_R/Classification/Na%C3%AFve_Bayes) do klasyfikacji mojego zbioru danych (Klasyfikacja: "klasa" 0/1). Oto co mam zrobić:

library(e1071) 
arrhythmia <- read.csv(file="/home/.../arrhythmia.csv", head=TRUE, sep=",") 

#devide into training and test data 70:30 
trainingIndex <- createDataPartition(arrhythmia$class, p=.7, list=F) 
arrhythmia.training <- arrhythmia[trainingIndex,] 
arrhythmia.testing <- arrhythmia[-trainingIndex,] 

nb.classifier <- naiveBayes(class ~ ., data = arrhythmia.training) 
predict(nb.classifier,arrhythmia.testing[,-260]) 

Klasyfikator nie działa, tutaj jest to, co mam:

> predict(nb.classifier,arrhythmia.testing[,-260]) 
factor(0) 
Levels: 

> str(arrhythmia.training) 
'data.frame': 293 obs. of 260 variables: 
$ age       : int 75 55 13 40 44 50 62 54 30 46 ... 
$ sex       : int 0 0 0 1 0 1 0 1 0 1 ... 
$ height      : int 190 175 169 160 168 167 170 172 170 158 ... 
$ weight      : int 80 94 51 52 56 67 72 58 73 58 ... 
$ QRSduration     : int 91 100 100 77 84 89 102 78 91 70 ... 
$ PRinterval     : int 193 202 167 129 118 130 135 155 180 120 ... 
# and so on (260 attributes) 

> str(arrhythmia.training[260]) 
'data.frame': 293 obs. of 1 variable: 
$ class: int 1 0 1 0 0 1 1 1 1 0 ... 


> nb.classifier$levels 
NULL 

Próbowałem użyć dołączonego do zestawu danych (Iris) i wszystko działa poprawnie. Co jest nie tak z moim podejściem?

Odpowiedz

6

Upewnij się, że traktujesz zmienną klasy jako czynnik; tj.

nb.classifier <- naiveBayes(as.factor(class) ~ ., data = arrhythmia.training) 

Przy okazji nie trzeba wykluczać zmiennej klasy z przewidywanego połączenia.

1

Każda zmienna w ramce danych złożona z ciągów znaków musi być traktowana jako czynnik.

W przypadku, gdy zmienna nie jest czynnikiem użyj polecenia:

df$var1 <- as.factor(df$var1) 

Obejmuje zmienną klasy.

Uwaga: Jeśli jedna zmienna ma wartość numeryczną, nie trzeba jej przekształcać na współczynnik.