Chciałbym wykreślić granicę decyzji dla modelu utworzonego przez pakiet Caret. Idealnie, chciałbym ogólnej metody dla każdego modelu klasyfikatora z Caret. Jednak obecnie pracuję z metodą kNN. Poniżej zamieściłem poniższy kod, który używa zbioru danych o jakości wina z UCI, z którym właśnie pracuję.Jak utworzyć wykres granicy decyzji dla modeli kNN w pakiecie Caret?
znalazłem tę metodę, która współpracuje z ogólnym sposobem KNN w badania, ale nie można dowiedzieć się, jak mapować go Caret ->https://stats.stackexchange.com/questions/21572/how-to-plot-decision-boundary-of-a-k-nearest-neighbor-classifier-from-elements-o/21602#21602
library(caret)
set.seed(300)
wine.r <- read.csv('https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv', sep=';')
wine.w <- read.csv('https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-white.csv', sep=';')
wine.r$style <- "red"
wine.w$style <- "white"
wine <- rbind(wine.r, wine.w)
wine$style <- as.factor(wine$style)
formula <- as.formula(quality ~ .)
dummies <- dummyVars(formula, data = wine)
dummied <- data.frame(predict(dummies, newdata = wine))
dummied$quality <- wine$quality
wine <- dummied
numCols <- !colnames(wine) %in% c('quality', 'style.red', 'style.white')
low <- wine$quality <= 6
high <- wine$quality > 6
wine$quality[low] = "low"
wine$quality[high] = "high"
wine$quality <- as.factor(wine$quality)
indxTrain <- createDataPartition(y = wine[, names(wine) == "quality"], p = 0.7, list = F)
train <- wine[indxTrain,]
test <- wine[-indxTrain,]
corrMat <- cor(train[, numCols])
correlated <- findCorrelation(corrMat, cutoff = 0.6)
ctrl <- trainControl(
method="repeatedcv",
repeats=5,
number=10,
classProbs = T
)
t1 <- train[, -correlated]
grid <- expand.grid(.k = c(1:20))
knnModel <- train(formula,
data = t1,
method = 'knn',
trControl = ctrl,
tuneGrid = grid,
preProcess = 'range'
)
t2 <- test[, -correlated]
knnPred <- predict(knnModel, newdata = t2)
# How do I render the decision boundary?
To bardzo dobra odpowiedź i jestem o wiele bliżej, myślę. Zaktualizowałem istotę mojego kodu, próbując wykreślić granicę decyzji: https://gist.github.com/jameskyle/729945f6fa38a343b8ab. Ale wykres, który dostaję, jest potwornym, plaid mess (http://i.imgur.com/TYCpleT.png). Czy przyczyną jest błąd w implementacji, czy też same dane? Wybrałem alkohole i chlorki jako moje x, y, ponieważ były to cechy najwyższej wagi. –
Napisałem skrypt oparty na irysie, który dzieli dane tęczówki zamiast generować zestaw testowy, otrzymuję podobnie ułamkowy wykres. Zakładam, że tak właśnie działają granice decyzyjne? Skrypt: https://gist.github.com/jameskyle/ffed976dfef1cbc778d5 Wykres: http://i.imgur.com/UX1xmp9.png –
W części newdata dane muszą być podobne do siatki; Zaktualizuję moją odpowiedź. – chappers