2015-04-16 16 views
6

Chciałbym wykreślić krzywą ROC dla przypadku wieloklasowego dla mojego własnego zestawu danych. Przez documentation Czytałem, że etykiety muszą być binarny (mam 5 etykiety od 1 do 5), więc za przykładem zawartych w dokumentacji:Jak wykreślić krzywą ROC z scikit uczyć się w przypadku wieloklasowym?

print(__doc__) 

import numpy as np 
import matplotlib.pyplot as plt 
from sklearn import svm, datasets 
from sklearn.metrics import roc_curve, auc 
from sklearn.cross_validation import train_test_split 
from sklearn.preprocessing import label_binarize 
from sklearn.svm import SVC 
from sklearn.multiclass import OneVsRestClassifier 



from sklearn.feature_extraction.text import TfidfVectorizer 
import numpy as np 
tfidf_vect= TfidfVectorizer(use_idf=True, smooth_idf=True, sublinear_tf=False, ngram_range=(2,2)) 
from sklearn.cross_validation import train_test_split, cross_val_score 

import pandas as pd 

df = pd.read_csv('path/file.csv', 
        header=0, sep=',', names=['id', 'content', 'label']) 


X = tfidf_vect.fit_transform(df['content'].values) 
y = df['label'].values 




# Binarize the output 
y = label_binarize(y, classes=[1,2,3,4,5]) 
n_classes = y.shape[1] 

# Add noisy features to make the problem harder 
random_state = np.random.RandomState(0) 
n_samples, n_features = X.shape 
X = np.c_[X, random_state.randn(n_samples, 200 * n_features)] 

# shuffle and split training and test sets 
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33 
                ,random_state=0) 

# Learn to predict each class against the other 
classifier = OneVsRestClassifier(svm.SVC(kernel='linear', probability=True, 
           random_state=random_state)) 
y_score = classifier.fit(X_train, y_train).decision_function(X_test) 

# Compute ROC curve and ROC area for each class 
fpr = dict() 
tpr = dict() 
roc_auc = dict() 
for i in range(n_classes): 
    fpr[i], tpr[i], _ = roc_curve(y_test[:, i], y_score[:, i]) 
    roc_auc[i] = auc(fpr[i], tpr[i]) 

# Compute micro-average ROC curve and ROC area 
fpr["micro"], tpr["micro"], _ = roc_curve(y_test.ravel(), y_score.ravel()) 
roc_auc["micro"] = auc(fpr["micro"], tpr["micro"]) 

# Plot of a ROC curve for a specific class 
plt.figure() 
plt.plot(fpr[2], tpr[2], label='ROC curve (area = %0.2f)' % roc_auc[2]) 
plt.plot([0, 1], [0, 1], 'k--') 
plt.xlim([0.0, 1.0]) 
plt.ylim([0.0, 1.05]) 
plt.xlabel('False Positive Rate') 
plt.ylabel('True Positive Rate') 
plt.title('Receiver operating characteristic example') 
plt.legend(loc="lower right") 
plt.show() 

# Plot ROC curve 
plt.figure() 
plt.plot(fpr["micro"], tpr["micro"], 
     label='micro-average ROC curve (area = {0:0.2f})' 
       ''.format(roc_auc["micro"])) 
for i in range(n_classes): 
    plt.plot(fpr[i], tpr[i], label='ROC curve of class {0} (area = {1:0.2f})' 
            ''.format(i, roc_auc[i])) 

plt.plot([0, 1], [0, 1], 'k--') 
plt.xlim([0.0, 1.0]) 
plt.ylim([0.0, 1.05]) 
plt.xlabel('False Positive Rate') 
plt.ylabel('True Positive Rate') 
plt.title('Some extension of Receiver operating characteristic to multi-class') 
plt.legend(loc="lower right") 
plt.show() 

Problem z tym jest to, że aproach nigdy nie skończyć. Każdy pomysł, jak wykreślić tę krzywą ROC dla tego dataset?

+3

Chyba masz koncepcyjnego błąd. ROC jest naprawdę niezdefiniowany dla niczego innego niż dwie klasy. – carlosdc

+0

Dzięki za opinię @ carlosdc. Pewnie, że dotyczy to tylko przypadku klasyfikacji binarnej. Więc nie można tego spisku? –

+1

Można wykonać krzywą ROC dla każdej pary klas. – Scott

Odpowiedz

3

Wersja ta nigdy się nie kończy, bo tej linii:

classifier = OneVsRestClassifier(svm.SVC(kernel='linear', probability=True, random_state=random_state)) 

SVM klasyfikator zajmuje naprawdę dużo czasu, aby zakończyć, użyj innego klasyfikatora jak adaboost lub innego swojego wyboru:

classifier = OneVsRestClassifier(AdaBoostClassifier()) 

Remember Aby dodać import:

from sklearn.ensemble import AdaBoostClassifier 

Usuń ten kod, to jest bezużyteczne:

# Add noisy features to make the problem harder 
random_state = np.random.RandomState(0) 
n_samples, n_features = X.shape 
X = np.c_[X, random_state.randn(n_samples, 200 * n_features)] 

Zamiast tego wystarczy dodać:

random_state = 0 
+0

Dzięki za pomoc, dlaczego to tak bardzo zajmuje SVM? –

+3

Dzieje się tak, ponieważ ustawiasz prawdopodobieństwa na True. W takim przypadku svm musi także obliczyć prawdopodobieństwa, które są intensywne w pamięci i obliczeniach. – Salamander

+0

@Eranyogev Jak narysować to dla multiclass z walidacji krzyżowej? – Bambi

Powiązane problemy