2014-12-03 12 views

Odpowiedz

16

Naprawdę polecam liac-arff. To nie jest ładowany bezpośrednio do numpy, ale konwersja jest prosta odpowiedź

import arff, numpy as np 
dataset = arff.load(open('mydataset.arff', 'rb')) 
data = np.array(dataset['data']) 
+0

Dzięki za opinię. Każdy pomysł, w jaki sposób mogę użyć tej rozmowy do klasyfikacji? – tumbleweed

+0

Wszyscy wiemy, że na przykład z SVM podstawową ideą klasyfikacji jest: 'od sklearn import svm s = svm.SVC() lables = [etykieta1, etykieta2] s.fit (training_data, etykiety)' Jak przedstawiam plik 'arff' do algorytmu klasyfikacji? – tumbleweed

+0

Czy można analizować wyniki TF-IDF z pliku .arff i używać go w sklearn? –

6

Znalazłem, że scipy has a loader for arff files, aby załadować je jako numpy tablice rekordów. Nie jestem w 100% pewien, czy te tablice są odpowiednie do bezpośredniego spożycia przez naukę scikit, ale to powinno wystarczyć.

+0

Czy myślisz, że będę musiał przeanalizować te numpy tablice? ... Jaki rodzaj preprocesu musiałbym zrobić, aby podać jakiś algorytm klasyfikacji w nauce scikit? – tumbleweed

2

Śledź renatopp za: zakładamy danych jest zbiór danych irys, nie powinno być 5 wymiarowa z ostatniego jest kolumna klasy etykieta.

s = svm.SVC() 
data_input = data[:,0:4] 
labels = data[:,4] # this is the class column 
s.fit(data_input, labels) 

Myślę, że to jest coś, co chcesz.