Lista słów w słowniku według występowania w korpusie tekstowym, Scikit-Learn

Zainstalowałem CountVectorizer do niektórych dokumentów w scikit-learn. Chciałbym zobaczyć wszystkie terminy i ich odpowiednią częstotliwość w korpusie tekstowym, aby wybrać stop-słowa. Na przykład:Lista słów w słowniku według występowania w korpusie tekstowym, Scikit-Learn

'and' 123 times, 'to' 100 times, 'for' 90 times, ... and so on

Czy jest w tym funkcja wbudowana?

Źródło

2013-04-18 user1506145

Jeśli cv to CountVectorizer i X jest wektorowy korpusu, a następnie

zip(cv.get_feature_names(), 
    np.asarray(X.sum(axis=0)).ravel())

zwraca listę (term, frequency) pary dla każdego odrębnego terminu w korpusie, że CountVectorizer ekstrahowano.

(konieczna jest Mała asarray + ravel taniec obejść niektórych dziwactw w scipy.sparse.)

Źródło

2013-04-18 09:01:36

Dzięki! Ale nie są one zamówione, ale udało mi się to zrobić: dla sortowania krotki (occ_list, key = lambda idx: idx [1]): print tuple [0] + '' + str (tuple [1]). Problem polega na tym, że postacie åäö nie są drukowane. Ustawiłem kodowanie na utf8. – user1506145

Jesteś również pewien, że get_feature_names() będzie miał terminy uporządkowane według ich indeksu w macierzy częstotliwość-częstotliwość? Dowiedziałem się, że cv.get_feature_names() i cv.vocabulary_.keys() nie ma tej samej kolejności. – user1506145

@ user1506145: 'dict.keys' nie gwarantuje żadnego zamówienia; właśnie dlatego istnieje "get_feature_names". –

Nie ma wbudowanej. Znalazłem szybszy sposób to zrobić w oparciu o Ando Saabas's answer:

from sklearn.feature_extraction.text import CountVectorizer 
texts = ["Hello world", "Python makes a better world"] 
vec = CountVectorizer().fit(texts) 
bag_of_words = vec.transform(texts) 
sum_words = bag_of_words.sum(axis=0) 
words_freq = [(word, sum_words[0, idx]) for word, idx in vec.vocabulary_.items()] 
sorted(words_freq, key = lambda x: x[1], reverse=True)

wyjście

[('world', 2), ('python', 1), ('hello', 1), ('better', 1), ('makes', 1)]

Źródło

2018-01-28 18:45:16

Lista słów w słowniku według występowania w korpusie tekstowym, Scikit-Learn

Odpowiedz

Powiązane problemy