Mam korpus 26 plików tekstowych, każdy od 12 do 148 KB, łącznie 1,2 MB. Używam R na laptopie Windows 7.Maksymalny rozsądny rozmiar dla wykorzenia w tm?
Zrobiłem wszystkie normalne rzeczy porządkowe (stopwords, niestandardowe stopwords, małe litery, cyfry) i chcę wykonać uzupełnianie łodygi. Używam oryginalnego korpusu jako słownika, jak pokazano w przykładach. Wypróbowałem kilka prostych wektorów, aby upewnić się, że to zadziała w ogóle (z około 5 terminami) i zrobiło to bardzo szybko.
exchanger <- function(x) stemCompletion(x, budget.orig)
budget <- tm_map(budget, exchanger)
Działa od wczoraj o 16.00! W R Studio w diagnostyce, dziennik żądań pokazuje nowe żądania z różnymi numerami zgłoszeń. Menedżer zadań pokazuje go za pomocą pamięci, ale nie za szaloną sumę. Nie chcę tego przestać, bo co, jeśli już prawie tam jest? Jakieś inne pomysły, jak sprawdzić postęp - czy to niestety zmienny korpus? Pomysły na temat tego, jak długo powinno to potrwać? Zastanawiałem się nad użyciem wektora nazw dtm jako słownika, odciętego w najczęstszym (lub wysokim tf-idf), ale niechętnie zabijam ten proces.
Jest to zwykły laptop z systemem Windows 7 z wieloma innymi funkcjami.
Czy ten korpus jest zbyt duży, aby można go było ukończyć? Skoro nie ma mowy o przejściu do Pythona, czy istnieje lepszy sposób na wykorzenienie lub lematyzacja wszy - moje wyszukiwanie w sieci nie przyniosło żadnych odpowiedzi.
dziękuję za tę odpowiedź - nie jest to wygodne ze złą rozmową ze źródłem ... ale czy mogę umieścić te polecenia w skrypcie w oknie skryptowym RStudio? Zgaduję, że tylko wtedy, gdy umieszczę pełne źródło, co w istocie przypomina edycję źródła i zapisywanie? – ChristinaP
Masz całkowitą rację. Skopiuj pełną funkcję ze źródła do osobnego skryptu, a następnie wprowadź zmiany. Za każdym razem, gdy trzeba z niego korzystać, należy załadować pakiet, a następnie załadować niestandardową funkcję, aby zastąpić to, co zostało załadowane z paczki. – SchaunW