przepraszam za tę dodatkową odpowiedź, ale jest zbyt wiele linii w komentarzu.
Chciałem tylko przypomnieć, że liczba elementów, które można wkleić razem za pomocą paste(..., collapse = "|")
, aby można je było wykorzystać jako pojedynczy pasujący wzór, jest ograniczona - patrz poniżej. Może ktoś może powiedzieć, gdzie dokładnie jest limit? Wprawdzie liczba ta może nie być realistyczna, ale w zależności od zadania, które należy wykonać, nie należy jej całkowicie wykluczać z naszych rozważań.
Dla naprawdę dużej liczby elementów potrzebna jest pętla do sprawdzenia każdego elementu wzoru.
set.seed(0)
samplefun <- function(n, x, collapse){
paste(sample(x, n, replace=TRUE), collapse=collapse)
}
words <- sapply(rpois(10000000, 8) + 1, samplefun, letters, '')
text <- sapply(rpois(1000, 5) + 1, samplefun, words, ' ')
#since execution takes a while, I have commented out the following lines
#result <- grepl(paste(words, collapse = "|"), text)
# Error in grepl(pattern, text) :
# invalid regular expression
# 'wljtpgjqtnw|twiv|jphmer|mcemahvlsjxr|grehqfgldkgfu|
# ...
#result <- stringi::stri_detect_regex(text, paste(words, collapse = "|"))
# Error in stringi::stri_detect_regex(text, paste(words, collapse = "|")) :
# Pattern exceeds limits on size or complexity. (U_REGEX_PATTERN_TOO_BIG)
@ andrie, to absolutnie genialne, zakładało, że jest to niemożliwe od lat, a to po prostu proste wyrażenie, –
@ Davavaraburg :-) Nauczyłem się z gorzkiego doświadczenia, że nic nie jest niemożliwe w R. To zawsze jest tylko kwestia w jaki sposób! – Andrie