Mam tekst i za pomocą tego prostego wyrażenia regularnego podzielić je na słowa: [ \n]
. Dzieli tekst na słowa za pomocą spacji i linii podziału.Jak podzielić tekst za pomocą wyrażenia regularnego, ale podzielone słowa nadal zachowują separator regex?
Chcę wiedzieć, czy istnieje sposób, aby zachować białe znaki lub podział wiersza w splited słowo, ponieważ użyję tego do prostego wykrywania zdanie po pewnym przetwarzaniu.
Używam metody String#split
.
Czy Twój \ n oznacza coś specjalnego (koniec zdania)? Nie przetwarzasz normalnych akapitów w wielu liniach z "." jako koniec zdania? – toto2
@ toto2 Interpunkcja jest również używana do określenia końca zdania, ale treść pochodzi z treści HTML, więc wiele zdań, takich jak tytuł, nie ma interpunkcji określającej, gdzie kończą się zdania, tylko podział wiersza. –
Nie jestem pewien, czy powinieneś polegać na \ n podczas przetwarzania HTML, ponieważ możesz mieć doskonale czysty dokument bez pojedynczego \ n. – toto2