Przetwarzanie dużych plików xml

Mam duży plik xml, który zawiera wiele elementów podrzędnych. Chcę móc uruchomić niektóre zapytania xpath. Próbowałem używać vtd-xml w java, ale czasami dostaję błąd outofmemory, ponieważ xml jest tak duży, że mieści się w pamięci. Czy istnieje alternatywny sposób przetwarzania tak dużych plików xml.Przetwarzanie dużych plików xml

Źródło

2011-01-22 Boolean

Dlaczego na tym pytaniu jest tag Pythona? Czy masz nadzieję, że ludzie będą oferować rozwiązania Python? – Spaceghost

Czy występują błędy pamięci podczas analizowania dokumentu lub podczas korzystania z zapytań xpath? Jeśli drugi, być może problem dotyczy kwerendy xpath. Tak czy inaczej, czy próbowałeś zwiększyć wartość -Xmx dla sterty dla JVM? – Spaceghost

spróbuj rozszerzonego pliku vtd-xml i użyj opcji odwzorowania pamięci –

spróbować http://code.google.com/p/jlibs/wiki/XMLDog

to wykonuje xpaths pomocą saksofonie bez tworzenia reprezentacji w pamięci dokumentów XML.

Źródło

2011-01-22 01:32:46

jest bardzo skuteczny przy pracy z dużymi plikami

Źródło

2011-01-22 00:55:52

Nie można używać XPath z bezpośrednim strumieniem SAX (brak ponownego przeanalizowania całego pliku dla każdego zapytania). –

@Glenn Maynard - ale z pewnością OP * musi * dokonać ponownej analizy pliku dla każdego zapytania (lub serii zapytań). DOM jest zbyt duży, aby zmieścić się w pamięci. –

Co chcesz teraz zrobić? Odgłosami tego próbujesz użyć parsera opartego na DOM, który zasadniczo ładuje cały plik XML do pamięci jako reprezentację DOM. Jeśli masz do czynienia z dużym plikiem, lepiej skorzystaj z parsera SAX, który przetwarza dokument XML w streamingu.

ja osobiście polecam StAX do tego.

Źródło

2011-01-22 01:29:49 whaley

Czy używasz standardowego VTD lub rozszerzoną VTD-xml? Jeśli używasz rozszerzonego XML, masz możliwość użycia mapowania pamięci ... czy próbowałeś tego?

Źródło

2011-01-22 20:03:32

Korzystanie XPath może nie być dobrym pomysłem, jeśli plan na kompilacji wielu wyrażeń dynamicznie w długo żył aplikacji.

Nie jestem do końca pewien, jak wersja Java XPath działa, ale w .NET XPath kompiluje dynamiczny montaż następnie dodaje go do domeny aplikacji. Kolejne zastosowania wyrażenia wyglądają na złożenie załadowane do pamięci.
W jednym przypadku, w którym używałem XPath, doprowadziło to do sytuacji, w której myślę, że ten sam rodzaj mechanizmu spowalniał zapełnianie pamięci podobnej do wycieku pamięci.

Moja teoria jest taka, że jak każde wyrażenie został skompilowany przy użyciu wartości z użytkownikiem, co było prawdopodobnie skompilowane wyrażenia wyjątkowy, więc nowa ekspresja została opracowana i dodany do domeny aplikacji.
Ponieważ można wyjąć zespół z domeny aplikacji bez konieczności ponownego uruchamiania aplikacji całą domenę, pamięć została konsumowane każdorazowo wyrazem była oceniana i nie może zostać odzyskane. W wyniku tego kod wyciekał pamięć w postaci złożeń w pamięci, a po chwili dobrze znamy wyniki.

Źródło

2012-01-16 19:12:35

Przetwarzanie dużych plików xml

Odpowiedz

Powiązane problemy