Scala parser syntezatora, duży plik problem

Pisałem parser następująco:Scala parser syntezatora, duży plik problem

class LogParser extends JavaTokenParsers { 

    def invertedIndex: Parser[Array[Array[(Int, Int)]]] = { 
    num ~> num ~> num ~> rep(postingsList) ^^ { 
     _.toArray 
    } 
    } 

    def postingsList: Parser[Array[(Int, Int)]] = { 
    num ~> rep(entry) ^^ { 
     _.toArray 
    } 
    } 

    def entry = { 
    num ~ "," ~ num ^^ { 
     case docID ~ "," ~ count => (docID.toInt, count.toInt) 
    } 
    } 

    def num = wholeNumber ^^ (_.toInt) 

}

Gdybym analizować z (270MB) plik z FileReader następująco:

val index = parseAll(invertedIndex, new FileReader("path/to/file")).get

Dostaję Exception in thread "main" java.lang.StackOverflowError (próbowałem również owijania w BufferedReader), ale można to naprawić przez pierwsze czytanie pliku w ciąg tak:

val input = io.Source.fromFile("path/to/file") 
val str = input.mkString 
input.close() 
val index = parseAll(invertedIndex, str).get

Dlaczego tak się dzieje? Czy istnieje sposób, aby najpierw nie czytać jako String, wydaje się być marnotrawstwem?

Źródło

2012-11-03 Robert

Jaki jest aktualny rozmiar stosie, a ile większe masz zrobić swój stack, aby uniknąć StackOverflowException? Ile mniejszy musi być stos, aby przepełnić wersję String? (Możesz ustawić swój stos na 16 MB, uruchamiając się w następujący sposób: 'scala -J-Xss16M') – DaoWen

Używałem tylko domyślnego rozmiaru stosu, ale kiedy ustawiłem go na 16M, program nadal działał 30 minut później ... – Robert

To może być związany z błędem Scala 2.9.2 [SI-6520] (https://issues.scala-lang.org/browse/SI-6520). –

Istnieje inna biblioteka [1], która jest bardzo podobna do kombinatorów parsera scala, który obsługuje Trampolining, co jest potrzebne, aby zatrzymać błędy stackoverflow.

[1] https://github.com/djspiewak/gll-combinators

Źródło

2012-11-16 02:14:01

Scala parser syntezatora, duży plik problem

Odpowiedz

Powiązane problemy