Jako ćwiczenie, implementuję parser dla wyjątkowo prostego języka zdefiniowanego w Haskell, używając następującego GADT (prawdziwa gramatyka dla mojego projektu zawiera dużo więcej wyrażeń, ale ten wyciąg jest wystarczający na pytanie):Usuwanie lewej rekursji w podstawowym analizatorze składni
data Expr a where
I :: Int -> Expr Int
Add :: [Expr Int] -> Expr Int
funkcje parsowanie są następujące:
expr :: Parser (Expr Int)
expr = foldl1 mplus
[ lit
, add
]
lit :: Parser (Expr Int)
lit = I . read <$> some digit
add :: Parser (Expr Int)
add = do
i0 <- expr
is (== '+')
i1 <- expr
is <- many (is (== '+') *> expr)
pure (Add (i0:i1:is))
Ze względu na lewej rekurencyjny charakter gramatyki wypowiedzi, gdy próbuję analizować coś tak prostego jak 1+1
pomocą expr
parser, parser utknąć w nieskończonej pętli.
Widziałem przykłady jak czynnik poza lewej rekursji całej sieci przy użyciu transformacji z czymś takim:
S -> S a | b
w coś podobnego:
S -> b T
T -> a T
Ale mam zmaga się z jak zastosować to do mojego parsera.
Dla kompletności, tutaj jest kod, który faktycznie wykonuje parser:
newtype Parser a = Parser
{ runParser :: String -> [(a, String)]
}
instance Functor Parser where
fmap f (Parser p) = Parser $ \s ->
fmap (\(a, r) -> (f a, r)) (p s)
instance Applicative Parser where
pure a = Parser $ \s -> [(a, s)]
(<*>) (Parser f) (Parser p) = Parser $ \s ->
concat $ fmap (\(f', r) -> fmap (\(a, r') -> (f' a, r')) (p r)) (f >
instance Alternative Parser where
empty = Parser $ \s -> []
(<|>) (Parser a) (Parser b) = Parser $ \s ->
case a s of
(r:rs) -> (r:rs)
[] -> case b s of
(r:rs) -> (r:rs)
[] -> []
instance Monad Parser where
return = pure
(>>=) (Parser a) f = Parser $ \s ->
concat $ fmap (\(r, rs) -> runParser (f r) rs) (a s)
instance MonadPlus Parser where
mzero = empty
mplus (Parser a) (Parser b) = Parser $ \s -> a s ++ b s
char = Parser $ \case (c:cs) -> [(c, cs)]; [] -> []
is p = char >>= \c -> if p c then pure c else empty
digit = is isDigit
Możesz zajrzeć do https://en.m.wikipedia.org/wiki/Operator-precedence_parser – dfeuer
Ponadto, można rozważyć użycie 'attoparsec' zamiast toczenia własne ramy analizowania. – dfeuer
@dfeuer, ale wtedy brakowałoby nam celu ćwiczenia! To pierwszeństwo operatora wygląda jak dobre rozwiązanie. Idealnie możemy go uruchomić z tym parserem rekurencyjnego pochodzenia. –