Nom 사용 - 파서 결합자 라이브러리

6504 단어 nomrustparser
에 대한 파서를 만들고 싶었습니다. 2014년에는 Ruby에서 Whittle을 사용했습니다. 올해가 2001년이라면 Lex/Yacc를 사용할 것입니다. 어쨌든 올해는 2021년입니다. 저는 이 파서를 Rust로 만들고 싶었습니다. Lex/Yacc와 유사한 것을 찾으려고 했습니다. Rust-Peg를 찾았습니다. Nom의 문서에서 Rust-Peg에 대한 링크를 찾았습니다. 첫인상은 Nom 예제가 읽기 쉽습니다. 적어도 문서에서는 Nom이 빠르다고 주장했습니다.

Apertium Stream 형식은 상당히 복잡하고 Nom을 사용하는 방법을 정확히 알지 못했습니다. 그래서 쉬운 케이스부터 시작했습니다. 내 단순화된 Apertium 스트림은 어휘 단위 목록입니다. 어휘 단위는 다음과 같습니다.

^surface_form$


Btw, 이 게시물에서 내 소스 코드를 테스트하지 않았습니다. 실행 가능한 예제를 원하시면 https://github.com/veer66/reinars 을 확인하십시오.

먼저 어휘 단위를 일치시키는 함수를 만들었습니다. 다음과 같이 보입니다.

fn parse_lexical_unit(input: &str) -> IResult<&str, &str> {
    let mut parse = delimited(tag("^"), is_not("^$"), tag("$"));
    parse(input)
}


parse_lexical_unit("^cat$")을 실행하면 Ok(("", "cat"))가 반환됩니다.

&str 대신 Lexical Unit 구조체를 반환하여 개선되기를 바랍니다.

#[derive(Debug)]
struct LexicalUnit {
    surface_form: String
}

fn parse_lexical_unit(input: &str) -> IResult<&str, LexicalUnit> {
    let mut parse = delimited(tag("^"), is_not("^$"), tag("$"));
    parse(input).map(|(i,o)| (i, LexicalUnit { surface_form: String::from(o) }))
}


"구분된"은 처음에 ^와 끝에 $를 일치시키는 데 도움이 됩니다. ^ 또는 $가 아닌 모든 것을 캡처하고 싶었습니다. 그래서 is_not("^$")을 사용합니다. 더 직관적일 수 있습니까?

parse_lexical_unit("^cat$")을 실행하면 대신 Ok(("", LexicalUnit { surface_form: "cat"}))가 표시됩니다. 😃

그런 다음 단순화된 스트림을 구문 분석하는 함수를 만들었습니다.

fn parse_stream(input: &str) -> IResult<&str, Vec<LexicalUnit>> {
    let mut parse = separated_list0(space1, parse_lexical_unit);
    parse(input)
}


parse_stream 함수에서는 이전에 생성한 parse_lexical_unit을 Separate_list0에 사용합니다. separator_list0은 목록을 캡처하기 위한 것으로, 이 경우 목록은 parse_lexical_unit에 의해 구문 분석된 어휘 단위의 목록입니다. 하나 이상의 공백인 space1은 목록을 구분합니다.

parse_stream("^I$ ^eat$ ^rice$")을 실행하면 다음을 얻습니다.

Ok(("", [LexicalUnit { surface_form: "I" }, 
             LexicalUnit { surface_form: "eat" }, 
             LexicalUnit { surface_form: "rice" }]))


예를 보여주기에 충분하다고 생각합니다. 나머지 구문 분석기는 alt, escaped_transform 튜플 등의 조합입니다. 이 모든 작업을 수행함으로써 이 작업에 대해 Lex/Yacc 또는 Whittle을 사용하는 것보다 이것이 더 쉽다고 생각합니다.

좋은 웹페이지 즐겨찾기