Nom 사용 - 파서 결합자 라이브러리
Apertium Stream 형식은 상당히 복잡하고 Nom을 사용하는 방법을 정확히 알지 못했습니다. 그래서 쉬운 케이스부터 시작했습니다. 내 단순화된 Apertium 스트림은 어휘 단위 목록입니다. 어휘 단위는 다음과 같습니다.
^surface_form$
Btw, 이 게시물에서 내 소스 코드를 테스트하지 않았습니다. 실행 가능한 예제를 원하시면 https://github.com/veer66/reinars 을 확인하십시오.
먼저 어휘 단위를 일치시키는 함수를 만들었습니다. 다음과 같이 보입니다.
fn parse_lexical_unit(input: &str) -> IResult<&str, &str> {
let mut parse = delimited(tag("^"), is_not("^$"), tag("$"));
parse(input)
}
parse_lexical_unit("^cat$")을 실행하면 Ok(("", "cat"))가 반환됩니다.
&str 대신 Lexical Unit 구조체를 반환하여 개선되기를 바랍니다.
#[derive(Debug)]
struct LexicalUnit {
surface_form: String
}
fn parse_lexical_unit(input: &str) -> IResult<&str, LexicalUnit> {
let mut parse = delimited(tag("^"), is_not("^$"), tag("$"));
parse(input).map(|(i,o)| (i, LexicalUnit { surface_form: String::from(o) }))
}
"구분된"은 처음에 ^와 끝에 $를 일치시키는 데 도움이 됩니다. ^ 또는 $가 아닌 모든 것을 캡처하고 싶었습니다. 그래서 is_not("^$")을 사용합니다. 더 직관적일 수 있습니까?
parse_lexical_unit("^cat$")을 실행하면 대신 Ok(("", LexicalUnit { surface_form: "cat"}))가 표시됩니다. 😃
그런 다음 단순화된 스트림을 구문 분석하는 함수를 만들었습니다.
fn parse_stream(input: &str) -> IResult<&str, Vec<LexicalUnit>> {
let mut parse = separated_list0(space1, parse_lexical_unit);
parse(input)
}
parse_stream 함수에서는 이전에 생성한 parse_lexical_unit을 Separate_list0에 사용합니다. separator_list0은 목록을 캡처하기 위한 것으로, 이 경우 목록은 parse_lexical_unit에 의해 구문 분석된 어휘 단위의 목록입니다. 하나 이상의 공백인 space1은 목록을 구분합니다.
parse_stream("^I$ ^eat$ ^rice$")을 실행하면 다음을 얻습니다.
Ok(("", [LexicalUnit { surface_form: "I" },
LexicalUnit { surface_form: "eat" },
LexicalUnit { surface_form: "rice" }]))
예를 보여주기에 충분하다고 생각합니다. 나머지 구문 분석기는 alt, escaped_transform 튜플 등의 조합입니다. 이 모든 작업을 수행함으로써 이 작업에 대해 Lex/Yacc 또는 Whittle을 사용하는 것보다 이것이 더 쉽다고 생각합니다.
Reference
이 문제에 관하여(Nom 사용 - 파서 결합자 라이브러리), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://dev.to/veer66/using-nom-a-parser-combinator-library-58m5텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)