NLP 단어 표기 노트 (1)

3762 단어 nlp
NLP 단어 표기 노트 (1)
작업 요구 사항
1. HMM, MEMM, CRF, Perception을 이용하여 단어성 표기 임무를 훈련한다.각 모델의 중국어 데이터 세트(CTB5, gsd simple)와 영문 데이터 세트(WSJ)에서의 정확성을 각각 계산한다.실험 분석 보고서를 작성한다(서로 다른 데이터 집합, 서로 다른 모델에서의 결과 비교 분석)
명사를 이해하다
갓 입문한 흰둥이로서 NLP의 많은 명사에 대해 아무것도 모른다.그래서 실습을 하기 전에 저는 먼저 임무 요구를 해체하고 안에 언급된 모든 낯선 명사에 대해 설명하기로 했습니다.
  • HMM 모델: 은마르코프 모델, 미지의 파라미터를 포함하는 마르코프 과정을 설명하는 통계 모델.어려운 점은 관찰할 수 있는 매개 변수에서 이 과정의 은밀한 매개 변수를 확정한 다음에 이런 매개 변수를 이용하여 진일보한 분석을 하는 것이다.두 가지 가설: 출력 관찰치 간에 엄격하게 독립한다.상태의 전환 과정 중 현재 상태는 이전 상태와 관계가 있을 뿐입니다(1 단계 마르코프 모델) HMM 모델 가설 전제는 이 모델을 비교적 작은 데이터 집합에 적용합니다.대량의 진실한 어료에서 관찰 서열은 다중적인 상호작용 특징 형식으로 표현되고 관찰 요소 사이에 관련성이 존재하기 때문이다.실체 식별을 명명하는 작업은 실체 자체가 복잡한 구조를 가지기 때문에 모든 특성을 포함하는 복잡한 특징 함수가 필요하다.그러나 HMM의 전제 조건은 한 개의 태그 이상의 피쳐를 사용할 수 없게 합니다.마르코프 사슬의 이동 확률: 이전 상태에서 현재 상태로 들어갈 확률;마르코프 사슬의 생성 확률을 포함한다. 각 상태가 상응하는 출력 기호를 생성할 확률;전이 확률과 생성 확률은 마르코프 모델을 포함하는 매개 변수라고 불리며 이런 매개 변수를 계산하거나 추정하는 과정이 모델의 훈련이 된다.두 가지 알고리즘이 필요합니다. 비트비 알고리즘(사용 시 디코딩 알고리즘) 밥 웰치 알고리즘(훈련 알고리즘) 참고: HMM(은마르코프 모델) 이해
  • MEMM 모델: 최대 엔트로피 마르코프 모델은 HMM이 결합 확률을 통해 모델링하는 것이 아니라 최대 엔트로피 모델로 조건 확률을 학습한다.관찰치가 엄격하게 독립적으로 발생하는 문제(HMM의 가설 중 하나)를 극복했다.MEMM모델은 HM모델과 ME모델의 장점을 하나로 모으고 이 모델의 어기 상태 이동 확률은 서열에서 여러 차례 독립되지 않은 특징에 의존하여 상하문 정보를 모델의 학습과 식별 과정에 도입하여 식별의 정확도를 높이고 회수율도 높인다.실험은 이 모델이 HMM과 무상태의 최대 엔트로피 모델보다 시퀀스 마크업 임무에 더 잘 나타난다는 것을 증명했다.MEMM이 하는 일은 국부적 귀일화로 인해 더 적은 이동이 있는 state가 가진 이동 확률이 보편적으로 높고 확률의 최대 경로는 이동이 적은 상태가 나타나기 쉽기 때문에 표기 편향 문제가 존재하기 때문에 전체적인 귀일화 CRF를 제기했다.중국어 분사 참조: 최대 엔트로피 마르코프 모형
  • CRF모델: 조건 랜덤 필드 모델, CRF모델은 관찰 서열을 정한 상황에서 전체 서열에 대한 결합 확률에 대해 또 하나의 통일된 지수 모델이다.CRF는 관찰 서열을 정한 상황에서 전체 서열에 대한 결합 확률을 정한다.개선된 HMM모델보다 식별할 텍스트에 제공된 상하문 정보를 더 많이 활용하여 더 좋은 실험 결과를 얻을 수 있다.이 모델은 중국어 블록 식별에 효과적이고 엄격한 독립성 가설과 데이터 귀납의 편견 문제를 피했다.CRF 모델은 중국어 이름의 실체 식별에 응용되고 중국어의 특징에 따라 다양한 특징 템플릿을 정의했다.테스트 결과 같은 특징 집합을 채택한 조건에서 CRF모델은 다른 확률모델보다 더 좋은 성능을 나타냈다.어성 표기는 주로 겸유사 변조와 미지의 단어 표기의 난제에 직면하고 있다. HMM 방법은 새로운 특징을 융합시키기 어렵고 MEMM 모델은 표기 편향 등 문제가 존재한다. 반면에 CRF모델은 어성 표기 모델을 구축하여 새로운 특징을 융합시키기 쉽고 표기 편향 문제를 해결할 수 있다.CRF모델과 MEMM의 본질적인 차이점은 MEMM모델은 모든 상태에 확률모델이 있고 모든 상태가 이동할 때 귀일화되어야 한다는 것이다.만약 어떤 상태가 하나의 후속 상태만 있다면 이 상태에서 후속 상태로 이동하는 확률은 1이다.이렇게 하면 어떤 내용을 입력하든지 이 후속 상태로 이동한다.CRF모델은 모든 상태에서 하나의 통일된 확률모델을 구축하고 귀일화를 진행할 때 어떤 상태가 하나의 후속 상태만 있어도 그 전이 확률은 1이 되지 않는다.따라서 이론적으로 CRF모델은 중국어의 어성 표기에 매우 적합하다.CRF모델의 부족함: 우선, CRF를 바탕으로 여러 가지 특징을 결합하는 방법으로 영어 명명 실체를 식별하는 분석을 통해 CRF 방법을 사용하는 과정에서 특징의 선택과 최적화는 결과에 영향을 주는 관건적인 요소이고 특징 선택 문제의 좋고 나쁨은 시스템 성능의 높낮이를 직접적으로 결정한다.그 다음으로 훈련 모형은 ME보다 시간이 길고 얻은 모형이 커서 일반 PC기에서 실행할 수 없다.상기 세 가지 모델을 총괄하면 모두 서열 표준 모델을 만들 수 있지만 각각의 특징이 있다.HMM 모델은 전이 확률과 생성 확률에서 결합 확률을 통해 모델링한다.MEMM모델은 직접 학습 조건의 확률로 국부적으로만 귀일화하기 때문에 국부적 최우수에 빠지기 쉽다.CRF모델은 귀일화할 때 데이터의 전역 분포를 고려하여 MEMM의 표기 편향 문제를 해결했다.예를 들어 표시된 임무에 대해"나는 베이징 톈안먼을 사랑한다"고 표기했다.
      " s s  b  e b c e"
    
    HMM을 사용하여 이 표기가 성립될 확률을 P=P(s에서 s로 이전)*P('나'는 s로 표현)*P(s에서 b로)*P('사랑'은 s로 표현)...*P()로 판단한다. 훈련할 때 상태 이동 확률 매트릭스와 생성 확률 매트릭스를 통계해야 한다. MEMM을 사용하여 이 표기가 성립될 확률을 P=P(s에서 s|'나'로 판단하면 s)*P로 표현한다.*P('나'는 s로 표현)*P(s는 b|'사랑'으로 표현은 s)*P('사랑'은 s로 표현)...훈련시 조건상태에서 확률 매트릭스를 옮기고 확률 매트릭스를 생성하는 것을 통계해야 한다.CRF모델을 사용하여 이 표시가 성립될 확률을 P=F(s에서 s로 옮기고'나'는 s로 표현)...F는 하나의 함수로 전역적으로 통계를 귀일화하는 확률이지 MEMM처럼 국부적으로 통계를 귀일화하는 확률이 아니다.참고 사항: HMM, MEMM, CRF 모델의 비교(회전)
  • perception모델: 감지기 모델, 감지기는 두 가지 분류의 선형 분류기로서 벡터기와 신경 네트워크를 지원하는 기초이다.이는 데이터가 선형으로 나눌 수 있다고 가정하고 목표는 사다리꼴 하강법을 통해 손실 함수를 극소화하고 마지막에 분할 초평면을 찾아 데이터를 두 가지 유형으로 나눌 수 있다.어떻게 감지기 모형을 훈련합니까?감지기 모델을 구축하려면 매개 변수 ww와 bb만 확인하면 된다.우리는 사다리꼴 하강법을 통해 두 개의 매개 변수를 끊임없이 조정하여 가장 좋은 방향으로 접근한다.어떻게 두 매개 변수의 좋고 나쁨을 평가합니까?우리는 손실 함수(loss function)를 계량화한다. 함수 값이 작을수록 가장 좋은 모델과 가깝다는 것을 의미한다.감지기에서 가장 좋은 해답은 가장 적합한 분할 초평면으로 데이터를 가장 잘 분할할 수 있다는 것이다.참고 문서: 통계 학습 방법 - 감지기 모형
  • 좋은 웹페이지 즐겨찾기