논문 읽기: Learning from Real Users: Rating Dialogue Success with Neural Networks for Reinforcement Learning in Spoken Dialogue Systems

Learning from Real Users: Rating Dialogue Success with Neural Networks for Reinforcement Learning in Spoken Dialogue Systems 내용의 요약.

무슨 일이야?



대화 관리부에는 강화 학습을 이용한 모델이 잘 이용된다(POMDP 등). 이 학습에는 역시 실제 사용자의 피드백을 사용하고 싶지만 몇 가지 문제가 있습니다.
  • 사용자의 목적에 맞는지 사용하는 경우 : 사용자의 목적은 당연히 사전에 모르기 때문에, 맞는지 원래 모른다
  • 사용자의 주관 평가를 사용하는 경우: PARADISE 등의 평가 프레임워크가 있지만, 값은 변동이 크다. 특히 돈으로 고용한 유저는 정말로 대화하고 싶은 것은 아니기 때문에, 더욱더.

  • 만약 사용자가 느끼고 있는 평가를 예측하는 모델이 있다면 실제 사용자와의 대화로부터 그 평가를 예측하고 학습시킬 수 있을 것이다. 그래서 사용자의 주관 평가를 예측하는 모델을 만들자! 라는 이야기.

    선행 연구에 비해 어디가 굉장한가?



    이것이 가능하면, 유저에 대한 사전 지식(목적이 무엇인가 등)이 없어도 강화 학습을 실시할 수 있다.
    ※단, 실제 진짜 유저와의 대화는 그다지 수가 없기 때문에, 학습시킬 때는 유저의 행동을 본뜬 유저 시뮬레이터를 작성해 그것을 사용해 학습하는 경우가 많다. 다만, 본 논문에서는 「Real Users」로부터의 학습을 고집하고 있다.

    기술과 기술의 키모는 어디입니까?



    사용자의 Dialog Act, 신념 상태, 시스템 Act, 턴수(1/한계 턴)를 결합하여 벡터화하고(21,575,20,1=617차원), 그것을 RNN에 돌진하여 사용자의 목적에 맞는다. 확률을 산출한다(CNN도 검증하고 있지만, 정밀도가 나쁘기 때문에 잊어도 좋다).



    학습 데이터는 아젠다 기반의 대화를 에뮬레이트하는 사용자 시뮬레이터를 작성하여 작성 (이 경우 사용자의 목적은 분명하기 때문에 주석도 편하다).

    어떻게 유효하다고 확인 했습니까?



    RNN을 사용한 보상 예측 모델에서 학습시킨 것과 지금까지 대로 사용자의 피드백을 이용하여 학습시킨 것 사이의 정밀도를 비교했다. 결과, 정확도는 거의 같은 정도였다.


    보상과 필요한 턴수가 baseline의 모델과 같은 정도로 전이하고 있는 것을 알 수 있다.

    유저의 피드백으로 학습시킬 경우에는 850정도의 대화가 필요하고 게다가 흔들림(목적 달성의 평가와 주관 평가가 어긋나 있는 것)이 없는 것을 엄선할 필요가 있으므로, 이 번거로움이 없어지는 것은 큰.

    논쟁이 있습니까?



    이번에는 도메인을 한정한 대화로 했으므로 학습한 모델의 다른 도메인으로의 전이(transfer learning) 등이 향후의 과제로 꼽힌다.

    다음에 읽어야 할 논문은?



    이것은 이것으로서, Usersimulator의 만드는 방법은 봐 두는 것이 좋을지도. 아래는 POMDP의 아주 좋은 정리로, 이 5장에 사용자 시뮬레이터에 대한 해설이 있다.

    POMDP 기반 Statistical Spoken Dialogue Systems: a Review

    좋은 웹페이지 즐겨찾기