원티드 프리온보딩 AI/ML 코스 Week 1-3

7475 단어 NLPAIAI

Paperswithcode에서 NLG extractive summarization task에 대해 정리

  • 문제 정의

    • task가 해결하고자 하는 문제가 무엇인가?

      • extractive summarization task
        • 주어진 문장에서 문서를 가장 잘 나타내는 단어 또는 문장을 선택
    • 데이터셋 소개(대표적인 데이터셋 1개)

      • task를 해결하기 위해 사용할 수 있는데 데이터가 무엇인가?

        • CNN / Daily Mail
      • 데이터 구조는 어떻게 생겼는가?

        • CNN 과 Daily Mail의 기자들이 쓴 300k 분량의 뉴스 기사

        • Version support

          • Original - machine reading, comprehension, abstractive question answering
          • Current - extractive, abstractive summarization
        • Data Instances(default)

          {'id': '0054d6d30dbcad772e20b22771153a2a9cbeaf62',
           'article': "(CNN) -- An American woman died aboard a cruise ship that docked at Rio de Janeiro on Tuesday, the same ship on which 86 passengers previously fell ill, according to the state-run Brazilian news agency, Agencia Brasil. The American tourist died aboard the MS Veendam, owned by cruise operator Holland America. Federal Police told Agencia Brasil that forensic doctors were investigating her death. The ship's doctors told police that the woman was elderly and suffered from diabetes and hypertension, according the agency. The other passengers came down with diarrhea prior to her death during an earlier part of the trip, the ship's doctors said. The Veendam left New York 36 days ago for a South America tour."
           'highlights': "The elderly woman suffered from diabetes and hypertension, ship's doctors say .\\nPreviously, 86 passengers had fallen ill on the ship, Agencia Brasil says ."
          }
          • Data Field
            • id: a string containing the heximal formated SHA1 hash of the url where the story was retrieved from
            • article: a string containing the body of the news article
            • highlights: a string containing the highlight of the article as written by the article author
    • SOTA(State-of-the-Art : 최신 기술) 모델 소개(대표 모델 2개 이상)

      • task의 SOTA 모델은 무엇인가?

      • 해당 모델 논문의 요약에서 주요 키워드들에 대한 설명

        • compressions
          • 구성 요소의 구문 분석 기반 압축 후 신경 모델을 사용해 점수화
          • 오라클 추출 요약
          • 2가지 요소를 학습
      • task의 SOTA 모델은 무엇인가?

      • 해당 모델 논문의 요약에서 주요 키워드들에 대한 설명

        • nested tree = syntactic + discourse trees
          • pre-trained BERT-based encoder는 문장 정보를 표현하기 위해 훈련되지 않았기 때문에 RoBERTa에 nested tree 기반 모델을 제안
      • Metric

        • ROUGE-1 : refers to the overlap of unigram (each word) between the system and reference summaries.

        • ROUGE-2 : refers to the overlap of bigrams between the system and reference summaries.

        • ROUGE-L : Longest Common Subsequence (LCS) based statistics. Longest common subsequence problem takes into account sentence level structure similarity naturally and identifies longest co-occurring in sequence n-grams automatically.

  • 문제 정의

    • task가 해결하고자 하는 문제가 무엇인가?

      • 원본 텍스트의 핵심 아이디어를 포착하는 짧고 간결한 요약 생성(Abstractive Text Summarization)
    • 데이터셋 소개(대표적인 데이터셋 1개)

      • task를 해결하기 위해 사용할 수 있는데 데이터가 무엇인가?

        • CNN / Daily Mail
      • 데이터 구조는 어떻게 생겼는가?

        • CNN 과 Daily Mail의 기자들이 쓴 300k 분량의 뉴스 기사

        • Version support

          • Original - machine reading, comprehension, abstractive question answering
          • Current - extractive, abstractive summarization
        • Data Instances(default)

          {'id': '0054d6d30dbcad772e20b22771153a2a9cbeaf62',
           'article': "(CNN) -- An American woman died aboard a cruise ship that docked at Rio de Janeiro on Tuesday, the same ship on which 86 passengers previously fell ill, according to the state-run Brazilian news agency, Agencia Brasil. The American tourist died aboard the MS Veendam, owned by cruise operator Holland America. Federal Police told Agencia Brasil that forensic doctors were investigating her death. The ship's doctors told police that the woman was elderly and suffered from diabetes and hypertension, according the agency. The other passengers came down with diarrhea prior to her death during an earlier part of the trip, the ship's doctors said. The Veendam left New York 36 days ago for a South America tour."
           'highlights': "The elderly woman suffered from diabetes and hypertension, ship's doctors say .\\nPreviously, 86 passengers had fallen ill on the ship, Agencia Brasil says ."
          }
          • Data Field

            • id: a string containing the heximal formated SHA1 hash of the url where the story was retrieved from

            • article: a string containing the body of the news article

            • highlights: a string containing the highlight of the article as written by the article author

    • SOTA(State-of-the-Art : 최신 기술) 모델 소개(대표 모델 2개 이상)

      • task의 SOTA 모델은 무엇인가?
      • 해당 모델 논문의 요약에서 주요 키워드들에 대한 설명
        • NLP tasks are different in nature, with three main categories being classification, unconditional generation, and conditional generation.
          • NLP 작업에는 classification, unconditional generation, conditional generation. 3개의 메인 카테고리가 있는데 이 세가지는 모두 본질적으로 다르기 때문에 기존의 GPT, BERT, T5 같은 사전 훈련 모델들이 모든 작업에 최적의 결과를 낼 수 없어 BERT의 Transformer와 유사한 architecture를 사용한 새로운 사전 훈련 모델을 제안
      • task의 SOTA 모델은 무엇인가?
      • 해당 모델 논문의 요약에서 주요 키워드들에 대한 설명
        • Dropout - 과적합(overfit)을 피하기 위해 훈련을 진행 할 때 매 Batch 마다 Layer 단위로 일정 비율만큼의 Neuron을 꺼뜨리는 방식
          • positive : 강력하고 널리 사용되는 DNN 정규화 훈련 기법
          • negative : 임의성
        • R-Drop
          • Dropout으로 생성된 하위 모델의 출력 분포가 서로 일치하도록 강제

좋은 웹페이지 즐겨찾기