첫 번째 회의에서 논문 수를 통해 GEC 연구가 강한 조직을 해독하다
특히 영역 밖의 사람과 GEC에 관심이 있어 지금부터 시작하려는 이들에게 "결국 GEC가 강한 곳은 어디인가?""일본 내에서 전통적으로 성행한다고 들었는데 세계적으로 보면 어때요?"나는 네가 이런 의문을 품고 있을 것이라고 생각한다.실제로 저까지 포함해서 평소 GEC를 연구하시는 분들도'거기 팀은 잘 보지 말자'는 얼토당토않은 느낌을 받았지만 해상도는 그렇게 높지 않았습니다.따라서 이 글에서는 최고회의 통과 논문 수를 중심으로 GEC 연구에서 강점이 있는 조직을 조사할 예정이다.
조사 방침
수사 방침과 관련해서는 논의의 여지가 많아 이번에 다음과 같은 방침을 결정했다.
또한 구체적인 대상 논문의 통계 순서로 문헌 관리 서비스(이번 사용paperpile에서 대상 논문에 포함된 폴더를 준비하고 메타데이터에 소속 라벨(제1저자 소속)을 부여한 다음spreadsheet에서 export 통계, 분석을 한다.
대상 논문 수집과 관련해서는 제목에'그램마티컬 에rror Correction'이 포함된 논문을 기계적으로 수집하는 것뿐만 아니라 제목에 없어도 GEC를 사용한 논문도 포함한다(예: Awasthi et al., (2019)반면 제목의 내용으로 GEC 범위 밖의 논문(예: Zomer and Garcia (2021) 제외 등은 어느 정도 일손 검사를 거쳤다.
결실
상술한 방침에 따라 논문을 수집하여 총 37편을 모았다.실제 수집한 논문 목록은 이미 공개여기.되었으니 자유롭게 사용하세요.다음은 각 소속 부서의 논문 수량.
소속 논문수
최근 5년간 마이크로소프트와 구글 등 테크 자이언트의 가맹이 눈에 띈다.물론 GEC 수요가 사내에서 증가한 주요 원인도 있지만, GEC가 2016년께부터 NMT 방법이 주류가 되면서 개인적으로 테크 자이언트와 같은 강세층이 MT에 쉽게 가입할 수 있었던 주요 원인도 있다고 느끼는 것으로 풀이된다.특히 구글과 관련해서는 2017년 이전 GEC 연구가 거의 이뤄지지 않은 것으로 알고 있으며 아마 Lichtarge et al.,(2018) 첫 GEC 논문이 될 것으로 보인다.나는 당시에 이 논문이 ARxiv에 업로드되었을 때 Google도 마침내 GEC에 왔던 것을 기억한다.
대학에 있는 그런 테크 자이언트와 나란히 있는 유일한 곳은 케임브리지대(University of Cambridge)다.케임브리지대는 케임브리지 영검이 알고 있는 것처럼 오래전부터 언어 학습과 평가에 강점이 있어 여명기부터 적극적으로 연구해온 조직 중 하나다.최근 5년간만 보면 시스템 출력ERRANT에 오류 유형을 자동으로 부여하는 분석·평가 도구를 제공하거나 GEC 국제대회(Shared Task)BEA-2019 Shared Task를 주최하고 숙련도 있는 데이터 세트를 제공하는 등 GEC 분야 전반에 충격적인 작업이었다.우리는 GEC를 이끌고 전진해야 한다!이런 기개.
일본의 연구기관 중 내가 속한 이연 AIP(RIKEN AIP)가 3권으로 4위?네.이연 AIP자연 언어 이해 그룹는 2018년께부터 본격적인 연구 활동을 시작한 이래 GEC를 비롯한 언어교육·평가 분야 연구를 활발히 하고 있다.1∼3위(Google, Micorosft, 케임브리지대)와 비교하면 소수의 정예인이라고 생각하기 때문에 노력하는 사람이라고 생각한다.
싱가포르 국립대(National University of Singappore) 2.5곳이 그 뒤를 이었다.개인적으로 이 결과는 좀 의외라고 생각한다.여기 기사.에도 싱가포르 국립대학이 주최한CoNLL-2013, CoNLL-2014 Shared Task와 그곳에서 제공한 기준(공통된 평가 데이터와 평가 스크립트)이 GEC의 연구를 지금까지 발전시켰기 때문이다.이밖에 ERRANT 개발자인 BEA-2019 Shared Task 주최자, 케임브리지대 크리스토퍼 브라이언트 씨는 싱가포르 국립대 Hwee Tou Ng 선생 밑에서 2년 동안 RA를 했고, 당시 CoNLL-2014 Shared Task 주최자로 참여했다.이후 케임브리지 대학으로 옮겨진 뒤 스스로 쉐레드 Task를 열었고 지금은 GEC 연구를 이끄는 한 사람이 됐는데 이런 전개를 보니 정말 피가 끓는다..나만?
나머지는 일일이 고르지 않지만 전체적으로 GEC는 작은 미션이지만 유저의 층이 생각보다 두껍다는 인상을 준다.
저자당 논문수(Top10)
Authors
# papers
Tao Ge (Microsoft)
4.5
Furu Wei (Microsoft)
4.5
Masato Mita (RIKEN AIP)
4.0
Kentaro Inui (Tohoku University)
3.5
Ming Zhou (Microsoft)
3.5
Christopher Bryant (University of Cambridge)
3.0
Masahiro Kaneko (Tokyo Metropolitan University)
2.5
Syun Kiyono (RIKEN AIP)
2.5
Hwee Tou Ng (National University of Singapore)
2.5
Jun Suzuki (Tohoku University)
2.5
:
2.0
어렵기 때문에 경품으로 저자당 논문수(Top10)를 제시해 봤다.계수하는 방법은 아까와 마찬가지로 같은 수의 경우 알파벳 순서이고 ()에는 주 소속만 기재되어 있다.그러고 보면 톱10의 절반이 일본인이라는 점은 놀랍지만, 조직 1위인 구글과 케임브리지대는 저자 입장에서는 별다른 이름을 올리지 못했기 때문에 층의 두께는 거슬러 올라갈 수 있을까?(특정인을 두둔하지 않고) 이런 걸 엿볼 수 있다니 역시나 그런 것 같아요.
끝말
이번 논의는 다만 최고회의 통과 수를 중심으로'연구가 강했다'지만 워낙 다양한 잣대가 있었다.예를 들어 숫자가 아닌 충격(인용수 등)이 중요하다는 의견도 있었고, 정상급 회의가 전부가 아니라는 의견도 있었다.실제로 GEC, 특히 BEA로 불리는 교육응용학과에 관한 세미나에는 GEC에 관한 논문도 많고 흥미로운 것도 많았다.따라서 앞으로 GEC를 시작하고 싶은 분이나 관심 있는 분이라면 이번 대상의 논문을 제외한 내용을 꼭 직접 확인해 주시기 바랍니다.
Reference
이 문제에 관하여(첫 번째 회의에서 논문 수를 통해 GEC 연구가 강한 조직을 해독하다), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/chemical_tree/items/7bb2c8271416018b8225텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)