S에 대한 자세한 기계 번역 [Microsoft Translator Text] 및 머신러닝을 통해 별도의 사전을 추가할 수 있는 [Custom Translator]

입문


본 보도는 2019/03/03에 집필되었다.
이런 종류의 기술은 자주 갱신되기 때문에 장래에는 시대에 뒤떨어질 것이다.

변환기 텍스트 및 사용자 정의 변환기


Translator Text


이것은 마이크로소프트가 전개한'Cognitive Services'중 하나인 이른바 기계 번역이다.
https://azure.microsoft.com/ja-jp/services/cognitive-services/
Cognitive Services 외에도 음성 분석과 이미지 분석 기능을 제공합니다.
빙 번역의 내부도 같은 엔진을 사용한 것 같다.(추정)
기본적으로 Translator Text는 Rest API에서 실행됩니다.
그래서 때때로 "Translator Text API"라고도 부른다.
https://azure.microsoft.com/ja-jp/services/cognitive-services/translator-text-api/
Translator Text API는 Azure를 통해 설정됩니다.
방법 설정 등은 공식의 참조를 참조하십시오.
https://docs.microsoft.com/ja-jp/azure/cognitive-services/translator/translator-info-overview

사용자 정의 변환기


위의 Translator Text API는 일반 번역 결과에만 적용됩니다.
자사만의 업계 고유의 글과 단어가 번역 결과에 반영되지 않는다는 얘기다.
그곳에 등장한 것은 이'Custom Translator'입니다.
https://www.microsoft.com/ja-jp/translator/business/customization/
Custom Translator는'신경기계번역(NMT:Neural Machine Translation)'의 구조를 채택하여 기계번역 결과를 더욱 자연스럽게 사람의 번역으로 반영한다.(자세한 내용은 다음을 참조하십시오.)
'사용자 정의 변환기'는 관리자가 인공 번역 결과의 대비 텍스트 목록 (예: 일본어, 영어) 을 시스템에 미리 업로드하고 학습할 수 있도록 한다.
이것은 모든 환경(프로젝트)을 학습시키기 위한 것이다. 자기 회사의 독자적인 사전, 독자적인 업계의 말과 표현을 Onlymy로서 학습시킬 수 있다.
시스템 협업을 통해 Translator Text는 사용자 정의 Translator에서 배운 내용을 반영합니다.
이렇게 하면 Translator Text API는 이전처럼 호출되어 자신의 사전 결과를 반영할 수 있다.
이 사용자 정의 Translator에 대해 터치를 대충 설명합니다.

사용자 정의 변환기 개요


NMT: Neural Machine Translation


위에서 말한 바와 같이, Custom Translator는'신경기계번역(NMT:Neural Machine Translation)'의 구조를 채택하였다.
신경기계 번역(NMT: Neural Machine Translation)에 관해서는 이 문장 이해하기 쉽다.
얼토당토않게 말하다
  • 지금까지(규칙에 기초한 기계번역): 문법 규칙과 사전 정보에 따라 번역문을 생성하기 때문에 번역 결과는 종종 기계적
  • NMT: 실제로는 인간이 번역한 문장을 통해 학습한 결과도 자연스러워진다
  • 그러나: 배우지 않은 단어의 번역에는 약하다
  • 이런 특징이 있다.

    사용자 정의 변환기를 사용할 때까지


    사용자 정의 변환기를 실제로 사용하기 전에 아래를 참조하십시오.
  • 공식 참조
  • 사용자 정의 변환기를 만져봤어요.
  • 실제로 만져보면 뭔가 보충하고 싶은 게 있어서 여기에 적혀있어요.

    학습에는 10000여 개의 문장이 필요하다


    우선 기계 학습에 사용할 학습 데이터를 만들 때 번역 전과 번역 후의 글을 올린다.
    이후 학습 데이터의 모형을 만들고 글이 부족하면
    「Please select one or more parallel documents with a minimum of 10,000 sentences to start your training.」
    에서 설명한 대로 해당 매개변수의 값을 수정합니다.
    이것은 "훈련을 시작하려면 최소한 1만 개의 문장을 포함하는 병렬 문서를 하나 이상 선택하십시오."라는 것을 의미한다.그렇습니다.한 마디로 하면 Custom Translator를 사용할 때 번역 전과 번역 후의 문장은 각각 1만 편 이상이 필요하다.
    "우리 집에는 AAA, BBB, CCC라는 전문 용어가 있는데, 그것들을 번역 결과에 반영하고 싶다!"만약 이런 수요라면 실현하기 어려울 것 같다.
    글쎄, 머신러닝의 데이터 양이 관건이니 어쩔 수 없지.이 서비스는 대기업을 위한 내용이죠.
    참고로 저는 푸른 하늘 문고의'나는 고양이다', 일본어와 기계번역의 영어 본문을 각각 만들어 올려 보았습니다.NMT를 다시 한 번 기계번역을 배우게 하는 웃음.

    사용자 정의 변환기 API


    사용자 정의 변환기에 대한 API가 이미 제공됩니다.(단, 2019/03/03 현재 미리보기)
    여기 참고인데 아무래도 이 참고가 부족하다고 생각해요.
    여기저기 찾아보면 GitHub에 샘플 소스가 있으니 여기를 참조하세요.→ CustomTranslatorApiSamples
    icrosoft Graph API와 인증 방법은 거의 같지만 "resourceUri"는 "https://graph.microsoft.com"가 아닙니다.api://6981666b-e0e0-47d6-a039-35318677bf79/access_as_user"이 문자열. 그게 뭐야.
    앞으로 정식으로 출시될 때 바뀔까요?먼저 이 문자열을 사용하면 됩니다.
    예를 들어 각 부서의 책임자는 사용자 정의 변환기 서비스 페이지에 접근하지 않고 번역 전과 번역 후 파일을 업로드하여 학습할 수 있다.(사용자 정의 Translator 서비스 페이지를 방문하게 하면 위험하겠죠)
    또한 내장 번역 기능 응용 프로그램을 실행할 때 작업 공간 목록, 분류 목록을 표시합니다
    번역 서비스의 사용자로 하여금 작업 공간과 유형 등을 선택하여 번역하게 할 수도 있다.
    (권한상 관리자가 아닌 사용자가 작업공간 목록, 범주 목록을 얻을 수 있는지 검증되지 않았습니다...)

    Translator Text API에 사용자 정의 Translator 결과 반영


    2020/01/22 수정
    Translator Text API가 사용자 정의 Translator 결과를 반영하려면 API의 Translate 쿼리 문자열에 "category=(범주 ID)"를 추가합니다.
    또한 범주 ID는 사용자 정의 Translator 프로젝트에 기록됩니다.

    프로젝트인데 카테고리 아이디네.이해하기 어렵다

    총결산

  • 사용자 정의 번역 프로그램은 자신의 번역 결과를 기계 번역에 추가할 수 있다
  • 방식은 신경기계 번역으로 자연 번역 결과는 잘하지만 배우지 않은 언어는 잘하지 못한다
  • 사용 시 10000구 이상이 필요합니다.'결과에 이 단어들이 반영됐으면 좋겠다'이런 용도로는 적합하지 않다
  • 사용자 정의 Translator API를 잘 결합하면 관리도 쉽다.단, 현재 미리보기 버전
  • 좋은 웹페이지 즐겨찾기