OpenAI의 GPT2에서 우리는 인공지능이 기사를 생성하는 매체를 만들었다


소스 코드


문자와 이미지를 생성하여 wordpress API의 원본으로 보내기
https://github.com/seiyatakahashi/airi-news-python

사용 기술


news api


공식 웹:https://newsapi.org/
개요:
전 세계 인터넷 매체에서 보도 데이터 수집, API
용도:
Airi News에 투고한 기사의 제목, 이미지, 내용 등을 일부 사용했다.

fast-style-transfer


github: https://github.com/lengstrom/fast-style-transfer
개요
fast-style-transfer는tensorflow를 사용하여 그림을 회화 스타일로 만듭니다.
용도:
매체가 보도한 이미지를 고스란히 Airi뉴스에 전달하면 저작권을 침해하기 때문에 매체가 보도한 이미지를 잠시 다운로드하여fast-style-transfer로 원 이미지를 회화 스타일로 생성합니다.
참조 웹 주소:https://www.htmllifehack.xyz/entry/2018/06/06/210000

gpt2


github: https://github.com/openai/gpt-2
개요
800만 페이지의 데이터 집합(40GB)을 사용하여 학습한 모형으로 짧은 문장에서 자란 문장.가짜뉴스는 쉽게 만들어지기 때문에 학자들은 위험하다고 말한다.
용도:
원본의 첫 번째 140자 문자열에서 다음 1000에서 2000자 문자열을 생성했습니다.
참조 웹 주소:http://cedro3.com/ai/pytorch-gpt-2/

자동화 프로세스



1.newsapi 데이터 가져오기


NewsAPI에서 일본 비즈니스, 엔터테인먼트, 건강, 스포츠, 기술, 과학 분야의 트렌드 보도

2. 문장 생성


GPT2는 짧은 문장에서 1000문자~2000문자의 긴 문장을 만들기 위해 문장 내용의 최초 140문자를 추출한다.
GPT2는 영어로만 생성되기 때문에 추출된 140개의 문자를 구글 번역 API로 영어로 번역합니다.
번역된 데이터에서 GPT2로 영어 기사를 생성합니다.
영어의 보도 데이터를 구글 번역 API로 일본어로 만들다.

3. 이미지 생성


뉴스api에서 얻은 기사의 초상화의 URL을 서버에 다운로드합니다.
다운로드한 이미지에서 fast-style-transfer를 사용하여 이미지를 편집했습니다.

4. 글과 사진 게시


Airi뉴스는 wordpress로 구축되었기 때문에 wprestapi,post보도와 이미지를 사용합니다.

반성점


GPT2는 영어만 지원하기 때문에 구글 번역 API에서 일본어에서 영어로, 영어에서 일본어로 바뀌어 읽기가 어렵다.그래서 일본어를 학습 데이터로 삼아 기계 학습 모형을 만들어야 한다.
GPT2는 과거의 보도 데이터를 바탕으로 보도를 생성하기 때문에 뉴스와 같은 새로운 데이터의 생성에 있지 않다.

좋은 웹페이지 즐겨찾기