영화 리뷰 사이트에서 극성 사전을 만들어보세요.

우선 시도해 봅시다.



PoC 레벨입니다.

극성 사전



테스트에 사용한 데이터의 Scraping 기사



적당한 데이터를 모아서 극성 사전을 만들 수 있을까 보겠습니다.



지금까지의 코드를 가져와서 만들어 보겠습니다.

git은 여기
htps : // 기주 b. 코 m / 카츠 토시 이누가 / 포 r_ ぢ ct_ st

보충



영화 리뷰 사이트는 점수가 붙었으므로,
이번은 무리입니다만, -1~1로 정규화하고 있습니다.

어쩌면 분포를 보고 좀 더 생각하는 것이 좋지만, 이번에는 사전 같은 것이 만들어지는지를 보고 싶었기 때문에
그대로 돌진

작성할 수 있는 사전은 이런 느낌

부정적인 단어




여왕이 부정적인 단어가되고, 뭐야? . . (재미있었는데...)
신경이 쓰이는 것은 좋다는 단어가 부정적으로 되어 버렸습니다. . .

이번에는 리뷰 건수가 160 건이므로 좀 더 데이터를 늘려보고 싶어지는 곳입니다.

긍정적인 단어





``...''는 말했지만, 이것은 모든 리뷰에 들어있었습니다.
리뷰의 요약이 ...가되어 있기 때문이군요.

당연하지만 어쩐지 긍정적인 느낌이 듭니다.
다른 의미가없는 단어도 제거해야합니다.

요약



Scraping한 데이터로 사전 같은 것을 만드는 것은 가능할 것 같습니다.
단지 문장마다의 가중치를 계산할 때의 별을 어떤 식으로, 정규화할까 등은, 모델 만드는 사람의 팔의 보이는 곳이군요

좋은 웹페이지 즐겨찾기