161222_data_visualization_meetup_2016 보고서 ▶
3182 단어 DataVisualization
본론으로 들어가기 전에 이벤트 소개입니다.
페이스북에 오픈 데이터 근처에서 이벤트 알림이 와서 갔어요.자신의 기록용이지만 길기 때문에 3부로 나눠 기재해야 한다.
자세한 내용은 여기→https://data-visualization-japan.connpass.com/event/47246/
주) 기술적인 말은 거의 쓰지 않는다.
데이터 균형이란 무엇입니까?
이 사이트의 설명은 이해하기 쉽다.(긴 것으로 인해 생략됨)
https://www.synergy-marketing.co.jp/glossary/data-visualization/
이를테면 이런↓ 내용도 바빠서다.
파란색 빛은 스마트폰에서 들려오는 PV의 많은 호수 밖인 것 같다.
정말 황당한 한 해였어...잘 알고 있습니다.
번외 뉴스에서 2016년을 돌아보다
http://news.yahoo.co.jp/staffblog/special/lookback2016/
이런 분들이 등장하셨습니다. (2016년 회의 연설로 강단에 오른 분)
· 지궁신차씨 (야후주식회사)
・야자키 유일(Data Visualization Japan/Code For Tokyo)
·가마타 겐이치로씨 (니혼게이자이신문사)
· 청수정행님 (GUNMA GIS GEEK)
·아프로사(일본방송협회)
사실 LT에 의료 VR과 내비게이션에 있는 다른 몇 명이 있는데 LT 도중에 아파서 탈퇴했기 때문에 활동 보고를 할 수 없다...정말 미안합니다.
주제: 이런 회의 토크
구마모토 지진의 검색 데이터를 Visualize의 방법으로 분석한 이야기 byahoo!지궁 선생
가사 분석.아티스트의 노래를 텍스트 해석하여 비슷한 사람을 트리화한다.지궁이 요즘 작품 중에 제일 좋아하는 것 같아요.
yahoo!검색에는 100억 종(≠ 100억 건)의 검색이 있다고 한다.
내가 사용하는 시스템을 보니 정말 너무 많아...
검색 분석의 왕도와 동일본 대지진 분석 때의 반성
분석의 왕도는 다음과 같은 두 가지가 있다.
- 검색량 순위
- 검색 수의 추이 파형
평균 주가의 도표에서 추이파형을 자주 볼 수 있는데'구마모토지진+●'을 검색한 사람들의 추이파형의 최고치는 전국과 구마모토현에서 1개월 정도 차이가 난다고 한다.그것만으로도 뉴스의 구마모토 지진과 재해자의 구마모토 지진의 무게 차이는 볼 수 있는 부분 아닌가.
사실 지궁 선생은 동일본 대지진 때도 검색 키워드를 분석하여 보고서를 정리한 적이 있지만, 예전의 방법에 따르면 검색량이 많은 것은 비교적 쉽게 찾을 수 있다과도파형 중 긴 꼬리(파형이 점차 줄어 가로로 긴 꼬리길처럼) 부분을 분석할 수 없는 데 대해 반성했다고 한다.
(구체적으로 동일본대지진 때 관동지역에는 귀가가 어려운 사람들이 많았지만'●연착'이라는 단어를 검색하기 위해 검색순위에는 각 연선의 명칭에 따라 흩어져 있었다.)
구마모토 지진 공기 모니터 분석
그래서 구마모토 지진에서 지궁 씨는 최근에 유행하는 공동 네트워크로 분석했습니다...그 결과 대피소 등 대피 관련 정보와 영어 피해자 정보 수요가 감지됐다. -共起ネットワークとは
特徴語同士の共起関係をネットワーク図(クラスタ化)にするもの。
隠れていた需要をまとめ上げることで、隠れたニーズを掘り起こしやすい。
공동 네트워크의 제작 방법
KH Coder 를 사용하면 쉽게 만들 수 있습니다.
뒷면에서는 R로 움직인다고 하는데, R로 같은 것을 만드는 것이 생각보다 어렵다고 한다(한 K대 수업에서 알려주면 생각보다 어려울 것 같다). 초보자는 개미를 잘 활용하자.
집단화의 요점은 다음과 같은 두 가지가 있다.
1. 욕심을 부리지 말고 데이터를 깨끗이 정리한다.
2. 해설을 해주지 않으면 처음 보고 오해하는 사람이 있기 때문에 펼칠 때 해설을 꼭 넣어야 한다
→여기도 요지와 같을 수 있다.정보의 취사 선택과 정보성은 매우 중요하다.
이에 따라 초보자도 쉽게 사용할 수 있는 형태소 분석 사례를 소개했다.
초반 문외한이 말했듯이 다양한 관광활동에 힘쓰고 있지만 처음이라 부드러운 텍스트 발굴적인 이야기를 들려줬다.
질의응답
Q: 긴 꼬리를 없애기 위해 단어를 주울 때 왜 공통 네트워크를 구축하는가.
A:단순히 꼬리를 분석할 여력이 없기 때문이에요.시간 순서의 추이를 중심으로 하다.자연 언어 처리에 관해서 나는 앞으로 더욱 노력할 것이라고 생각한다.
Q:KHcoder를 사용하지 않아도 yahoo라고 할 수 있죠.를 참고하십시오.
A:빨아들이고 싶을 때 KHcoder가 더 빠르기 때문에 물건에 따라 구분해서 사용합니다.
Q: 텍스트 해석에서 언어 사이의 거리는 무의미하지 않습니까?(형태소를 해석할 때 앞뒤 5개까지 자주 하는데...)
A:검색 키워드 분석에서 거리를 잘 두지 않기 때문에 중요시하지 않습니다.← 이렇게 말하면 확실히 의문의 대답이다.
Reference
이 문제에 관하여(161222_data_visualization_meetup_2016 보고서 ▶), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/aki_M/items/30bbda8e5a9b4dcd5734
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
구마모토 지진의 검색 데이터를 Visualize의 방법으로 분석한 이야기 byahoo!지궁 선생
가사 분석.아티스트의 노래를 텍스트 해석하여 비슷한 사람을 트리화한다.지궁이 요즘 작품 중에 제일 좋아하는 것 같아요.
yahoo!검색에는 100억 종(≠ 100억 건)의 검색이 있다고 한다.
내가 사용하는 시스템을 보니 정말 너무 많아...
검색 분석의 왕도와 동일본 대지진 분석 때의 반성
분석의 왕도는 다음과 같은 두 가지가 있다.
- 검색량 순위
- 검색 수의 추이 파형
평균 주가의 도표에서 추이파형을 자주 볼 수 있는데'구마모토지진+●'을 검색한 사람들의 추이파형의 최고치는 전국과 구마모토현에서 1개월 정도 차이가 난다고 한다.그것만으로도 뉴스의 구마모토 지진과 재해자의 구마모토 지진의 무게 차이는 볼 수 있는 부분 아닌가.
사실 지궁 선생은 동일본 대지진 때도 검색 키워드를 분석하여 보고서를 정리한 적이 있지만, 예전의 방법에 따르면 검색량이 많은 것은 비교적 쉽게 찾을 수 있다과도파형 중 긴 꼬리(파형이 점차 줄어 가로로 긴 꼬리길처럼) 부분을 분석할 수 없는 데 대해 반성했다고 한다.
(구체적으로 동일본대지진 때 관동지역에는 귀가가 어려운 사람들이 많았지만'●연착'이라는 단어를 검색하기 위해 검색순위에는 각 연선의 명칭에 따라 흩어져 있었다.)
구마모토 지진 공기 모니터 분석
그래서 구마모토 지진에서 지궁 씨는 최근에 유행하는 공동 네트워크로 분석했습니다...그 결과 대피소 등 대피 관련 정보와 영어 피해자 정보 수요가 감지됐다.
-共起ネットワークとは
特徴語同士の共起関係をネットワーク図(クラスタ化)にするもの。
隠れていた需要をまとめ上げることで、隠れたニーズを掘り起こしやすい。
공동 네트워크의 제작 방법
KH Coder 를 사용하면 쉽게 만들 수 있습니다.
뒷면에서는 R로 움직인다고 하는데, R로 같은 것을 만드는 것이 생각보다 어렵다고 한다(한 K대 수업에서 알려주면 생각보다 어려울 것 같다). 초보자는 개미를 잘 활용하자.
집단화의 요점은 다음과 같은 두 가지가 있다.
1. 욕심을 부리지 말고 데이터를 깨끗이 정리한다.
2. 해설을 해주지 않으면 처음 보고 오해하는 사람이 있기 때문에 펼칠 때 해설을 꼭 넣어야 한다
→여기도 요지와 같을 수 있다.정보의 취사 선택과 정보성은 매우 중요하다.
이에 따라 초보자도 쉽게 사용할 수 있는 형태소 분석 사례를 소개했다.
초반 문외한이 말했듯이 다양한 관광활동에 힘쓰고 있지만 처음이라 부드러운 텍스트 발굴적인 이야기를 들려줬다.
질의응답
Q: 긴 꼬리를 없애기 위해 단어를 주울 때 왜 공통 네트워크를 구축하는가.
A:단순히 꼬리를 분석할 여력이 없기 때문이에요.시간 순서의 추이를 중심으로 하다.자연 언어 처리에 관해서 나는 앞으로 더욱 노력할 것이라고 생각한다.
Q:KHcoder를 사용하지 않아도 yahoo라고 할 수 있죠.를 참고하십시오.
A:빨아들이고 싶을 때 KHcoder가 더 빠르기 때문에 물건에 따라 구분해서 사용합니다.
Q: 텍스트 해석에서 언어 사이의 거리는 무의미하지 않습니까?(형태소를 해석할 때 앞뒤 5개까지 자주 하는데...)
A:검색 키워드 분석에서 거리를 잘 두지 않기 때문에 중요시하지 않습니다.← 이렇게 말하면 확실히 의문의 대답이다.
Reference
이 문제에 관하여(161222_data_visualization_meetup_2016 보고서 ▶), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/aki_M/items/30bbda8e5a9b4dcd5734텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)