wikidata를 정보원으로 하여 SPARQL을 통해 회사명에서 자회사명 일람을 얻다

개요

  • 하고 싶은 일은 제목과 같다

  • wikidata에서는 글을 식별하기 위해'단어'가 아닌 Q와 P에서 시작하는 IDentity ID를 사용하기 때문에 고려해야 한다.
  • 위키백과에서'도요타 자동차'라는 문자열은 Label
  • 에 해당한다
  • 도요타 자동차entity IDQ53268
  • 기업명 표기도 흡수해야 한다
  • '도요타 자동차'라벨은 있지만'도요타'라벨은 없다
  • 단,'도요타'에 문의해도 자회사 일람표
  • 취득 희망
  • 예를 들어'도요타 자동차'에 대해 위키백과에 표시된 흔들림 정보alias,alos known as에도 다음과 같은'도요타'가 포함되어 있다.

  • 언어language에 대한 정보를 제대로 제공하지 않으면 결과가 잘 나타나지 않습니다.
  • 결과 및 쿼리 고려

  • 여기. 다음 쿼리는 누구나 브라우저를 통해 수행할 수 있습니다.
  • '도요타 자동차'를'도요타'로 바꿔도 결과를 얻을 수 있다
  • "Fujitsu"로 교체해도 원활하게 진행
  • SELECT  ?itemLabel ?subitem ?subitemLabel ?subitemAltLabel ?itemDescription WHERE {
      ?item wdt:P31 wd:Q4830453.
      ?item  skos:altLabel ?altabel .
      ?item rdfs:label  ?label .
      FILTER(?label = "トヨタ自動車"@ja || ?altabel = "トヨタ自動車"@ja )
      ?subitem wdt:P31 wd:Q4830453.
      ?subitem wdt:P749 ?item
      SERVICE wikibase:label { bd:serviceParam wikibase:language "ja,en". }
    }
    LIMIT 100
    

    디테일


    사전 지식


    위키데이터 주위와 관련된 기본 정보만

    wikidata 정보

  • 위키백과 등을 활용한 컨소시엄 프로젝트 중 하나
  • 지식 기반의 사전과 유사한 느낌
  • 이렇게 지식을 바탕으로 하는 것은 여러 곳에서 할 수 있지만 개방 지명도가 높다면 위키데이터가 가장 유망한 후보일 수 있다
  • 언어에 의존하지 않는 방법으로 위키백과 글을 만드는 프로젝트에서도 위키데이터를 사용합니다
  • SPARQL을 사용하여 wikidata 데이터 검색 가능
  • 업무에서 사용하는 RDB에 대한 SQL 조회보다 추상적인 QA 시스템 검색이 가능한가
  • 예를 들어 "가장 많은 배우가 연기하는 역할은?"같은 질문을 할 수 있습니다.
  • 이 대답, 드라큘라가 맞았나요?
  • 끝까지 위키데이터에 있는 데이터가 원본으로서의 잠정적 대답임을 주의해야 한다
  • SPARQL 정보

  • RDF 쿼리 언어 중 하나
  • 조회 언어이기 때문에 SQL처럼 특정한 데이터 집합에서 특정한 데이터를 검색하는 데 사용(집합)
  • 위에서 말한 바와 같이 추상적인 조회를 만들 수 있다
  • RDF에 대해 뒤에 서술하지만 RDF의 조회 언어이기 때문에 조회의 형식도 RDF의 성질에 따른다
  • Proog를 접한 사람이라면 비슷한 인상을 받을 수 있다
  • 파이썬 등에서 실행할 수 있는 라이브러리도 몇 개 있다
  • RDF 정보

  • 주어, 술어, 목적어의 형식으로 자원에 대한 정보를 나타내는 구조
  • W3C 표준화
  • 주제 밖의 말, RDF도 의미론을 부여받았어요. Proloog의 선언적 의미론과 가깝다고 느낀다
  • 원래는 의미 웹에 사용되는 표준이었지만 조종지식을 바탕으로 기본적인 구조로 많이 채택된 것 같다
  • WikidataQueryService(WQS) 정보

  • 브라우저에서wikidata까지의 SPARQL 조회를 누구나 쉽게 시도할 수 있다
  • 예제도 풍부하다

  • 고양이 일람표를 열거하다 또는
  • 그림, 그래프 등 UI도 있어 정말 대단해

  • 대통령 관계도 또는
  • 조회에 따라 타임아웃이 되기 쉬우므로 이 상황에서 리미트를 넣으면 결과를 얻을 수 있다(한정적일 수도 있지만) 한번 시도해 보세요.
    나는
  • 에서 들은 이 영상에서 들은
  • SPARQL의 조회가 URL에 포함되어 있기 때문에 직접 만든 조회는 URL을 통해 교환할 수 있어 편리하다
  • 시행 오류 기록


    나중에 쓰기

    고찰하다.


  • Python 코드에서 SPARQL을 호출하는 라이브러리 등 기업 이름을 검색 문자열에 자유 변수로 삽입하여 Pythhon 코드로 실행하면 더욱 유연합니다
  • 이 경우 엔노재도 같이 주는 게 좋다
  • 이번엔 자회사 추출을 위해 ddt: P749(상부 조직)라는 용어를 사용했지만 여기서는 다른 용어를 사용해 보고 반대의 OR를 취하는 것이 좋다.
  • 자본 합작 또는 이런 관계로 정의된 자회사도 있기 때문
  • 좋은 웹페이지 즐겨찾기