추천! 관계 데이터베이스(RDB)의 오픈 데이터 리포지토리

의외로 적고, 찾기가 힘들어? RDB 오픈 데이터



데이터 분석의 학습이나 알고리즘의 검증을 할 때, 오픈 데이터를 잘 이용합니다.
예를 들어 데이터의 종류에 따라 다음과 같은 것을 들 수 있습니다.
테이블 데이터
- 홍채 데이터 세트
- 타이타닉 호의 생존자 데이터 세트

이미지 데이터
- CIFAR
- 코코

자연어
- Yelp 리뷰
- 푸른 하늘 문고 형태소 해석 데이터 집

폭넓게 비즈니스를 파악했을 때, 가장 메이저에 취급하는 것이 많은 것은 역시 테이블 형식의 데이터일 것입니다. 비교적 데이터가 정비되고 있는 큰 기업에서는 데이터베이스가 있어, 관계형 데이터베이스 형식의 데이터가 평상시 사용된다고 생각합니다. 그러나 나 자신은 처음에는 이러한 형식의 오픈 데이터를 찾는 데 어려움을 겪었습니다.
이 기사에서는 매우 편리한 관계형 데이터베이스 형식의 오픈 데이터 저장소RELATIONAL DATASET REPOSITORY를 소개합니다.
이 리포지토리를 통해 알았는데 데이터베이스 엔지니어에게는 상당히 유명한 데이터 세트도 거기에 커버되어 있습니다.

RELATIONAL DATASET REPOSITORY의 특징



관계형 데이터베이스의 샘플 데이터라면, Microsoft가 AdventureWorks 라는 소매계의 샘플 데이터베이스가 있어 고객 정보, 주문 이력, 주문 품목 등과 매우 현실적인 것으로, 데이터베이스 설계시의 모범으로 하는 목적으로도 공개 되는 것 같습니다.
하지만 이 데이터를 사용하려고 한다면 Microsoft 제품 SQL Server Management Studio을 사용하는 것이 일반적이고, 다른 데이터 세트가 되면 다른 설정이 필요하게 되어 매우 불편합니다.
동시에, 데이터 세트를 찾는 측에 있어서는, 데이터 세트의 검색이나 이용을 할 때에 조건이 통일되어 있지 않은 것이 대부분입니다.

이러한 불편을 해소해 준 것이 RELATIONAL DATASET REPOSITORY로 다음과 같은 특징이 있습니다.
  • 엔터프라이즈 데이터베이스와 마찬가지로 관계형 데이터베이스 (RDB) 형식입니다
  • 머신 러닝 예측 작업에 맞는 대상이 정의 할 수있는 데이터 세트입니다
  • 데이터 크기, 테이블 수, 데이터 관련 분야, 예측 작업 유형, 데이터 모델 등 풍부한 메타 정보를 사용하여 원하는 데이터 세트를 찾을 수 있습니다
  • 다른 출처가 작성한 데이터베이스의 데이터 세트를 MySQL Workbench에서 모두 조작 할 수 있습니다.



  • 사용법



    실제 사용법은 매우 간단하며,
    1. 검색 조건으로 데이터를 좁히기
    2. MySQL Workbench를 설치하고 사이트의 각 데이터 세트 세부 정보 페이지에 있는 지침에 따라 데이터베이스에 연결
    위의 2단계를 밟으면 MySQL workbench로 직접 데이터베이스를 두드릴 수 있고 CSV나 SQL덤프로 데이터 다운로드가 가능합니다.

    영어로 되어 있기 때문에, 일본에서는 별로 알려지지 않은 것 같습니다만, 꼭 추천하고 싶은 오픈 데이터 세트입니다. 여러분도 꼭 사용해 보시면 좋겠습니다.

    참고 정보


  • The CTU Prague Relational Learning Repository
  • 좋은 웹페이지 즐겨찾기