ABEJA Platform × icrawler로 기계 학습용 데이터 준비

입문


본 보도는 다음과 같은 절차를 총결한 보도이다.
- 웹 폐쇄를 통해 수집된 데이터를 ABEJA 플랫폼에 저장

사전 준비


Jupyter Notebook 시작


ABEJA 플랫폼에서 작업 정의를 작성하고 노트북을 시작합니다.

icrawler 설치


Jupyter Notebook의 Terminalpip install icrawler에 icrawler를 설치합니다.

웹 폐쇄를 통해 수집된 데이터를 ABEJA 플랫폼에 저장


준비가 완료되면 노트북에서 다음 코드를 실행하십시오.
이 코드는 다음 두 가지 작업을 수행합니다.
  • 웹 모자를 통해 5가지 꽃(마가렛, 민들레, 장미, 해바라기, 튤립)의 이미지 데이터 수집
  • 수집된 데이터를 ABEJA Platform의 데이터 호수에 저장
  • 
    from pathlib import Path
    from icrawler.builtin import GoogleImageCrawler
    from abeja.datalake import Client as DatalakeClient
    from abeja.datalake.storage_type import StorageType
    
    # set credential
    organization_id = 'XXXXXXXXXXXXX'
    credential = {
        'user_id': 'user-XXXXXXXXXXXXX',
        'personal_access_token': 'XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX'
    }
    datalake_client = DatalakeClient(organization_id=organization_id, credential=credential)
    
    # define channel name and description
    name = 'flower-data-crawling'
    description = 'created by my crawler'
    
    # create DataLake channel
    channel = datalake_client.channels.create(name, description, StorageType.DATALAKE.value)
    
    # download images
    keyword_list = [u'マーガレット', u'タンポポ', u'バラ', u'ヒマワリ, 'u'チューリップ']
    max_num = 100
    filters = {'type': 'photo'}
    image_root_dir = Path('image')
    
    for keyword in keyword_list:
        crawler = GoogleImageCrawler(storage={'root_dir': image_root_dir / keyword})
        crawler.crawl(keyword=keyword, max_num=max_num, filters=filters)
        # upload images
        channel.upload_dir(image_root_dir)
    
    몇 분 후 표시Crawling task done!, 데이터 수집 완료.
    데이터 호수로 이동한 후 방금 지정한 이름으로 통로를 만들었습니다.

    채널의 내용을 확인하면 수집된 데이터가 저장됩니다!

    총결산


    이 글은 인터넷 복제를 통해 수집된 데이터를 ABEJA 플랫폼에 저장하는 절차를 정리했다.ABEJA Platform은 주석 기능이 있으므로 이 기능을 사용하여 저장된 데이터를 표시할 수 있습니다.자세한 내용은 공식 문서 을 참조하십시오.

    참고 자료


    웹 폐쇄 고리로 수집한 데이터를 사용하여 이런 기계 학습 모형을 만들 수 있습니다!
    산타클로스와 산타클로스의 차이 Deep Learning
    https://tech-blog.abeja.asia/entry/santa-recognition-from-scratch
    ABEJA Platform은 시험용 기능도 제공합니다.마음에 드는 사람은 언제든지 문의하세요.또 포럼도 있으니 꼭 활용하세요.
    ABEJA Platform에 대한 문의
    https://abejainc.com/platform/ja/contact/
    ABEJA Platform Forum
    https://forums.abeja.io/

    좋은 웹페이지 즐겨찾기