ABEJA Platform × icrawler로 기계 학습용 데이터 준비
6901 단어 ABEJAPlatform기계 학습
입문
본 보도는 다음과 같은 절차를 총결한 보도이다.
- 웹 폐쇄를 통해 수집된 데이터를 ABEJA 플랫폼에 저장
사전 준비
Jupyter Notebook 시작
ABEJA 플랫폼에서 작업 정의를 작성하고 노트북을 시작합니다.
icrawler 설치
Jupyter Notebook의 Terminal
pip install icrawler
에 icrawler를 설치합니다.웹 폐쇄를 통해 수집된 데이터를 ABEJA 플랫폼에 저장
준비가 완료되면 노트북에서 다음 코드를 실행하십시오.
이 코드는 다음 두 가지 작업을 수행합니다.
from pathlib import Path
from icrawler.builtin import GoogleImageCrawler
from abeja.datalake import Client as DatalakeClient
from abeja.datalake.storage_type import StorageType
# set credential
organization_id = 'XXXXXXXXXXXXX'
credential = {
'user_id': 'user-XXXXXXXXXXXXX',
'personal_access_token': 'XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX'
}
datalake_client = DatalakeClient(organization_id=organization_id, credential=credential)
# define channel name and description
name = 'flower-data-crawling'
description = 'created by my crawler'
# create DataLake channel
channel = datalake_client.channels.create(name, description, StorageType.DATALAKE.value)
# download images
keyword_list = [u'マーガレット', u'タンポポ', u'バラ', u'ヒマワリ, 'u'チューリップ']
max_num = 100
filters = {'type': 'photo'}
image_root_dir = Path('image')
for keyword in keyword_list:
crawler = GoogleImageCrawler(storage={'root_dir': image_root_dir / keyword})
crawler.crawl(keyword=keyword, max_num=max_num, filters=filters)
# upload images
channel.upload_dir(image_root_dir)
몇 분 후 표시Crawling task done!
, 데이터 수집 완료.데이터 호수로 이동한 후 방금 지정한 이름으로 통로를 만들었습니다.
채널의 내용을 확인하면 수집된 데이터가 저장됩니다!
총결산
이 글은 인터넷 복제를 통해 수집된 데이터를 ABEJA 플랫폼에 저장하는 절차를 정리했다.ABEJA Platform은 주석 기능이 있으므로 이 기능을 사용하여 저장된 데이터를 표시할 수 있습니다.자세한 내용은 공식 문서 을 참조하십시오.
참고 자료
웹 폐쇄 고리로 수집한 데이터를 사용하여 이런 기계 학습 모형을 만들 수 있습니다!
산타클로스와 산타클로스의 차이 Deep Learning
https://tech-blog.abeja.asia/entry/santa-recognition-from-scratch
ABEJA Platform은 시험용 기능도 제공합니다.마음에 드는 사람은 언제든지 문의하세요.또 포럼도 있으니 꼭 활용하세요.
ABEJA Platform에 대한 문의
https://abejainc.com/platform/ja/contact/
ABEJA Platform Forum
https://forums.abeja.io/
Reference
이 문제에 관하여(ABEJA Platform × icrawler로 기계 학습용 데이터 준비), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/yushin_n/items/afedf46e14fae984ce4c텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)