ABEJA Platform × icrawler로 기계 학습용 데이터 준비
6901 단어 ABEJAPlatform기계 학습
입문
본 보도는 다음과 같은 절차를 총결한 보도이다.
- 웹 폐쇄를 통해 수집된 데이터를 ABEJA 플랫폼에 저장
사전 준비
Jupyter Notebook 시작
ABEJA 플랫폼에서 작업 정의를 작성하고 노트북을 시작합니다.
icrawler 설치
Jupyter Notebook의 Terminal
pip install icrawler에 icrawler를 설치합니다.웹 폐쇄를 통해 수집된 데이터를 ABEJA 플랫폼에 저장
준비가 완료되면 노트북에서 다음 코드를 실행하십시오.
이 코드는 다음 두 가지 작업을 수행합니다.
from pathlib import Path
from icrawler.builtin import GoogleImageCrawler
from abeja.datalake import Client as DatalakeClient
from abeja.datalake.storage_type import StorageType
# set credential
organization_id = 'XXXXXXXXXXXXX'
credential = {
'user_id': 'user-XXXXXXXXXXXXX',
'personal_access_token': 'XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX'
}
datalake_client = DatalakeClient(organization_id=organization_id, credential=credential)
# define channel name and description
name = 'flower-data-crawling'
description = 'created by my crawler'
# create DataLake channel
channel = datalake_client.channels.create(name, description, StorageType.DATALAKE.value)
# download images
keyword_list = [u'マーガレット', u'タンポポ', u'バラ', u'ヒマワリ, 'u'チューリップ']
max_num = 100
filters = {'type': 'photo'}
image_root_dir = Path('image')
for keyword in keyword_list:
crawler = GoogleImageCrawler(storage={'root_dir': image_root_dir / keyword})
crawler.crawl(keyword=keyword, max_num=max_num, filters=filters)
# upload images
channel.upload_dir(image_root_dir)
몇 분 후 표시Crawling task done!, 데이터 수집 완료.데이터 호수로 이동한 후 방금 지정한 이름으로 통로를 만들었습니다.
채널의 내용을 확인하면 수집된 데이터가 저장됩니다!
총결산
이 글은 인터넷 복제를 통해 수집된 데이터를 ABEJA 플랫폼에 저장하는 절차를 정리했다.ABEJA Platform은 주석 기능이 있으므로 이 기능을 사용하여 저장된 데이터를 표시할 수 있습니다.자세한 내용은 공식 문서
참고 자료
웹 폐쇄 고리로 수집한 데이터를 사용하여 이런 기계 학습 모형을 만들 수 있습니다!
산타클로스와 산타클로스의 차이 Deep Learning
https://tech-blog.abeja.asia/entry/santa-recognition-from-scratch
ABEJA Platform은 시험용 기능도 제공합니다.마음에 드는 사람은 언제든지 문의하세요.또 포럼도 있으니 꼭 활용하세요.
ABEJA Platform에 대한 문의
https://abejainc.com/platform/ja/contact/
ABEJA Platform Forum
https://forums.abeja.io/
Reference
이 문제에 관하여(ABEJA Platform × icrawler로 기계 학습용 데이터 준비), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/yushin_n/items/afedf46e14fae984ce4c텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)