딥 러닝 복장 분류기 소재 수집편 _2
【개요】
큰 목표로 여성 의류 분류기를 만듭니다. 이번에는 페이지의 모든 이미지를 얻는 방법에 대해 설명합니다.
전회의 딥 러닝을 실시하기 위한 소재를 모으기 위한 수법의 기사의 계속입니다.
전회 : 딥 러닝 복장 분류기 소재 모음편 _1
htps : // 이 m / d 등 fts / c74에 1 아 5058234 아 4에서 66d / 에이 t
【목표】
인터넷에서 딥 러닝에 사용할 이미지 얻기
【환경】
Windows10
google crome (브라우저)
python3.6
selenium (python 라이브러리)
Python + Selenium
저는 셀레늄을 실천하는데 있어서 이 기사에 몹시 빚을 졌습니다.
htps : // 코 m / 아즈 짱 1111 / ms / b161b998790b1db2 ~ f7
HTML 보기
웹 페이지에서 정보나 이미지를 가져오려면 해당 페이지의 html 구조를 확인합니다. 웹페이지에서 F12 키를 누르세요. 화면 오른쪽에 html을 확인할 수 있다고 생각합니다. 그것은이 기사 페이지의 HTML입니다. "개발자 모드"라고합니다.
샘플 URL: htps : // / m. 라쿠텐. 이. jp/바보/k837/
먼저 이 HTML의 이미지가 어디에 있는지 알아봅니다.
큰 후드의 이미지에서 오른쪽 클릭 → "검증"을 누릅니다.
그러면 개발자 모드의 화면에 변화가 있다고 생각합니다. 거기를 보면 아래와 같이 걸려 있습니다.
< 샘플 코드 def selenium_test():
site_a=<"URL">
savepath = <"이미지를 저장할 경로">
options = Options()
options.add_argument('--headless')
driver = webdriver.Chrome(options=options)
driver.get(site_a)
tg_img_items = driver.find_elements_by_tag_name('img')
cnt = 0
for elem_img_item in tg_img_items:
try:
cnt += 1
imglink = elem_img_item.get_attribute("src")
imgdata = req.urlopen(imglink).read()
img_save = os.path.join(savepath, str(cnt) + "test.jpg")
with open(img_save, 'wb') as f:
f.write(imgdata)
except:
pass
# 상대 사이트로의 부하 경감을 위한 쿨타임 설정
time.sleep(2)
if __name__ == "__main__":
selenium_test()
이상으로 페이지를 취득할 수 있는 화상은 대부분 취득할 수 있습니다.
다만, 이것이라면 불필요한 화상도 취득해 버리기 때문에, 궁리가 필요합니다.
다음은 HTML 태그를 잘 관찰하고 필요한 이미지만을 얻을 수 있는 기사를 씁니다.
끝에
딥 러닝의 소재 모음에 이런 고생하지 않아도, 데이터 세트가 벌써 있는 경우가 대부분이겠지요. .
마음이 가면 이 다음 기사는 씁니다. 데이터세트가 발견되면 쓰는 것은 나중에 한다.
무례합니다.
Reference
이 문제에 관하여(딥 러닝 복장 분류기 소재 수집편 _2), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/itoumasaru6/items/c28ca77c612064042bc6
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
인터넷에서 딥 러닝에 사용할 이미지 얻기
【환경】
Windows10
google crome (브라우저)
python3.6
selenium (python 라이브러리)
Python + Selenium
저는 셀레늄을 실천하는데 있어서 이 기사에 몹시 빚을 졌습니다.
htps : // 코 m / 아즈 짱 1111 / ms / b161b998790b1db2 ~ f7
HTML 보기
웹 페이지에서 정보나 이미지를 가져오려면 해당 페이지의 html 구조를 확인합니다. 웹페이지에서 F12 키를 누르세요. 화면 오른쪽에 html을 확인할 수 있다고 생각합니다. 그것은이 기사 페이지의 HTML입니다. "개발자 모드"라고합니다.
샘플 URL: htps : // / m. 라쿠텐. 이. jp/바보/k837/
먼저 이 HTML의 이미지가 어디에 있는지 알아봅니다.
큰 후드의 이미지에서 오른쪽 클릭 → "검증"을 누릅니다.
그러면 개발자 모드의 화면에 변화가 있다고 생각합니다. 거기를 보면 아래와 같이 걸려 있습니다.
< 샘플 코드 def selenium_test():
site_a=<"URL">
savepath = <"이미지를 저장할 경로">
options = Options()
options.add_argument('--headless')
driver = webdriver.Chrome(options=options)
driver.get(site_a)
tg_img_items = driver.find_elements_by_tag_name('img')
cnt = 0
for elem_img_item in tg_img_items:
try:
cnt += 1
imglink = elem_img_item.get_attribute("src")
imgdata = req.urlopen(imglink).read()
img_save = os.path.join(savepath, str(cnt) + "test.jpg")
with open(img_save, 'wb') as f:
f.write(imgdata)
except:
pass
# 상대 사이트로의 부하 경감을 위한 쿨타임 설정
time.sleep(2)
if __name__ == "__main__":
selenium_test()
이상으로 페이지를 취득할 수 있는 화상은 대부분 취득할 수 있습니다.
다만, 이것이라면 불필요한 화상도 취득해 버리기 때문에, 궁리가 필요합니다.
다음은 HTML 태그를 잘 관찰하고 필요한 이미지만을 얻을 수 있는 기사를 씁니다.
끝에
딥 러닝의 소재 모음에 이런 고생하지 않아도, 데이터 세트가 벌써 있는 경우가 대부분이겠지요. .
마음이 가면 이 다음 기사는 씁니다. 데이터세트가 발견되면 쓰는 것은 나중에 한다.
무례합니다.
Reference
이 문제에 관하여(딥 러닝 복장 분류기 소재 수집편 _2), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다
https://qiita.com/itoumasaru6/items/c28ca77c612064042bc6
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념
(Collection and Share based on the CC Protocol.)
저는 셀레늄을 실천하는데 있어서 이 기사에 몹시 빚을 졌습니다.
htps : // 코 m / 아즈 짱 1111 / ms / b161b998790b1db2 ~ f7
HTML 보기
웹 페이지에서 정보나 이미지를 가져오려면 해당 페이지의 html 구조를 확인합니다. 웹페이지에서 F12 키를 누르세요. 화면 오른쪽에 html을 확인할 수 있다고 생각합니다. 그것은이 기사 페이지의 HTML입니다. "개발자 모드"라고합니다.
샘플 URL: htps : // / m. 라쿠텐. 이. jp/바보/k837/
먼저 이 HTML의 이미지가 어디에 있는지 알아봅니다.
큰 후드의 이미지에서 오른쪽 클릭 → "검증"을 누릅니다.
그러면 개발자 모드의 화면에 변화가 있다고 생각합니다. 거기를 보면 아래와 같이 걸려 있습니다.
< 샘플 코드
def selenium_test(): site_a=<"URL"> savepath = <"이미지를 저장할 경로"> options = Options() options.add_argument('--headless') driver = webdriver.Chrome(options=options) driver.get(site_a) tg_img_items = driver.find_elements_by_tag_name('img') cnt = 0 for elem_img_item in tg_img_items: try: cnt += 1 imglink = elem_img_item.get_attribute("src") imgdata = req.urlopen(imglink).read() img_save = os.path.join(savepath, str(cnt) + "test.jpg") with open(img_save, 'wb') as f: f.write(imgdata) except: pass # 상대 사이트로의 부하 경감을 위한 쿨타임 설정 time.sleep(2) if __name__ == "__main__": selenium_test()이상으로 페이지를 취득할 수 있는 화상은 대부분 취득할 수 있습니다. 다만, 이것이라면 불필요한 화상도 취득해 버리기 때문에, 궁리가 필요합니다. 다음은 HTML 태그를 잘 관찰하고 필요한 이미지만을 얻을 수 있는 기사를 씁니다. 끝에 딥 러닝의 소재 모음에 이런 고생하지 않아도, 데이터 세트가 벌써 있는 경우가 대부분이겠지요. . 마음이 가면 이 다음 기사는 씁니다. 데이터세트가 발견되면 쓰는 것은 나중에 한다. 무례합니다.
Reference
이 문제에 관하여(딥 러닝 복장 분류기 소재 수집편 _2), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/itoumasaru6/items/c28ca77c612064042bc6텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)