딥 러닝 복장 분류기 소재 수집편 _2

【개요】



큰 목표로 여성 의류 분류기를 만듭니다. 이번에는 페이지의 모든 이미지를 얻는 방법에 대해 설명합니다.
전회의 딥 러닝을 실시하기 위한 소재를 모으기 위한 수법의 기사의 계속입니다.

전회 : 딥 러닝 복장 분류기 소재 모음편 _1
htps : // 이 m / d 등 fts / c74에 1 아 5058234 아 4에서 66d / 에이 t

【목표】



인터넷에서 딥 러닝에 사용할 이미지 얻기

【환경】



Windows10
google crome (브라우저)
python3.6
selenium (python 라이브러리)

Python + Selenium



저는 셀레늄을 실천하는데 있어서 이 기사에 몹시 빚을 졌습니다.
htps : // 코 m / 아즈 짱 1111 / ms / b161b998790b1db2 ~ f7

HTML 보기



웹 페이지에서 정보나 이미지를 가져오려면 해당 페이지의 html 구조를 확인합니다. 웹페이지에서 F12 키를 누르세요. 화면 오른쪽에 html을 확인할 수 있다고 생각합니다. 그것은이 기사 페이지의 HTML입니다. "개발자 모드"라고합니다.

샘플 URL: htps : // / m. 라쿠텐. 이. jp/바보/k837/



먼저 이 HTML의 이미지가 어디에 있는지 알아봅니다.
큰 후드의 이미지에서 오른쪽 클릭 → "검증"을 누릅니다.
그러면 개발자 모드의 화면에 변화가 있다고 생각합니다. 거기를 보면 아래와 같이 걸려 있습니다.
< 샘플 코드
def selenium_test():
    site_a=<"URL">
    savepath = <"이미지를 저장할 경로">

    options = Options()
    options.add_argument('--headless')
    driver = webdriver.Chrome(options=options)
    driver.get(site_a)
    tg_img_items = driver.find_elements_by_tag_name('img')

    cnt = 0
    for elem_img_item in tg_img_items:
        try:
            cnt += 1
            imglink = elem_img_item.get_attribute("src")
            imgdata = req.urlopen(imglink).read()
            img_save = os.path.join(savepath, str(cnt) + "test.jpg")

            with open(img_save, 'wb') as f:
                f.write(imgdata)

        except:
            pass

        # 상대 사이트로의 부하 경감을 위한 쿨타임 설정
        time.sleep(2)


if __name__ == "__main__":
    selenium_test()
이상으로 페이지를 취득할 수 있는 화상은 대부분 취득할 수 있습니다. 다만, 이것이라면 불필요한 화상도 취득해 버리기 때문에, 궁리가 필요합니다. 다음은 HTML 태그를 잘 관찰하고 필요한 이미지만을 얻을 수 있는 기사를 씁니다. 끝에 딥 러닝의 소재 모음에 이런 고생하지 않아도, 데이터 세트가 벌써 있는 경우가 대부분이겠지요. . 마음이 가면 이 다음 기사는 씁니다. 데이터세트가 발견되면 쓰는 것은 나중에 한다. 무례합니다.

좋은 웹페이지 즐겨찾기