파이썬에서 Selenium을 사용한 스크래핑

소개



파이썬으로 스크래핑 할 때 Selenium에 대해 요약했습니다. 스크래핑은 꽤 재미 있습니다. 자신이 사용한 용도는 쇼핑 자동화, 데이터 수집 등 그 밖에도 폭넓은 용도가 있습니다.

환경



Windows10
파이썬
셀레늄
내가 사용하려는 전용 브라우저 드라이버 (예 : ChromeDriver)

Selenium 설치



아직 파이썬 환경을 구축하지 않은 사람은 여기을 클릭하십시오. Python에 대한 환경 구축 방법이 게재되어 있습니다. (Windows 버전)

Python 환경을 이미 구축한 사람은 Selenium을 설치하십시오.
pip install selenium

브라우저 드라이버 다운로드



사용하는 브라우저에 맞는 드라이버가 필요합니다. (예: ChromeDriver)

Python에서 Selenium을 사용하여 브라우저 열기



Selenium을 사용하여 브라우저를 엽니다.
from selenium import webdriver

driver = webdriver.Chrome() #()の中にdriver_pathを記述
driver.get(URL)
driver.close()
driver.quit()


먼저 첫 번째 행에서 브라우저를 엽니다.
두 번째 줄에서 열려는 URL을 지정합니다.
세 번째 줄은 페이지를 닫습니다.
네 번째 줄은 브라우저를 종료합니다.

driver_path는 같은 디렉토리 안에 드라이버가 있을 때는 기술하지 않아도 됩니다.

요소 얻기



다음으로, 페이지의 조작을 하기 위해서 필요한 요소의 취득입니다.
자신은 자주이 두 가지를 사용합니다.

idget_id = driver.find_element_by_id("idをこの中に記述")id는 확실히 취해 오므로 추천합니다.

xpathget_xpath = driver.find_element_by_xpath("xpathをこの中に記述")화면이 변경하거나 하면 잘 변경되므로 그때마다 xpath를 다시 작성하고 있습니다.

그리고 HTML에 없어서 가져올 수는 없지만 그 값을 원한다고 할 때 추천하는 것이 js에서 가져오는 것입니다.price = driver.execute_script("jsの処理を記述")상기와 같이 기술하는 것으로, 화면상에는 없지만 js측에서 처리하고 있는 값을 취득할 수 있습니다.

js에도 없을 때가 있기 때문에 그 때는 포기할 수밖에 없습니다.

버튼 클릭



폼의 버튼을 클릭하고 싶을 때 등은 click() 로 클릭할 수 있습니다.
driver.find_elemnt_by_id('idをこの中に記述').click()상기 처리에서 버튼의 요소를 클릭할 수 있다.

sleep 처리를 사용합시다.



글쎄요, 요소를 잡을 수 없어 오류가 발생할 수 있습니다. 그런 경우에는 sleep() 를 사용하여 화면이 표시될 때까지 기다리십시오.

결론



그 밖에도 많은 selenium은 사용법이 있습니다만, 이 기사에서는 여러분에게 어떤 일을 할 수 있는 것을 알게 하기 위해서 썼습니다. 더 자세히 알고 싶은 사람은 점점 다른 사람이 쓴 기사를 보고 지식을 늘려 주세요. 그리고 모든 것을 자동화합시다!

참고



htps : // 흔들림. 기주 b. 이오/세이니우 mpy 텟/인 s타치오. HTML
htps : // 이 m / 나데 친 / ms / 0 a 34 2182 132 c1 a 821b

좋은 웹페이지 즐겨찾기