selenium 트랙터 데이터 분석 직책의 모든 직위 정보 찾기
17367 단어 필기
1. 키워드가 데이터 분석가의 메인 페이지에 들어가기
from lxml import etree
from selenium.webdriver import Chromefrom selenium.webdriver.common.keys import Keys
import timeimport pandas as pd
#
web=Chrome()
web.get("https://www.lagou.com")
#
web.find_element_by_xpath('//[@id="cboxClose"]').click() #
time.sleep(3)
web.find_element_by_xpath('//*[@id="search_input"]').send_keys(' ', Keys.ENTER) #
time.sleep(2)
web.find_element_by_xpath('/html/body/div[8]/div/div[2]').click() #
time.sleep(2)
2, 선별 조건, 각 조건의 모든 페이지의 html 순환 획득
#
web.find_element_by_xpath('//*[@id="filterCollapse"]/li[4]/a[7]').click()
# , a
time.sleep(1)
web.find_element_by_xpath('//*[@id="filterCollapse"]/li[3]/a[9]').click()
# , a
time.sleep(2)
first_html = web.page_source
# n HTML
# html
html_list =[]
html_list.append(first_html)
for i in range(10):
# ,
web.find_element_by_xpath('//*[@id="s_position_list"]/div[2]/div/span[last()]').click()
time.sleep(2)
html_list.append(web.page_source)
print(' HTML !!')
3. html을 해석하고 필요한 정보를 데이터 프레임을 통해 csv 형식으로 저장
#
n = 1
for page in html_list:
print(' '+str(n)+' ..')
n+=1
html=etree.HTML(page)
li_list=html.xpath('//*[@id="s_position_list"]/ul/li')
# Li CSV for i in li_list: position_name=i.xpath('./@data-positionname')[0] company_name=i.xpath('./@data-company')[0] salary = i.xpath('./@data-salary')[0] company_scale=i.xpath('./div[1]/div[2]/div[2]/text()')[0].strip().split('/')[-1] company_type = i.xpath('./div[1]/div[2]/div[2]/text()')[0].strip().split('/')[0] company_finace = i.xpath('./div[1]/div[2]/div[2]/text()')[0].strip().split('/')[1] company_edu = i.xpath('./div[1]/div[1]/div[2]/div/text()')[-1].strip().split('/')[-1] work_year = i.xpath('./div[1]/div[1]/div[2]/div/text()')[-1].strip().split('/')[0] work_city = i.xpath('./div[1]/div[1]/div[1]/a/span/em/text()')[0].split('·')[0] city_detail = i.xpath('./div[1]/div[1]/div[1]/a/span/em/text()')[0].split('·')[-1] # dataframe csv data=[(position_name,salary,work_city,city_detail,work_year,company_name, company_edu,company_type,company_finace, company_scale)] lagou=pd.DataFrame(data) lagou.to_csv("lagou.csv", header=False, index=False, mode="a+")
파충류 과정에서 로그인한 페이지가 튀어나올 수 있습니다. 이것은 제가 27페이지를 한 번에 올라가야 하는 상황에서 한 번 만났을 뿐입니다. 다시 한 번 시도하면 OK입니다. 아니면 로그인한 후에 올라가는 것으로 바꿀 수도 있고 판단을 최적화할 수도 있습니다.순환으로 html을 얻으려면 수동으로 순환 횟수를 설정해야 하는 부분에 대해 판단을 추가할 수 있다. 만약에 다음 페이지의 단추를 찾지 못하면 순환에서 벗어나 수동 선별 조건에 대해 순환을 추가하여 모든 조건을 두루 돌아다닐 수 있다.
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
static 간단한 설명static 방법은 일반적으로 정적 방법이라고 부른다. 정적 방법은 어떠한 대상에 의존하지 않고 접근할 수 있기 때문에 정적 방법에 있어this는 없다. 왜냐하면 그 어떠한 대상에도 의존하지 않기 때문이다. 대상이 ...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.