Crawling : Login이 필요한 페이지

4076 단어 pythonpython

Login에 필요한 정보 찾기

  • 로그인이 필요한 홈페이지에서 F12(개발자모드) ->Network(Tab)에서 좌측상단의 빨간 점과 Preserve log를 활성화합니다

  • 로그인 수행

  • 로그인이 진행되는 동안 log가 쌓입니다

  • 로그인인 하는 페이지가 post방식으로 동작.

  • 아이디와 비밀번호가 전달되는 변수 명이 각각 empid, emppw임을 확인할 수 있습니다.

  • 로그인 이후 가져오고 싶은 페이지에대한 정보

  • Crawling을 위해 접근할 페이지 URL 주소 확인

Python code


#세션만들기
session=requests.session()
#로그인 하는 페이지의 general-requestURL에서 url 가져옴
url="https://www~~~/mocs/check_main_new_rn.jsp"
      
#가져오고 싶은 데이터 (form data)
data={
    "return_url":"https://www~~~/mocs/main_renewt.jsp",
    "empid":"로그인가능한 ID",
    "emppw":"로그인 가능한 Password"
}
# 주소와 로그인 정보를 전달하여 요청
response=session.post(url, data=data)
#로그인 실행
response.raise_for_status()
      
#식단조회 페이지 접근
url="http://www~~~/mocs/mocs1/m_dietn.jsp"
response=session.get(url)
response.raise_for_status()

soup=BeautifulSoup(response.text,"html.parser")
#container > table > tbody > tr:nth-child(1) > td > div > div > fieldset > form > center > table.boardlist
#읽어올 정보가 담겨있는 Tag 검색
text=soup.select_one(".boardlist").get_text()

Crawling 성공한것을 확인할 수 있습니다.

좋은 웹페이지 즐겨찾기