Crawling : Login이 필요한 페이지
Login에 필요한 정보 찾기
- 로그인이 필요한 홈페이지에서
F12
(개발자모드) ->Network
(Tab)에서 좌측상단의 빨간 점과 Preserve log를 활성화합니다
F12
(개발자모드) ->Network
(Tab)에서 좌측상단의 빨간 점과 Preserve log를 활성화합니다-
로그인 수행
-
로그인이 진행되는 동안 log가 쌓입니다
-
로그인인 하는 페이지가 post방식으로 동작.
-
아이디와 비밀번호가 전달되는 변수 명이 각각 empid, emppw임을 확인할 수 있습니다.
-
로그인 이후 가져오고 싶은 페이지에대한 정보
-
Crawling을 위해 접근할 페이지 URL 주소 확인
Python code
#세션만들기
session=requests.session()
#로그인 하는 페이지의 general-requestURL에서 url 가져옴
url="https://www~~~/mocs/check_main_new_rn.jsp"
#가져오고 싶은 데이터 (form data)
data={
"return_url":"https://www~~~/mocs/main_renewt.jsp",
"empid":"로그인가능한 ID",
"emppw":"로그인 가능한 Password"
}
# 주소와 로그인 정보를 전달하여 요청
response=session.post(url, data=data)
#로그인 실행
response.raise_for_status()
#식단조회 페이지 접근
url="http://www~~~/mocs/mocs1/m_dietn.jsp"
response=session.get(url)
response.raise_for_status()
soup=BeautifulSoup(response.text,"html.parser")
#container > table > tbody > tr:nth-child(1) > td > div > div > fieldset > form > center > table.boardlist
#읽어올 정보가 담겨있는 Tag 검색
text=soup.select_one(".boardlist").get_text()
Crawling 성공한것을 확인할 수 있습니다.
Author And Source
이 문제에 관하여(Crawling : Login이 필요한 페이지), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://velog.io/@jyong0719/Crawling-Login이-필요한-페이지저자 귀속: 원작자 정보가 원작자 URL에 포함되어 있으며 저작권은 원작자 소유입니다.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)