scrapy의settings.py에 쓰는 게 좋을 것 같아요.
1781 단어 settings.pyScrapyscrapingPython
우선, 스파이더의 원본 코드를 쓰기 전에 이것은 설정을 변경한 후에 비교적 좋은 비망록이다.
추기물
부호가 어지럽지 않도록 문자 코드를 수정하다
FEED_EXPORT_ENCODING = 'utf-8'
.덮어쓴 후 출력된 문자 코드를 지정하지 않으면 코드가 흐트러질 수 있습니다.
기존 설명의 주석 삭제
참고로 주석을 취소하려면 문장
command + K + U
을 선택하세요.command + K + C
페이지 다운로드 간격 설정삭제
DOWNLOAD_DELAY = 3
에 대한 주석대개 상당히 중요하다
다음 페이지를 다운로드하려면 3초를 기다려야 한다는 뜻이에요.
만약 이렇게 하지 않는다면 쓰레기 처리를 하고 싶은 사이트에 폐를 끼칠 것이다
robots.txt에 복종할지 여부를 결정하다
# Obey robots.txt rules
ROBOTSTXT_OBEY = True
이거 로봇이야.txt의 기술을 따르면.획득한 언어를 일본어로 변환
# Override the default request headers:
DEFAULT_REQUEST_HEADERS = {
# 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Language': 'ja',
}
언어에 관하여.처음에는
'Accept-Language': 'en'
로 설정되어 있었기 때문에 ja
로 변경되었다.이거 안 하면 얻는 요소가 영어야.
다운로드 페이지 캐시 설정 저장
HTTPCACHE_ENABLED = True
다운로드한 페이지를 캐시 데이터로 저장복제가 어렵기 때문에 여러 번의 오류를 해결하기 위해 코드를 다시 쓰는 경우도 있으므로 매번 다운로드 후 시간을 들여 처리하지 말아야 한다.
HTTPCACHE_DIR = 'httpcache'
캐시 디렉토리 이름 지정HTTPCACHE_EXPIRATION_SECS = 86400
캐시를 저장한 초86400초(=1일) 경과 후 현금 없이 재다운로드
페이지가 업데이트되면 덮어쓰는 값도 바뀌기 때문에 변경된 주파수에 따라 바꿉니다
User-Agent 변경 사항
USER_AGENT =
http 요청을 보낼 때 User-Agent 값 변경화면에는 일반 사용자로서 홈페이지를 열람할 때 보내는 요청이 붙어 있었다.
Scrapy의bot에서 요청을 보내면 User-Agent에 "scrapy~~"라는 값이 있을 것 같습니다.
웹 페이지에 따라 "이 요구는 인간이 아니라 커튼을 목적으로 복제된 사람이다. 방문 금지!"이렇게 만든 것도 있어요.
Reference
이 문제에 관하여(scrapy의settings.py에 쓰는 게 좋을 것 같아요.), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/takuma-esashika/items/6f5798c0a55a4b8f6137텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)