scrapy의settings.py에 쓰는 게 좋을 것 같아요.

scrapy로 커튼을 말아올릴 때 settings.py를 통해 다양한 설정을 바꿀 수 있습니다.
우선, 스파이더의 원본 코드를 쓰기 전에 이것은 설정을 변경한 후에 비교적 좋은 비망록이다.
추기물
부호가 어지럽지 않도록 문자 코드를 수정하다FEED_EXPORT_ENCODING = 'utf-8'.
덮어쓴 후 출력된 문자 코드를 지정하지 않으면 코드가 흐트러질 수 있습니다.
기존 설명의 주석 삭제
참고로 주석을 취소하려면 문장command + K + U을 선택하세요.command + K + C페이지 다운로드 간격 설정
삭제DOWNLOAD_DELAY = 3에 대한 주석
대개 상당히 중요하다
다음 페이지를 다운로드하려면 3초를 기다려야 한다는 뜻이에요.
만약 이렇게 하지 않는다면 쓰레기 처리를 하고 싶은 사이트에 폐를 끼칠 것이다
robots.txt에 복종할지 여부를 결정하다
# Obey robots.txt rules
ROBOTSTXT_OBEY = True
이거 로봇이야.txt의 기술을 따르면.
획득한 언어를 일본어로 변환
# Override the default request headers:
DEFAULT_REQUEST_HEADERS = {
#   'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
  'Accept-Language': 'ja',
}
언어에 관하여.
처음에는 'Accept-Language': 'en'로 설정되어 있었기 때문에 ja로 변경되었다.
이거 안 하면 얻는 요소가 영어야.
다운로드 페이지 캐시 설정 저장HTTPCACHE_ENABLED = True다운로드한 페이지를 캐시 데이터로 저장
복제가 어렵기 때문에 여러 번의 오류를 해결하기 위해 코드를 다시 쓰는 경우도 있으므로 매번 다운로드 후 시간을 들여 처리하지 말아야 한다.HTTPCACHE_DIR = 'httpcache'캐시 디렉토리 이름 지정HTTPCACHE_EXPIRATION_SECS = 86400캐시를 저장한 초
86400초(=1일) 경과 후 현금 없이 재다운로드
페이지가 업데이트되면 덮어쓰는 값도 바뀌기 때문에 변경된 주파수에 따라 바꿉니다
User-Agent 변경 사항USER_AGENT =http 요청을 보낼 때 User-Agent 값 변경
화면에는 일반 사용자로서 홈페이지를 열람할 때 보내는 요청이 붙어 있었다.
Scrapy의bot에서 요청을 보내면 User-Agent에 "scrapy~~"라는 값이 있을 것 같습니다.
웹 페이지에 따라 "이 요구는 인간이 아니라 커튼을 목적으로 복제된 사람이다. 방문 금지!"이렇게 만든 것도 있어요.

좋은 웹페이지 즐겨찾기