노코기리...CLI...보석...오 마이!
솔직히 웹 스크래핑은 어려운 부분이 아니었습니다. 올바른 CSS를 찾는 것도 아니고 데이터로 무엇을 할 것인지도 몰랐습니다. 내 데이터와 방법을 설정한 다음 코드를 너무 심하게 깨서 제출해야 하기 전에 다시 작동할 수 없었습니다. self.ouch
고통스러운 기억에 휩싸이기보다는 첫 번째 CLI 애플리케이션을 구축하는 데 사용한 몇 가지 항목에 대해 논의하고 싶습니다. Flatiron Schools는 Nokogiri에 제 코호트를 소개했습니다. 무슨 생각하는지 알아. 아니요, 맛있는 간식이 아닙니다. 이 단어는 실제로 hacksaw, handsaw, table saw에서와 같이 'saw'로 번역되지만 "I saw(과거 시제) dead people"이 아닙니다. 실제로 XML 및 HTML과 함께 작동하는 괜찮은 웹 스크레이퍼입니다. 설치 및 설정이 쉬웠습니다. 널리 사용되기 때문에 웹에 관련 문서가 많이 있습니다.
Setup: please start in your project
in terminal
`gem install nokogiri`
back in your editor
(in your GEMFILE)
`gem "nokogiri"`
(in your scraper file)
`require 'nokogiri'`
`require 'open-uri'`
def nameofyourgetpagemethod
Nokogiri::HTML(open(http://somepage.com))
end
내가 좋아하는 링크는 다음과 같습니다.
CLI를 구축하는 동안 사용하려는 "올바른"데이터를 얻지 못한다고 생각하여 사이트를 자주 전환했습니다. 다행스럽게도 Nokogiri는 내가 CSS를 올바르게 구문 분석할 수 있는 한 내가 던진 모든 사이트를 처리할 수 있었습니다. 평범한 일상적인 CSS 선택기 또는 테이블 선택기를 사용할 수 있었습니다. 내가 알아 냈을 때 약간의 플러그 앤 플레이가있었습니다. 'binding.pry'를 주셔서 감사합니다! 잊어버리고 대신 API에서 데이터를 가져오라고 말하고 싶습니까? 그러나 나는 이미 절반을 지나고 있었다.
내 가장 큰 도전이자 가장 상처를 준 것은 내 프로젝트를 보석으로 만드는 것이었습니다. 프로젝트가 예정된 날(연기) 시간이 조금 남아서 나는 내 작은 것을 Ruby Gem으로 바꾸는 추가 과제를 완료할 수 있는지 확인하기 위해 코드를 약간 리팩토링하기로 결정했습니다. 음..... 우리가 항상 일찍 커밋하고 자주 커밋하라는 말을 듣는 이유가 있습니다. 보석 챌린지를 완료하지 못했지만, 가만히 있으세요.....가 오고 있습니다. 지금은 자신의 데이터 요구 사항에 따라 사이트를 스크랩하는 것을 두려워하지 마십시오. 솔직히 그렇게 나쁘지 않습니다.
보석을 만드는 것도 나쁘지 않습니다
Reference
이 문제에 관하여(노코기리...CLI...보석...오 마이!), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://dev.to/sydeast/nokogiri-cli-gems-oh-my-12e6텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)