【비망록】Chrome 확장 기능 「Scraper」이용한 스크레이핑(페이지내의 특정의 정보를 일괄로 취득 및 망설인 포인트 정리)
7610 단어 스크래핑 도구HTML요소 획득스크래핑크롬 확장 프로그램
Chrome의 확장 도구 'Scraper'를 이용하여 스크래핑(scraping)하여 취득하는 방법의 망비록.
Scraper를 Chrome 확장 프로그램에 추가
Chrome 웹 스토어에서 확장 프로그램 추가 버튼을 클릭하여 확장 프로그램에 추가합니다.
Scraper(Chrome 웹 스토어)
htps // ch 로메. 오, ぇ. 이 m / ぇ bs 잡아 / / 싶은 l / sc 등 ぺr / m 비 g 바 pn jc 가후 hmbkd hl = 그럼
취득 예 : 「트부야키 데스크」 도입 사례의 개별 사례 정보를 취득하고 싶을 때
도입 사례의 기업명, 설명문(description), 페이지 링크처를
일괄 취득해 일람표로 하는 경우의 참고 페이지 및 참고 화면을 아래에 기재.
■「트부야키 데스크」도입 사례
htps : // tw에서 sk. 코 m/에아 mpぇ/
■ 취득하고 싶은 부분의 코드 샘플
<!-- ※起点とするdiv要素 -->
<div class="archive-list">
<!-- ※起点とするdiv要素の子要素 -->
<div class="post-box">
<!-- ※起点とするdiv要素の1番目の孫要素 -->
<div class="thumb"> <img width="110" height="110" src="/wp-content/uploads/2020/04/14_marui_anime_emblem.jpg" class="attachment-post-thumbnail size-post-thumbnail wp-post-image" alt="" /> </div>
<!-- ※起点とするdiv要素の2番目の孫要素 -->
<div class="box-in">
<!-- ※取得したい企業様名 -->
<div class="post-tit">株式会社 丸井グループ 様 </div>
<!-- ※取得したい説明文(description) -->
<p class="lead">株式会社 丸井グループ様のつぶやきデスク導入事例です。キーワードを登録し、イベント来場者の動きをツイートで確認。イベント開始前の反応から、来場者の人数や属性を予測することも。</p>
<!-- ※取得したいリンク先を持つaタグ -->
<a href="/example/marui/" class="more-link"> More</a> </div>
</div>
<!--//post-box-->
{ 中略 }
</div>
<!--//archive-list-->
<<참고> Chrome의 개발자 도구에서 볼 때 해당 부분의 코드
■ 「Scraper」로 도입 사례의 기업양명, 설명문(description), 페이지 링크처를 취득했을 때의 화면
취득하고 싶은 항목의 패스를 기재하고, 「Scrape」버튼을 클릭하면 정보 취득 가능.
※selector는 XPath를 이용
화면 내의 설정 내용
■Selector
XPath : //div[@class="archive-list"]/div/div[2]
■Columns
{XPath} : {Name}
div : 企業様名
p : 説明文
a/@href : URL
정보 취득 후, 「Copy to clipboard」를 클릭하면, 취득한 정보를 완전히 복사 가능.
Excel이나 스프레드시트 등에 붙여넣기도 가능했습니다.
쓰기 메모
스스로 쓸 때 쓰는 방법 메모
하고 싶은 일
설명
설명 예
기점까지의 경로의 기재를 생략 (기점이 되는 노드의 자손 모든 집합)
//
//article※article 요소를 기점으로 하고 싶은 경우
n번째 요소 지정
[n]
div[2]※ 두 번째 div 요소 지정
특정 클래스를 가진 요소 지정
[ @class ="{클래스 이름}"]
div[ @class ="archive-list"]※"archive-list"라는 클래스를 가진 div 요소를 지정
a 태그 클릭연결 URL 지정
a/@href
-
얻고 싶은 요소의 XPath를 잘 모를 때
Chrome 개발자 도구에서
도입 사례의 기업명, 설명문(description), 페이지 링크처를
일괄 취득해 일람표로 하는 경우의 참고 페이지 및 참고 화면을 아래에 기재.
■「트부야키 데스크」도입 사례
htps : // tw에서 sk. 코 m/에아 mpぇ/
■ 취득하고 싶은 부분의 코드 샘플
<!-- ※起点とするdiv要素 -->
<div class="archive-list">
<!-- ※起点とするdiv要素の子要素 -->
<div class="post-box">
<!-- ※起点とするdiv要素の1番目の孫要素 -->
<div class="thumb"> <img width="110" height="110" src="/wp-content/uploads/2020/04/14_marui_anime_emblem.jpg" class="attachment-post-thumbnail size-post-thumbnail wp-post-image" alt="" /> </div>
<!-- ※起点とするdiv要素の2番目の孫要素 -->
<div class="box-in">
<!-- ※取得したい企業様名 -->
<div class="post-tit">株式会社 丸井グループ 様 </div>
<!-- ※取得したい説明文(description) -->
<p class="lead">株式会社 丸井グループ様のつぶやきデスク導入事例です。キーワードを登録し、イベント来場者の動きをツイートで確認。イベント開始前の反応から、来場者の人数や属性を予測することも。</p>
<!-- ※取得したいリンク先を持つaタグ -->
<a href="/example/marui/" class="more-link"> More</a> </div>
</div>
<!--//post-box-->
{ 中略 }
</div>
<!--//archive-list-->
<<참고> Chrome의 개발자 도구에서 볼 때 해당 부분의 코드
■ 「Scraper」로 도입 사례의 기업양명, 설명문(description), 페이지 링크처를 취득했을 때의 화면
취득하고 싶은 항목의 패스를 기재하고, 「Scrape」버튼을 클릭하면 정보 취득 가능.
※selector는 XPath를 이용
화면 내의 설정 내용
■Selector
XPath : //div[@class="archive-list"]/div/div[2]
■Columns
{XPath} : {Name}
div : 企業様名
p : 説明文
a/@href : URL
정보 취득 후, 「Copy to clipboard」를 클릭하면, 취득한 정보를 완전히 복사 가능.
Excel이나 스프레드시트 등에 붙여넣기도 가능했습니다.
쓰기 메모
스스로 쓸 때 쓰는 방법 메모
하고 싶은 일
설명
설명 예
기점까지의 경로의 기재를 생략 (기점이 되는 노드의 자손 모든 집합)
//
//article※article 요소를 기점으로 하고 싶은 경우
n번째 요소 지정
[n]
div[2]※ 두 번째 div 요소 지정
특정 클래스를 가진 요소 지정
[ @class ="{클래스 이름}"]
div[ @class ="archive-list"]※"archive-list"라는 클래스를 가진 div 요소를 지정
a 태그 클릭연결 URL 지정
a/@href
-
얻고 싶은 요소의 XPath를 잘 모를 때
Chrome 개발자 도구에서
例:企業様名の要素をChromeのディベロッパーツールで取得した場合
「Copy XPath」 で取得:
//*[@id="contents"]/div[1]/div/div/div[1]/div[2]/div
「Copy full XPath」 で取得:
/html/body/div[1]/main/article/div[1]/div/div/div[1]/div[2]/div
독특한 곳까지 거슬러 올라가므로 패스가 길어지는 것이 난점(´・ω・`)
설정 시 주의점
첫회 이용시, 자신이 설정으로 이끼 한 포인트.
1. 패스의 끝에 슬래시 "/"는 붙지 않는다.
Selector에 XPath를 지정했을 때, 마지막 요소의 뒤에 슬래시 "/"를 붙이면 에러 화면이 나옵니다.
OKだった時の記載例:
//div[@class="archive-list"]/div/div[2]
エラーが出た時の記載例(後ろにスラッシュ"/"が入っていた):
//div[@class="archive-list"]/div/div[2]/
Columns의 XPath에서도 비슷한 현상이 발생합니다.
한 곳에서도 마지막에 슬래시가 들어 있으면 에러 화면이 나옵니다.
패스를 코피페로 붙였을 때 등 생기기 쉬우므로 주의를.
2.Columns의 XPath에 기재하는 패스의 선두에 슬래시 "/"는 붙지 않는다.
Columns의 XPath를 기재할 때, 패스의 머리에 슬래시 "/"를 붙이면, 데이터가 취득되지 않고 해당란에는 아무것도 기재되지 않습니다. 에러 화면은 나오지 않습니다.
이것도, 패스를 코피페로 붙였을 때 등 생기기 쉬우므로 주의를.
OKだった時の記載例:
//div[@class="archive-list"]/div/div[2]
エラーが出た時の記載例(後ろにスラッシュ"/"が入っていた):
//div[@class="archive-list"]/div/div[2]/
Reference
이 문제에 관하여(【비망록】Chrome 확장 기능 「Scraper」이용한 스크레이핑(페이지내의 특정의 정보를 일괄로 취득 및 망설인 포인트 정리)), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/ka-ko/items/2ef0c6870bb8a174f35f텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)