XPath 기초편 (3) - XPath에 자주 사용하는 함수
1. contains() : 특정 문자열을 포함하는 요소를 지정한다
contains() 는 일반적으로, 속성치 또는 텍스트에 포함되는 캐릭터 라인을를 모호하게 검색하는데 사용됩니다.
예를 들어, 이 HTML로부터 class 속성에 Red가 붙는 것을 모두 취득하고 싶은 경우, 다음과 같이 써 주세요.
//span[contains(@class,“Red”)]
즉, 이 XPath 는 class 에 Red 를 포함한 span 요소를 취득하는 것을 의미합니다.
contains(text(),"XXX") : 텍스트에 특정 문자열이 포함된 요소를 지정합니다.
예를 들어, 이 HTML로부터 「Rowling」라고 하는 문자를 포함하고 있는 요소를 지정하고 싶은 경우는, 다음과 같이 써 주세요.
//span[contains(text(),"Rowling")]
팁!
페이지 이송 버튼을 지정하는 경우는 자주 'contains(text(),"다음")' 을 사용합니다.
페이지 이송 버튼을 지정하는 XPath를 작성하는 방법은 여기 ➡ 페이지 이송 버튼을 지정하는 XPath를 작성하는 방법
2. position() : 특정 위치의 요소 지정
이전 기사에서는 에서 숫자를 둘러싸면 순서 요소를 얻을 수 있음을 소개했습니다. position에서 N번째 요소를 지정할 수도 있습니다.
- position()=
예를 들어 위의 HTML에서 '상품 3'은 네 번째 th 요소이므로 다음과 같이 작성합니다.
//tbody/th[4]
position()= 을 사용하면 다음과 같이 씁니다.
//tbody/th[position()=4]
'광고' 이외의 요소를 검색하는 경우 '광고'는 첫 번째 요소이므로 다음과 같이 작성합니다.
//tbody/th[position()>1]
3. and/not/or: 여러 조건을 포함하는 요소 지정
여러 조건이 동시에 포함된 요소를 지정하려면 and/not/or 함수를 사용합니다.
and - 여러 조건과 일치하는 요소 지정
이 HTML에서 'S_20'과 'pdf'를 포함하는 href를 얻으려면 다음과 같이 작성하십시오.
//a[contains(@href,“S_20”) and contains(@href,“pdf”)]
not - 특정 조건을 포함하지 않는 요소 지정
이 HTML에서 htps : // / lp 선 r. 오, 그리고 r. jp / hc / 자 / x 파 th / S_10. HTML 이외의 [@href]을 얻으려면 다음과 같이 작성하십시오.
//a[not(contains(@href, "S_10"))]
or - 조건 중 하나와 일치하는 요소 지정
이 HTML에서 M 또는 L을 포함하는 href를 얻으려면 다음과 같이 작성하십시오.
//a[contains(@href,”M_”) or contains(@href,”L_”)]
또, M 또는 L 이외의 href를 취득하고 싶은 경우는, not와 or를 조합하면(자), 다음과 같이 씁니다.
//a[not(contains(@href,”M_”) or contains(@href,”L_”))]
이상은 XPath에 자주 사용되는 함수입니다. XPath의 구문과 함수를 더 잘 이해하려면 이 기사을 참조하십시오.
원래 문서: htps : // / lp 선 r. 오, 그리고 r. jp/hc/쟈/아리치ぇs/360012713639
Reference
이 문제에 관하여(XPath 기초편 (3) - XPath에 자주 사용하는 함수), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://qiita.com/Octoparse_Japan/items/400030227aaa0a5ebac2텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)