PYTHON의 WEB 폐기가 시작이었다.

5078 단어

소개하다.
현재 세계에서 우리의 데이터 총량은 약 120만 TB이다.데이터는 소프트웨어 업계에서 가장 중요한 자산 중 하나인데 특히 상업 분야에서 결정, 마케팅 목적, 신제품을 더욱 잘 연구하는 데 도움을 줄 수 있기 때문이다.모든 소프트웨어 업계에서 사용자는 웹 페이지에서 정보를 추출하도록 요구받을 것이다.예를 들어 사용자는 소셜미디어 사이트(예를 들어 페이스북, 인스타그램, 유튜브)에서 탐정 살인사건 조사나 마케팅 목적에 대한 사용자의 데이터를 추출하기를 원한다.이 작업은 시간이 지날수록 파일이 HTML에서 JS로 바뀌기 때문에 이것은 기어오르기에 달려 있다. 기어오르기의 목적은 실행 메커니즘 검사에 독립된 안정성을 제공하는 것이다.또한 사용자가 API를 가져오지 않아 더욱 어려워졌습니다.
인터넷에서 정보를 쉽게 추출하여 메모리에 쉽게 저장함으로써 웹 폐기 과정은 더욱 쉬워졌다. 이 과정은 사용자로 하여금 인터넷의 모든 웹 페이지에서 데이터를 추출하기 쉽게 한다.
목적:
인터넷 사용 폐기의 원인 중 하나는 신제품을 개발하고 기술을 개발해 회사가 결정을 내리기 쉽도록 하기 위해서다.무엇보다 페이스북, 인스타그램, 유튜브, 트위터 등 소셜미디어 사이트에서 이용자 데이터를 수집하고, 고용주의 기록을 한 곳에 기록한 면접을 한 곳에서 볼 수 있도록 업무의 세부사항에 관심을 기울이는 데 쓰인다.
파이썬 언어는 사용하기 쉽고 라이브러리, 프로그래밍과 지역 사회 특성 때문에 추출 과정이 더욱 쉽다.
네트워크 폐기란 무엇입니까?
그것은 웹 페이지나 비구조화된 데이터에서 데이터를 검색하고 진일보한 처리를 통해 구조화된 데이터로 전환하는 과정으로 해석된다.데이터 폐기는 API, 온라인 도구, 자체 코드를 실행하여 수행할 수 있습니다.비록python의 도움으로 이 과정은 매우 어렵지만, 당신은 간소화된 방식으로 모든 사이트에서 데이터를 추출할 수 있습니다.
웹 페이지에서 데이터를 추출하려면

1. 사용자가 데이터를 추출할 웹 사이트를 검색합니다.
데이터를 추출하기 전에 사용자는 어느 사이트에서 데이터를 추출하는지 확실히 알아야 한다.예를 들어 사용자는 유튜브 링크, 채널 URL에서 데이터를 추출하려고 한다.첫 번째는 사용자가 설치한 패키지가selenium, Beautiful Soup, Skasty, Pyglet 같은 패키지가 될 수 있도록 확보하는 것이다.하지만 미래의 조작을 위해 설치해야 한다.
윈도우즈-pip에 Pyglet 설치
Mac-pip3의 경우 Pyglet을 설치합니다.
Ubuntu--$sudo apt에 대한 업데이트가 제공됩니다.
$sudo apt에서 Pyglet을 설치합니다.

2. 페이지를 보려면 다음과 같이 하십시오.
현재 사용자의 목표는 웹 사이트에 도착했을 때 오른쪽 단추를 누르고 아래로 클릭하면 inspect 옵션을 찾을 수 있고, 클릭하면 HTML 표시로 작성하거나 인코딩된 유사한 웹 페이지를 찾을 수 있다는 것이다.사용자는 작업이나 프로젝트에 대해 추출할 데이터를 선택해야 합니다.가령div 라벨을 추출하고 싶다면.

3. 인코딩을 수행합니다.
사용자는 지금 그가 절대로 추출하고 싶은 내용을 위해 코드를 작성해야 한다.이제 1단계에서 설명한 패키지를 설치했습니다.다음은 다음과 같이 라이브러리를 가져옵니다.
Pyglet에서 Pyglet의 webdriver를 가져옵니다.네트워크 드라이버.chrome 가져오기 옵션 가져오기 시간
json 가져오기
옵션 = 옵션()
선택권.도움 이 없다
웹 드라이버 구성의 경우:
driver=webdriver.Chrome(옵션=옵션)
운전사.대기(5)
URL 코드:
baseURL=”
키워드="최고급"
운전사.가져오기 (f "{baseURL}/search?q={keyword}")
현재 터미널을 열고'python youtubescape.py'를 입력한 다음enter 키를 누르면 이 사이트를 직접 방문할 수 있습니다.
def getchannelUrl()
driver.get(f{baseURL}/search?q={keyword}")

time.sleep(3)

allChannelList = driver.find_elements_by_css_selector
links=“”
링크 반환
이름 = "main"인 경우
getChannelUrl()
현재, 작업은 웹 페이지를 열고 검사하는 것입니다. 2단계와 같이. 그러나 이번에는 HTML을 누르는 것이 아니라 CSS 경로를 누르고, 열면 링크가 있는 태그를 선택하고 복사합니다.복사한 후 다음 코드에 붙여넣습니다.
 allChannelList = driver.find_elements_by_css_rule_selector("#text.style-scope.ytd-channel-name a.yt-simple-endpoint.style-scope.yt-formatted string").
위의 URL은 셀의 단일 코드이기 때문에 같은 URL 코드를 두 번 필터하기 위해 lambda를 변수로 사용하는 map function () 이 필요합니다.
links=list(dict.fromkeys(map(lambda a:a.get_attribute(“href”),allChannelList)))
u name=;main;
allChannelUrls=getChannelUrl()
인쇄(모든 채널 URL)
터미널을 다시 열고'python youtubescrap.py'를 입력한 다음 출력을 받을 때까지 기다립니다.
한 번에 터미널에서 출력을 받습니다.다음 작업은 채널의 상세한 정보를 얻고 우리가 수집한 정보에서 url 채널로 돌아가는 것입니다.
def getChannelDetails(URL):
 details = [] 
 return details
이제 출력으로 받은 URL 목록을 전달하려면 매개변수로 인코딩해야 합니다.
def getChannelDetails(URL):
details = []
for url in urls:
URL 수에 따라 사용자가 함수 #을 수집해야 합니다.4. URL 추출: 축하드립니다. 지금까지 채널 이름, 링크, 설명이 포함된 사이트에서 URL을 추출하는 일만 하면 됩니다. 지금부터 살펴보겠습니다.나는 네가 이 과정을 좋아하길 바란다.그럼 시작합시다.
사용자는 현재 사이트에서 데이터나 상세한 정보를 추출해야 한다.예를 들어 유튜브는 채널 링크, 설명, 명칭 등 데이터를 수집하는 것을 좋아한다.
이 절차는 다음과 같은 방법으로 수행됩니다.
def getChannelDetails(URL):
세부내용 = []
url의 url에 대해:
운전사.가져오기 (f "{url}/about")
cname = 운전사.css 규칙 선택기("text.style scope.ytd channel name")로 요소를 찾습니다.텍스트
cDess = driver.find_elements_by_css_rule_selector("#subscriber-count.style-scope.ytd-c4 tapped-header-renderer")

clink = url

otherLinkObj =driver.find_elements_by_css_rule_selector("#links-holder.style-scope.ytd-c4-tabbed-header-renderer")
otherLinks = list(dict.fromkeys(map(lambda a: a.get_attribute("href"),otherLinkobj)))
우리가 "about"을 사용하는 이유는 이 채널의 상세한 정보를 이해하기 위해서입니다.
obj={
“cname”:cname
곱슬곱슬하다
“cdesc”:cDess
추가 링크:추가 링크
}
세부 사항.첨부(obj)
세부 정보로 돌아가기
uu 이름 ==';Primary':
allChannelUrls = getChannelUrl()

allChannelDetails = getChannelDeatils(allchannelUrls)
인쇄(json.dump(allChannelDetails, 들여쓰기=4)
이제 터미널을 다시 열고 이전의'python youtubescrap.py'와 같은 내용을 입력하면 사용자는 사이트에서 추출한 모든 데이터를 받을 수 있습니다.

좋은 웹페이지 즐겨찾기