python 데이터를 추출하여 excel에 저장
파충류 저장 excel
프로젝트 수요
회사의 파충류 프로젝트: 텍스트 분석, 주파수 통계의 수요를 충족시키기 위해 데이터를 추출한다.동료가 필요한 링크를 정리해서 excel에 저장하면 저는 직접 연결을 열고 사이트 데이터를 찾습니다.주파수 분석만 해야 하기 때문에 더 이상 발굴할 필요가 없고 서로 다른 사이트의 원본 코드 차이가 매우 크기 때문에 간단하게 전체 페이지를 얻고 soup을 사용한다.get_text () 방법으로 텍스트 정보를 추출합니다.전 과정을 자동화하여 운행하다.
필요한 개선 사항
서로 다른 사이트의 원본 코드 차이가 매우 크기 때문에 전체 페이지의 원본을 추출하고 저장하는 방법은 너무 많은 원본 코드를 포함하여 진일보한 텍스트 분석에 사용할 수 없다.다음 단계는 기계 학습 기술을 이용하여 웹 정보에 대해 텍스트 정보를 추출할 수 있다.코드는 다음과 같습니다.from bs4 import BeautifulSoup
from selenium import webdriver
import time
import re
from elasticsearch import Elasticsearch
from w3lib.html import remove_tags
import pandas as pd
from pandas import DataFrame
data_all=pd.read_excel("/result_retest.xlsx")
source_url=data_all['source_url']
text_data=data_all['text_data']
index=data_all['index']
print(u' ')
options = webdriver.firefox.options.Options()
driver = webdriver.Firefox(executable_path='/geckodriver-v0.21.0-win64/geckodriver',
firefox_options=options)
driver.set_page_load_timeout(10) #
for i in range(len(source_url)):
try:
if data_all['text_data'].isna()[i]:
url_i=source_url[i]
driver.get(url_i)
time.sleep(1)
soup = BeautifulSoup(driver.page_source, "lxml")
#data=" "
data=soup.get_text()
data=re.sub("\xa0",'',data)
data=re.sub("\t",'',data)
data=re.sub("
",'',data)
data=re.sub("\u3000",'',data)
data_all['text_data'][i]=data
data_result=DataFrame(data_all)
data_result.to_excel("result_retest.xlsx") # ,
print(i)
else:
continue
except:
continue
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
Python을 사용한 텍스트 발굴(WordCloud)
이 글은 의 최신 보도 200개의 제목을 웹 커튼(beautifulsoup)을 통해 얻어 텍스트 발굴을 진행한다.
Windows 10 Pro
Python 3.6.8 (anaconda)
wordcloud 1.5.0
b...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.
from bs4 import BeautifulSoup
from selenium import webdriver
import time
import re
from elasticsearch import Elasticsearch
from w3lib.html import remove_tags
import pandas as pd
from pandas import DataFrame
data_all=pd.read_excel("/result_retest.xlsx")
source_url=data_all['source_url']
text_data=data_all['text_data']
index=data_all['index']
print(u' ')
options = webdriver.firefox.options.Options()
driver = webdriver.Firefox(executable_path='/geckodriver-v0.21.0-win64/geckodriver',
firefox_options=options)
driver.set_page_load_timeout(10) #
for i in range(len(source_url)):
try:
if data_all['text_data'].isna()[i]:
url_i=source_url[i]
driver.get(url_i)
time.sleep(1)
soup = BeautifulSoup(driver.page_source, "lxml")
#data=" "
data=soup.get_text()
data=re.sub("\xa0",'',data)
data=re.sub("\t",'',data)
data=re.sub("
",'',data)
data=re.sub("\u3000",'',data)
data_all['text_data'][i]=data
data_result=DataFrame(data_all)
data_result.to_excel("result_retest.xlsx") # ,
print(i)
else:
continue
except:
continue
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
Python을 사용한 텍스트 발굴(WordCloud)이 글은 의 최신 보도 200개의 제목을 웹 커튼(beautifulsoup)을 통해 얻어 텍스트 발굴을 진행한다. Windows 10 Pro Python 3.6.8 (anaconda) wordcloud 1.5.0 b...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.