python 데이터를 추출하여 excel에 저장

파충류 저장 excel


프로젝트 수요


회사의 파충류 프로젝트: 텍스트 분석, 주파수 통계의 수요를 충족시키기 위해 데이터를 추출한다.동료가 필요한 링크를 정리해서 excel에 저장하면 저는 직접 연결을 열고 사이트 데이터를 찾습니다.주파수 분석만 해야 하기 때문에 더 이상 발굴할 필요가 없고 서로 다른 사이트의 원본 코드 차이가 매우 크기 때문에 간단하게 전체 페이지를 얻고 soup을 사용한다.get_text () 방법으로 텍스트 정보를 추출합니다.전 과정을 자동화하여 운행하다.

필요한 개선 사항


서로 다른 사이트의 원본 코드 차이가 매우 크기 때문에 전체 페이지의 원본을 추출하고 저장하는 방법은 너무 많은 원본 코드를 포함하여 진일보한 텍스트 분석에 사용할 수 없다.다음 단계는 기계 학습 기술을 이용하여 웹 정보에 대해 텍스트 정보를 추출할 수 있다.코드는 다음과 같습니다.
from bs4 import BeautifulSoup
from selenium import webdriver
import time
import re
from elasticsearch import Elasticsearch
from w3lib.html import remove_tags
import pandas as pd
from pandas import DataFrame

data_all=pd.read_excel("/result_retest.xlsx")

source_url=data_all['source_url']
text_data=data_all['text_data']
index=data_all['index']

print(u' ')
options = webdriver.firefox.options.Options()
driver = webdriver.Firefox(executable_path='/geckodriver-v0.21.0-win64/geckodriver',
                           firefox_options=options)
driver.set_page_load_timeout(10)  # 

for i in range(len(source_url)):
    try:
        if data_all['text_data'].isna()[i]:
            url_i=source_url[i]
            driver.get(url_i)
            time.sleep(1)
            soup = BeautifulSoup(driver.page_source, "lxml")
            
            #data=" "
            data=soup.get_text()
            data=re.sub("\xa0",'',data)
            data=re.sub("\t",'',data)
            data=re.sub("
"
,'',data) data=re.sub("\u3000",'',data) data_all['text_data'][i]=data data_result=DataFrame(data_all) data_result.to_excel("result_retest.xlsx") # , print(i) else: continue except: continue

좋은 웹페이지 즐겨찾기