python 파충류 병발 다중 스레드 웹 메일박스 얻기
# -*- coding: utf-8 -*-
import requests
import openpyxl
import re
from bs4 import BeautifulSoup
from multiprocessing.dummy import Pool as ThreadPool
wb = openpyxl.load_workbook('company_database.xlsx')
ws = wb.active
start = 10000
f = 'F'
urlstr = 'http://directory... url/'
query = '/q/'
def getEmail(url):
print('grab email....')
html = requests.get(url[0])
soup = BeautifulSoup(html.text,"lxml")
pudge = soup.find_all("p", text="Email")
if pudge:
email = re.findall(r"[a-z0-9\.\-+_]+@[a-z0-9\.\-+_]+\.[a-z]+",html.text,re.I)[0]
return email,url[1]
else:
return '',url[1]
def writeExcel(mailCount):
ws['L'+str(mailCount[1])].value = mailCount[0]
print('%d save ok: ' % mailCount[1]+mailCount[0])
def geturl(num):
print('Grabing url')
celstr = f + str(num)
compname = ws[celstr].value
url = urlstr + compname.replace(' ', '+') + query
return url,num
def main(start):
pool1 = ThreadPool(16)
urlCount = pool1.map(geturl, range(start,17722))
pool1.close()
pool1.join()
pool2 = ThreadPool(16)
mailCount = pool2.map(getEmail,urlCount)
pool2.close()
pool2.join()
pool3 = ThreadPool(16)
pool3.map(writeExcel,mailCount)
pool3.close()
pool3.join()
wb.save('company_database.xlsx')
print (' ok!')
if __name__ == '__main__':
main(start) ```
이 내용에 흥미가 있습니까?
현재 기사가 여러분의 문제를 해결하지 못하는 경우 AI 엔진은 머신러닝 분석(스마트 모델이 방금 만들어져 부정확한 경우가 있을 수 있음)을 통해 가장 유사한 기사를 추천합니다:
다양한 언어의 JSONJSON은 Javascript 표기법을 사용하여 데이터 구조를 레이아웃하는 데이터 형식입니다. 그러나 Javascript가 코드에서 이러한 구조를 나타낼 수 있는 유일한 언어는 아닙니다. 저는 일반적으로 '객체'{}...
텍스트를 자유롭게 공유하거나 복사할 수 있습니다.하지만 이 문서의 URL은 참조 URL로 남겨 두십시오.
CC BY-SA 2.5, CC BY-SA 3.0 및 CC BY-SA 4.0에 따라 라이센스가 부여됩니다.