[파이썬보다 쉬워!]무코드 데이터 자동 추출 방법

(전재, 번역)
최근에 나는 사이트에서 간단한 데이터를 얻는 방법을 찾았다.인터넷상의 정보를 수동으로 수집하는 것은 오랜 시간이 걸리는 것으로 알려져 있다.보다 효율적인 정보 수집 방법을 찾기 위해 웹상의 정보 수집 도구를 자동으로 조사했다.그리고 옥토파스라는 압출 바늘귀 도구를 찾았다.
01.jpeg
Octoparse는 코드를 쓰지 않고 여러 사이트에서 정보(데이터)를 추출할 수 있는 웹 캡처 도구다.이것은 부호가 없는 정보 수집 도구로 누구나 쉽게 사용할 수 있다.프로그래밍 지식이 없어도 정보를 간단하게 수집할 수 있다.
더 편리한 서비스를 제공하기 위해 옥토파스는 아마존, 이비, 야후, 롯데 등 자주 사용하는 사이트 템플릿을 미리 준비했다.이 템플릿들을 검사하면 자신의 필요에 따라 직접 템플릿을 사용할 수 있습니다.그런 다음 소프트웨어에서 잘라내기 작업을 수행하여 추출된 데이터를 CSV, TXT, Excel, HTML 또는 데이터베이스에 저장합니다.
Octoparse는 어떻게 Square ping 작업을 만들고 실행한 다음 추출한 데이터를 Google 스프레드시트 문서에 저장합니까?다음은 옥토파스 자체부터 알아봅시다!

1. 옥토파스란 무엇인가?


"Octoparse는 인코딩하지 않고 인터넷상의 무한 정보에서 필요한 데이터(웹 복제)를 원하는 형식으로 자동으로 수집하는 웹 파행기입니다."-Octoparse 공식 웹 사이트
Octoparse는 인터넷에서 거의 모든 종류의 데이터를 추출할 수 있는 사이트 자유형이다.더욱 간단하게 데이터를 추출하기 위해 자동 검측, 작업 템플릿, 고급 모드 등 각종 기능을 갖추고 있다.
다음은 제가 이 세 가지 주요 기능을 간단하게 소개하는 것을 허락해 주십시오.
첫 번째는 자동 검출 기능: Octoparse를 통해 입력한 URL을 열고 자동 검출 알고리즘이 어떤 데이터를 원하는지 추측하고 판단하여 자동으로 데이터를 추출한다.
두 번째는 템플릿 준비입니다. Octoparse는 누구나 데이터를 간단하게 추출할 수 있도록 소프트웨어로 많은 템플릿을 준비했습니다.사용자는 이 템플릿을 사용하여 데이터를 직접 추출할 수 있습니다.
세 번째는 고급 모델이다. 이것은 유연하고 유력한 모델이다.이 모드를 잘 활용하려면 옥토파스의 사용법을 배워야 한다.고급 모드에 도달하면 거의 모든 공개된 사이트에서 모든 데이터를 추출할 수 있다.
Octoparse 왼쪽에는 사용자가 데이터 추출 프로세스를 쉽게 이해할 수 있도록 워크플로우가 설정되어 있습니다.이'작업 절차'에서 데이터 추출의 전문성을 볼 수 있다.추출한 데이터를 Excel 등의 형식으로 간단하게 내보낼 수도 있습니다.
뿐만 아니라 Octoparse는 클라우드 추출 기능을 제공합니다.스케줄을 설정하면 컴퓨터를 꺼내도 octoparse가 자동으로 데이터를 추출할 수 있습니다.또는 실시간으로 추출할 수도 있습니다.
또는 Octoparse는 웹 사이트의 검색을 피하기 위해 인간의 행동을 모의하고 있다.또는 IP 프록시 서버도 있으므로 IP 차단을 방지하기 위해 IP를 숨깁니다.
한마디로 옥토파스는 프로그래밍 지식이 없어도 간단하게 데이터를 뽑아내는 누구나 활용할 수 있는 보조 도구다.

2. 데이터 추출 작업 만들기


예를 들어 우리는 실시간이다
List_of_countries_and_dependencies_by_population에서 데이터를 압축하려면 어떻게 해야 합니까?
1) Octoparse 다운로드
먼저 Octoparse의 설치 방법을 확인하십시오.
그런 다음 데이터를 추출할 웹 사이트의 URl을 준비합니다.
위의 준비가 완료되면 Octoparse로 데이터를 추출해 보십시오.
다음은 Octoparse의 다운로드 단계를 확인합니다.
1. 다운로드한 설치 프로그램 파일의 압축 풀기
2.OctoparseSetup.msi 파일 실행하기
3. 설치 절차를 따르십시오.
4. Octoparse 계정으로 로그인합니다.계좌가 없으면 여기에 등록하세요.
Octoparse는 데이터 추출의 요구에 부합되며 몇 가지 계획이 있습니다.공짜 방안도 있다.개인으로서 데이터를 수집하는 경우 기본적으로 무료 계획에 만족하지만, 더 많은 옥토파스의 강력한 기능을 시도하고 싶다면 이 고급 계획을 추천한다.
2) 퀘스트 제작
데이터를 추출하는 방법에 관해서는 옥토파스 공식 홈페이지에 초보자 안내서와 동영상 강좌가 있으니 반드시 사용하시기 바랍니다.
Octoparse를 시작하고 로그인한 다음 URL을 입력하고 추출 시작 버튼을 클릭합니다.그런 다음 시스템은 자동 감지 기능을 사용하여 데이터를 자동으로 추출합니다.
예를 들어, 다음 URL에서 데이터를 추출합니다.
https://en.wikipedia.org/wiki/List_of_countries_and_dependencies_by_population
02.png
페이지를 읽은 후 데이터가 검출될 때까지 기다립니다.자동 검출이 완료되면 주황색의 [조작 초점]에 표시된 지시에 따라 데이터 추출의 각 단계를 확인합니다.마지막으로 데이터 필드의 이름을 바꾸고 필요하지 않은 데이터 필드를 삭제합니다.
03.png
작업 포커스 막대에서 워크플로우 작성 버튼을 클릭합니다.그런 다음 왼쪽 위에 있는 [저장] 버튼을 클릭합니다.그런 다음 대시보드 뷰에서 확인한 후 방금 작성한 작업이 다음 그림과 같이 표시됩니다.
04.1.png
그리고 작업의 이름을 바꿀 수도 있고 로컬이나 클라우드에서 실행할 수도 있습니다.데이터 추출 작업은 여기서 끝냅니다.
API를 통해 이 작업을 수행할 때 [기타] [실행 클라우드] 메뉴에서 [API]를 클릭합니다.
05.1.png
그런 다음 작업 ID의 다른 창을 표시합니다.나중에 사용할 테니 안전한 곳에 보관하는 것을 잊지 마세요.
06.png

3. Python을 눌러 실행


그런 다음 이전에 작성한 작업에서 추출한 데이터를 Octoparse API를 사용하여 Google 스프레드시트 문서에 저장하는 방법에 대해 자세히 설명합니다.
나는 여기서 파이톤 스크립트를 사용해서 이것을 실현하고 싶다.
import sys
import requests
import os
import gspread
import pandas as pd
def login(base_url, email, password):
"""login and get a access token
Arguments:
base_url {string} -- authrization base url(currently same with api)
email {[type]} -- your email
password {[type]} -- your password
Returns:
json -- token entity include expiration and refresh token info like:
{
"access_token": "ABCD1234", # Access permission
"token_type": "bearer", # Token type
"expires_in": 86399, # Access Token Expiration time (in seconds)
"refresh_token": "refresh_token" # To refresh Access Token
}
"""
content = 'username={0}&password={1}&grant_type=password'.format(email, password)
token_entity = requests.post(base_url + 'token', data=content).json() token_entity = requests.post(base_url + 'token', data=content).json()
if 'access_token' in token_entity:
return token_entityr
else:
os._exit(-2)
def get_data_by_offset(base_url, token, task_id, offset=0, size=10):
"""offset, size and task ID are all required in the request.
Offset should default to 0, and size∈[1,1000] for making the initial request.
The offset returned (could be any value greater than 0) should be used for making the next request.
Arguments:
base_url {string} -- base url of the api
token {string} -- token string from a valid token entity
task_id {string} -- task id of a task from our platform
Keyword Arguments:
offset {int} -- an offset from last data request, should remains 0 if is the first request (default: {0})
size {int} -- data row size for the request (default: {10})
Returns:
json -- task dataList and relevant information:
{
"data": {
"offset": 4,
"total": 100000,
"restTotal": 99996,
"dataList": [
{
"state": "Texas",
"city": "Plano"
},
{
"state": "Texas",
"city": "Houston"
},
...
]
},
"error": "success",
"error_Description": "Action Success"
}
"""
url = 'api/allData/getDataOfTaskByOffset?taskId=%s&offset=%s&size=%s' % (task_id, offset, size)
task_data_result = requests.get(base_url + url, headers={'Authorization': 'bearer ' + token}).json()
return task_data_result
def run_countries_task(base_url, token_entity):
"""Running the countries task
Arguments:
base_url {string} -- API base url
token_entity {json} -- token entity after logged in
"""
# retrieving an access token after the login
token = token_entity['access_token']
# your task id
task_id = "ded69c74-f6d5-b64e-4d2e-c8036a8ec3a8"
# running the task and retrieving data
data = get_data_by_offset(base_url, token, task_id, offset=0, size=1000)
# retrieving the extracted data in JSON format
json_extracted_data = data['data']['dataList']
# converting the JSON string to CSV
df = pd.DataFrame(json_extracted_data)
csv_extracted_data = df.to_csv(header=True).encode('utf-8')
# check how to get "credentials":
# https://gspread.readthedocs.io/en/latest/oauth2.html#for-bots-using-service-account
# credentials = ... your credentials
gc = gspread.service_account_from_dict(credentials)
# spreadsheet_id = ... -> your spreadsheet_id
# importing CSV data into your Google Sheet document identified
# by spreadsheet_id
gc.import_csv(spreadsheet_id, csv_extracted_data)
if __name__ == '__main__':
# the email you used to subscribe to Octoparse
email = "[email protected]"
# your password
password = "password"
octoparse_base_url = 'http://advancedapi.octoparse.com/'
token_entity = login(octoparse_base_url, email, password)
run_countries_task(octoparse_base_url, token_entity)
먼저 로그인합니다.그런 다음 Get Data By Offset API를 사용하여 작업을 시작합니다.그런 다음 JSON 형식으로 데이터를 추출합니다.마지막으로 이러한 데이터를 CSV 형식으로 변환하고 gspread 라이브러리를 사용하여 Google 스프레드시트 문서로 가져옵니다.
스크립트를 실행하면 선택한 Google 스프레드시트 문서에 저장된 Octoparse 작업에서 추출한 데이터를 다음과 같이 확인할 수 있습니다.
다 했어!API를 사용하여 데이터를 추출합니다.

4、끝


본고는 강력한 데이터 추출 도구인 Octoparse를 이용하여 데이터를 추출하는 방법을 소개한다.또한 이 작업을 Python 스크립트와 통합한 다음 프로그래밍 방법으로 추출한 데이터를 Google 스프레드시트 문서에 저장하는 방법도 설명했습니다.이런 기능이 있기 때문에 옥토파스는 거의 모든 사이트에서 데이터를 추출할 수 있다.
여기까지 읽어주셔서 감사합니다!이 기사를 참고할 수 있다면 정말 좋겠다.궁금한 점, 의견, 건의가 있으면 언제든지 연락 주세요.
컨설팅: https://helpcenter.octoparse.jp/hc/ja
관련 기사:
Python vs Octoparse!초보자를 위한 Yelp 롤업 방법은 무엇입니까?
[2021년] 8가지 무료 무코드 개발 도구 엄선
[작업 효율화] 영업 목록을 무료로 간단히 자동 작성하는 방법|지금 바로 사용할 수 있습니다!

좋은 웹페이지 즐겨찾기