Data Analysis Process, 데이터 불러오기
💡Data Analysis Process
데이터 분석은 다음과 같은 절차를 따른다.
실제 데이터 사이언티드스들은 데이터 분석 단계 중 데이서 수집 및 가공(전처리)하는 과정에 80%이상이 비중을 둔다고 한다. 그만큼 중요하고 필수적인 과정이라는 뜻이다.
전체적인 과정을 머리속에 그려두고, 앞으로의 배움에 있어 어떤 과정을 진행하고 있는지 확인 할 필요가 있다.
자료출처 : 브런치
✍️ 데이터 불러오기
- Description을 통해 데이터셋에 대한 정보를 파악한다.
- 행과 열의 수
- 열에 헤더가 있는지 ('데이터 이름'이 있는지)
- 결측치가 있는지
- 원본 데이터 형태 확인 (기대하던 형태가 아닐 수 있다)
Python을 통해 불러오는 방법
import pandas as pd
# text, csv 파일을 불러오는 방법
df = pandas.read_csv('파일명.csv')
# excel 파일 불러오는 방법
df = pandas.read_excel('파일명.xlsx')
'''
✨기본적으로 csv파일은 comma로 데이터 값이 구분되기 때문에 구분자 설정이 필요없다.
하지만 comma가 아닌 다른것으로 구분자가 설정되어 있는 경우 데이터를 그냥 불러오면 오류가 생긴다.
이런 경우에는 sep='\t', sep='|' 와 같이 구분자롤 설정해야한다.
df = pandas.read_csv('파일명.csv', sep='\t')
'''
'''
✨불러오고자 하는 파일의 encoding이 python encoding과 맞지 않아도 오류가 발생한다.
이런 경우는 encoding='utf8' 혹은 encoding='cp949'를 설정해주면 된다.
'''
Author And Source
이 문제에 관하여(Data Analysis Process, 데이터 불러오기), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://velog.io/@73syjs/Data-Analysis-Process저자 귀속: 원작자 정보가 원작자 URL에 포함되어 있으며 저작권은 원작자 소유입니다.
우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)