간단 하고 유용 한 Python 데이터 분석 과 기계 학습 코드

왜 Python 을 선택 하여 데이터 분석 을 합 니까?
Python 은 동적 이 고 대상 을 대상 으로 하 는 스 크 립 트 언어 이자 간단 하고 알 기 쉬 운 프로 그래 밍 언어 입 니 다.Python 은 입문 이 간단 하고 코드 가 읽 을 수 있 으 며 좋 은 Python 코드 로 외국어 문장 을 읽 는 것 같 습 니 다.Python 의 이러한 특성 을'위조 코드'라 고 부 르 는데 이것 은 Python 의 문법 에 얽 매 이지 않 고 어떤 작업 을 수행 하 는 지 에 만 관심 을 가 질 수 있 습 니 다.
또한 Python 은 데이터 분석 및 기타 분야 에 사용 할 수 있 는 우수한 라 이브 러 리 를 많이 가지 고 있 습 니 다.무엇 보다 파 이 썬 은 가장 인기 있 는 오픈 소스 빅 데이터 플랫폼 인 Hadoop 과 호환성 이 좋다.따라서 파 이 썬 을 배 우 는 것 은 빅 데이터 분석 직무 발전 에 뜻 을 둔 데이터 분석가 에 게 학습 비용 을 매우 절약 하 는 일이 다.
Python 의 많은 장점 으로 인해 가장 인기 있 는 프로 그래 밍 언어 중 하나 가 되 었 고 국내외 많은 회사 들 도 Python,예 를 들 어 유 튜브,구 글,아 리 클 라 우 드 등 을 사용 하고 있다.
간단 하고 유용 한 Python 데이터 분석 과 기계 학습 코드
이번 달 python 데이터 분석 과 기계 학습 을 통 해 경험 을 정리 하 는 동시에 큰 남자 들 의 우수한 블 로 그 를 얻 었 습 니 다.관심 이 있 는 사람 은 제 즐겨 찾기 폴 더 를 볼 수 있 습 니 다.쓸데없는 말 을 하지 않 고 바로 본론 으로 들 어 갈 수 있 습 니 다.
데이터 분석 은 크게 데이터 처리,모델 구축,모델 테스트 등 세 부분 으로 나 뉘 는데 이 글 은 주로 데 이 터 를 처리 하 는 것 을 설명 한다.
데 이 터 를 분석 하기 위해 서 는 먼저 python 을 배 우 는 판다 라 이브 러 리 pandas 를 알 아야 합 니 다.다음은 기본 적 이 고 간단 한 조작 방법 입 니 다.python 호출 방법 은 다음 과 같 습 니 다.

import pandas as pd
python 은 pandas 를 통 해 csv 파일 을 읽 는 방법

df= pd.read_csv("xxx.csv")
#         
print(df.head())
#  csv    
print(df)
csv 의 한 열 데 이 터 를 보 는 방법

pandas.read_csv(‘file_name.csv', usecols = [0,1,2,3]) 
#    
df["     "]
pandas csv 데이터 의 일부 열 을 삭제 하 는 방법

droplabels= ['x_cat4','x_cat5','x_cat8','x_cat9']
data=df.drop(droplabels,axis=1)
pandas NAN 데이터 세척 방법

#      nan        ,           Series
df.dropna()
'''
dropna(axis=0,how='any',thresh=None),how       any  all.all        NA      ( )。thresh     ,eg:thresh=3,           NA       。
'''
data.fillna(0)                      # nan   0
print(data.fillna(data.mean()))     ###               
print(data.fillna(data.median()))    ###                
print(data.fillna(method='bfill'))   ###      (back)        
print(data.fillna(method='pad'))     ###              
#    :https://blog.csdn.net/qq_21840201/article/details/81008566
pandas csv 파일 데이터 변경 방법

#           
df = df[df['   ']!='None']
df['   '] = df['   '].astype(np.float64)
df = pd.DataFrame(a, dtype='float') #      
#    :http://www.45fan.com/article.php?aid=19070771581800099094144284
#            ,    
for i in df.index:
    df["id1"][i]=1
pandas 의 iloc 사용 방법 과 역할

X = df.iloc[:, data.columns != 'label']  #       label    

df.iloc[:3, :2]           #  .iloc ,      .iloc  3  2 
어떤 열 원소 의 수량 을 계산 하 는 방법

sum= len(data[data.label == 'BENIGN']) #  BENIGN   
len(df)       
pandas 파일 저장 방법

#df       ,xxx.csv      
df.to_csv('xxx.csv', index=False, sep=',')
이상 은 pandas 가 데 이 터 를 처리 하 는 간단 한 기능 입 니 다.그 중에서 참고 학습 블 로 그 를 포함 하고 관심 이 있 는 학생 들 은 공 부 를 볼 수 있 습 니 다.이러한 기초 지식 이 있어 야만 우 리 는 데이터 세트 를 처리 할 수 있다.다음은 어떻게 사용 하 는 문제 이다.다음은 간단 한 방법 을 설명 한다.
1.먼저 데 이 터 를 관찰 하고 코드 를 통 해 각 열의 데이터 유형 을 검사 한 다음 에 NAN 값 이 존재 하 는 지 확인 하고 이 열 을 삭제 할 수 있 으 며 상황 에 따라 수치 변동 을 할 수 있다.
2.데이터 집중 에 일부 열 속성 이 time 속성 으로 존재 할 수 있 습 니 다.일반적으로 이 열 을 직접 삭제 하지 않 고 부동 소수점 형식 으로 전환 할 수 있 습 니 다.
3.문자열 형식 이 수치 형식 으로 전환 되 고 일부 문자열 은 변환 이 필요 합 니 다.이것 은 상황 에 따라 결 정 됩 니 다.
총결산
파 이 썬 데이터 분석 과 머 신 러 닝 코드 에 관 한 이 글 은 여기까지 소개 되 었 습 니 다.파 이 썬 데이터 분석 코드 에 관 한 더 많은 내용 은 예전 의 글 을 검색 하거나 아래 의 관련 글 을 계속 찾 아 보 세 요.앞으로 저 희 를 많이 사랑 해 주세요!

좋은 웹페이지 즐겨찾기