🤖 딥러닝 코드 정리

28037 단어 인공지능 AI AI

1. 판다스 import

import pandas as pd

2. Matplotlib의 pyplot import

import matplotlib.pyplot as plt

3. 데이터 프레임의 앞, 뒤 조회하는 법

data = DataFrame()

data.head() ## 처음 5개의 행을 보여줌.

data.tail() ## 마지막 5개의 행을 보여줌.

4. 히스토그램 그리기

petal = iris['petal.width']

plt.hist(petal, bins=5) ## 5개의 구간을 나눠서 보여준다.

5. 산점도 시각화

iris.plot.scatter(x='sepal.width', 

                  y='petal.width', 

                  s=100, # marker size

                  c='blue', 

                  alpha=0.5)

plt.title('Scatter Plot of iris by pandas', fontsize=20)

plt.xlabel('Petal Length', fontsize=14)

plt.ylabel('Petal Width', fontsize=14)

plt.show()

seaborn을 이용한 산점도 그리기


import seaborn as sns

sns.scatterplot(x="sepal.length", y="petal.length", hue="variety", s=100, data=iris)

=> hue는 그룹에 따라 색상을 다르게 해주는 설정 값

6. Label Encoding 하는 법

from sklearn.preprocessing import LabelEncoder

encoder = LabelEncoder()

iris['variety'] = encoder.fit_transform(iris['variety'])

7. 트레이닝 셋과 테스트 셋 분리하기

from sklearn.model_selection import train_test_split

X= iris.loc[:, iris.columns!= "variety"]
Y= iris['variety']


x_train, x_test, y_train, y_test = train_test_split(X, Y, test_size= 0.1, random_state = 2021, stratify = Y)

## train:test = 9:1 

print(x_train, x_test)

8. Random Forest 모델 학습하기

하이퍼파라미터 설정 : n_estimators=50, max_depth=13, random_state=30, min_samples_leaf=5
n_estimators 종합한 전체 트리의 가지수, max_depth : 각 Tree의 가장 깊은 높이, min_samples_leaf: 각 끝의 노드에는 최소 5개의 트레이닝 샘플이 있어야함

from sklearn.ensemble import RandomForestClassifier

model = RandomForestClassifier(n_estimators=50, max_depth=13, random_state=30, min_samples_leaf=5)

model.fit(x_train, y_train)

9. 뉴럴네트워크 모델 학습하기

import tensorflow as tf
from tensorflow import keras
from tensorflow.keras.layers import Input, Dense, BatchNormalization
from tensorflow.keras.models import Sequential, Model
from tensorflow.keras.callbacks import EarlyStopping

model = Sequential()
model.add(Dense(20, input_dim=6, activation='relu'))  ## 인풋 레이어의 크기는 6
model.add(BatchNormalization())
model.add(Dense(20,  activation='relu'))
model.add(BatchNormalization())
model.add(Dense(3, activation='softmax'))

## 20개의 노드를 가지는 2개의 히든 레이어를 가지고 있는 모델



model.compile(loss='sparse_categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

es = EarlyStopping(monitor= "val_loss", mode="min", verbose =1 , patience=5, restore_best_weights=True)

## 최고의 성능일 때 가중치를 복구한다. 

history = model.fit(x_train, y_train, epochs=2000, validation_split=0.2, callbacks=[es])

10. Linear model 학습하기

from sklearn.linear_model import LinearRegression

linear_regression = LinearRegression()

m = linear_regression.fit(x_train,y_train["Lemon"])

print(m)

11. Decision Tree model 학습하기

참고링크
min_samples_leaf: 트리의 최소 샘플 갯수
max_depth: 트리의 최대 깊이


from sklearn.tree import DecisionTreeClassifier

trees=[]

for i in range(1, 16):
    d_model = DecisionTreeClassifier(min_samples_leaf=10, max_depth=i, random_state=2021)
    d_model.fit(x_train, y_train)

12. column 삭제(drop)하기

df1 = df1.drop(columns=['voc_trt_reslt_itg_cd',
                       'oos_cause_type_itg_cd',
                       'engt_cperd_type_itg_cd',
                       'engt_tgt_div_itg_cd',
                       'fclt_oos_yn'
                      ])
## 직접 지정해서 삭제할 수 있음.

f1 = df.drop(['voc_trt_reslt_itg_cd',
                'oos_cause_type_itg_cd',
                'engt_cperd_type_itg_cd',
               'engt_tgt_div_itg_cd',
               'fclt_oos_yn'
               ], axis=1)

## axis=1 로 설정해서 열을 지운다.

13. 특정 타입을 가진 컬럼 선택하기

cat_cols = df1.select_dtypes(include='object')

14. One-Hot Encoder

get_dummies를 활용한다.

pd.get_dummies(cat_cols['cust_clas_itg_cd']).head()

15. 상관관계 파악하기

corr() 를 써서 상관관계를 파악할 수 있다.

df = DataFrame()
df.corr()

16. 히트맵 출력하기 (seaborn을 사용)

sns.set(rc={'figure.figsize':(12,8)})sns.heatmap(corr, annot=True) ## annot 설정은 숫자를 보여줄 지에 대한 여부

17. Check Point 설정하기

성능이 가장 좋은 모델을 파일로 저장한다.


input_size = x_train.shape[1]

model = Sequential()
model.add(Dense(200, input_shape=(input_size, ), activation="relu"))
model.add(BatchNormalization())
model.add(Dense(50, activation="relu"))
model.add(BatchNormalization())
model.add(Dense(25, activation="relu"))
model.add(BatchNormalization())
model.add(Dense(10, activation="relu"))
model.add(BatchNormalization())
model.add(Dense(5, activation="relu"))
model.add(BatchNormalization())
model.add(Dense(1))

model.compile(loss="mean_squared_error", metrics=['accuracy'], optimizer="adam")


mc = ModelCheckpoint('best_model.h5', monitor='val_accuracy', mode='max', save_best_only=True)

history = model.fit(x_train, y_train, epochs=200, validation_data=(x_valid, y_valid), callbacks=[mc])

18. 데이터 프레임 인덱스 초기화

drop 설정은 인덱스로 세팅한 열을 삭제할 지에 대한 여부 결정
inplace 는 현재 데이터 프레임 원본에 적용할 지 결정


x_train.reset_index(inplace=True, drop=True)

19. 뉴럴네트워크 학습 로그 시각화


t_acc = history.history["accuracy"]
v_acc = history.history["val_accuracy"]


plt.plot(t_acc, c="red")
plt.plot(v_acc, c="blue")

plt.title("Accuracy")

plt.xlabel("epochs")
plt.ylabel("accuracy")

Author And Source

이 문제에 관하여(🤖 딥러닝 코드 정리), 우리는 이곳에서 더 많은 자료를 발견하고 링크를 클릭하여 보았다 https://velog.io/@holim0/딥러닝-코드-정리

우수한 개발자 콘텐츠 발견에 전념 (Collection and Share based on the CC Protocol.)

javascript 조회 (간단 한) 대상 이 배열 에 있 습 니 다.

좋은 웹페이지 즐겨찾기

개발자 우수 사이트 수집

개발자가 알아야 할 필수 사이트 100선 추천 우리는 당신을 위해 100개의 자주 사용하는 개발자 학습 사이트를 정리했습니다