도둑질과 도둑질 판례를 이용한 무작위 포리스트 학습

소개



기계 학습의 참고서를 읽고 있을 때, 컴퓨터에서도 판사의 흉내낼 수 있을 것이라고 생각해, 실제로 행동했습니다.
하지만 결과적으로 자연어를 다룰 수 있을 정도의 데이터가 모이지 않아 이것을 포기하게 되었습니다.
그러나 모처럼 모은 데이터. 사장시키는 것은 아무것도 없다고 생각하고, 본고를 쓰기에 도달했습니다.

데이터에 대한 설명


import pandas as pd
import numpy as np
import sklearn as sk
import sklearn.ensemble as ske
import sklearn.model_selection as ms
import matplotlib.pyplot as plt
%matplotlib inline
data = pd.read_csv(r"D:\pythondata\data.csv")

사용한 데이터는 모두 법원이 인터넷에서 공개하고 있던 것입니다.
적용된 형법은 60,66,68,71,235,236입니다.
―주거 침입 등, 견연범으로서 처리된 것은 생략. 준절도가 한 건. 공동 정범이 복수 있었지만, 이것도 생략. ―
또한, 복잡화를 피하기 위해, 동시적 병합죄는 모두 데이터로부터 제외했습니다.
집행 유예에 대해서도, 취급에 고민해, 이것도 데이터로부터 제외했습니다.
그 결과. 사용 가능한 데이터 수는 매우 적고 통계로서의 가치는 낮습니다. (강도죄를 더한 것도 이것이 이유. 왜곡이 커지는 것만으로는?라는 지적은 용서)

랜덤 포레스트


reg = ske.RandomForestRegressor()
X = data.drop(["judge"] ,axis = 1)
y = data["judge"]
reg.fit(X,y)
fet_ind = np.argsort(reg.feature_importances_)[::-1]
fet_imp = reg.feature_importances_[fet_ind]
fig, ax = plt.subplots(1, 1, figsize=(8, 3))
labels = X.columns[fet_ind]
pd.Series(fet_imp, index=labels).plot('bar', ax=ax)
ax.set_title('graph1')



랜덤 포레스트를 사용한 이유는 이것이 제일 좋은 결과였기 때문입니다.
데이터의 평가 항목은 폭력, 피해액, 중독성, 불법침입, 계획성의 5개입니다.
그래프는 그들이 결과에 얼마나 영향을 미쳤는지를 보여줍니다.
이를 보면 알 수 있듯이 피해액과 폭력에 가중치가 편중되어 있음을 알 수 있습니다.
이유로서 계획성에 있어서는 돌발적 절도행위라고 하는 것이 원래 적다.
주거 침입을 일단 마련했지만, 판결에 미치는 영향은 그다지 없었다. (절도죄 자체가 그것을 예기적으로 디자인 되었습니까?)
집행유예가 붙은 사례를 생략했기 때문에 상습성이라는 항목이 유명무실해졌다. 등을 들 수 있다고 생각합니다.
중립적인 데이터로 이것을 하면, 상습성은 보다 평가되고 있었다고 생각합니다.
다음은 실제로 이 데이터를 기계에 학습시켜 어떠한 판단이 가능한지를 보고 싶습니다.

학습


(X_train, X_test, y_train, y_test) = ms.train_test_split(X, y, test_size=0.2, random_state = 1)
reg.fit(X_train, y_train)
ypred = reg.predict(X_test)
print(reg.score(X_train, y_train))

0.9182638752147211
guraf = pd.DataFrame( {"予想した判決":ypred,
                       "実際の判決":y_test})               
display(guraf)



결과는 이렇게 되었다.
나는 형법학자가 아니기 때문에 얼마나 어긋남이 허용 범위가 될지 판단하지 않습니다.
다만, 엇갈림이 큰 것에 관해서 확인하면, 강도 도죄의 경우에 있어서, 정상 추량의 유무가 요인으로서 큰 것을 알았습니다.
잘 생각해 보면, 정상 추량이라는 요소를 마련하지 않은 것은 꽤 큰 실수입니다.

요약



본래의 용도가 아닌 데이터의 사용이었습니다만, 실제로 해보면 많은 문제점을 발견할 수 있었습니다.
구체적으로는, 상술한 바와 같이, 정상 추량이라는 새로운 판단 기준의 추가.
복수범에 있어서, 멤버가 각각에 완수한 역할의 평가. (구성 요건을 발판으로 하면 된다)
사회 복귀의 가능성.
그 죄가 침해한 권리의 정도. (특히 이것은 감각적인 사례를 다룰 때만큼 중요합니다.)
등. 입니다.
마지막으로, 같은 시도를 하고 있는 동지가 있다면, 이 분야에서 선행하고 있는 미국이나 중국의 논문을 읽고 나서 손을 움직이는 것이 절대적으로 좋다고 생각합니다.
나도 그 안에서 읽는다. 그동안···.

참고한 URL
h tps : // / py 톳룽보오 ks. 기주 b. 이오/86-우신 g-아란드 m후레 st-와-세 ct-이 m포 rtan t

좋은 웹페이지 즐겨찾기