데이터 과학 육성 워크숍 Chapter 3일차

시간을 내기는 어렵지만 조금씩 나아갈 것이다.
어제까지는 거의 관련이 있었다.맞아요. 피아노 곡이에요.

Pearsonr


sp.stats.pearsonr(student_data_math.G1,student_data_math.G3)
(0.8014679320174141, 9.001430312276602e-90)
그 결과 0.801값이 1에 가까울수록 2 변수 간의 관련성이 강하다.
잠깐만, 두 번째 9.001 왜...따라서 참고 사항을 검토하십시오
Returns
r : float
Pearson's correlation coefficient
p-value : float
2-tailed p-value
The p-value roughly indicates the probability of an uncorrelated system producing datasets that have a Pearson correlation at least as extreme as the one computed from these datasets.
scipy.stats.pearsonr
응, 잘 몰라서 일본어에 의존해 봤어.
Sciepy를 사용하여 피쳐 양의 연관성을 조사합니다.
참고로 p치가 우세 확률이라고 하니 더 조사해 보겠습니다.
우세 확률
통계가설 검정에서는 가설이 없는 것을 기각하고 대립가설을 통과할 때의 기준이다.
의미 있는 수준이라고도 한다.보통 5%와 1%를 사용합니다.
네.진짜 일본어예요?뜻이 불분명하다. 어쨌든 우세 확률이 5% 미만이면 얻은 상관계수는 우연한 산물로 믿을 수 없겠지.
옳은 것을 이해할 자신이 전혀 없다.
그러나personr의 효과는 선형 관련에만 한정되기 때문에 관련은 비선형 상황에서 작용하지 않는다는 것을 주의해야 한다.
꼭 개인기로 해야 한다는 건 아니야.
아마 그거에 대한 앞으로의 챕터도 나오겠지.

PairPlot


문법은 다음과 같다.
seaborn.pairplot( DataFrame )

이렇게 하면 데이터 프레임의 수치 요소 간의 관련성이 도형으로 나타난다
상기 예에서 데이터 프레임의 네 가지 요소에 대해 표시하다
축이 교차하는 곳에 직사각형을 표시하고 이 외에 2변수 사이의 산포도를 표시하면 관련을 볼 수 있다.
예제 중의 DataFrame을 가공하지 않고pairPlat를 해보면 이렇게 됩니다.

너무 커서 잘 잡히지 않는다.
참고로 표시된 그림을 파일에 저장하는 것은 가능하다
plot = sns.pairplot( DataFrame )
plot.savefig("output.png")
조사 방법은 3get_figure()호출 후.이것도 좀 억지스럽지만, 판본은 예전의 수법인 것 같은데, 지금은 잘못된 것으로 바뀌었다.

단회귀분석


자세한 사항은 추후 챕터에서 할 테니 단어의 뜻을 잘 이해하고 싶다.
목적 변수: 계산할 수치, 변수
설명 변수: 목적 변수를 얻는 데 사용되는 변수입니다.설명에 사용되는 변수
단회귀분석은 이 목적의 변수/설명 변수의 관계가 단지 하나의 변수로 구성된 공식을 가정하여 해답을 구하는 것이다.
이런 것들을 추진하려면sklearn을 사용해야 한다.
대충 짐작해 보니 문제를 종합해 보면 내일로 하자.
응, 진전은 느리지만 어쩔 수 없어.

좋은 웹페이지 즐겨찾기