고양이의 데이터 과학: 제3부분

이해 관계


호만의 도움 아래, 당신들은 이미 데이터 집합을 복구했고, 당신들 둘은 모두 실제 행동에 투입할 계획입니다.너는 데이터를 보니 줄과 열이 매우 많은 것을 발견했다.당신은 어떻게 이 숫자들로부터 의미를 찾을 수 있습니까?호만은 네가 곤혹스러워하는 것을 알고 어떻게 해야 할지 알려주기 시작했다.
호만은 서로 다른 유형의 정보 사이에 어떤 관계가 있는지 찾아내고 싶다고 말했다.관계.메시지에서?어떻게호만은 그가 노트북에서 일을 하려고 할 때, 너는 그의 키보드에 앉아 있는 경향이 있다는 예를 들었다.다른 때는 안 그럴 거야.아니면 배고플 때 야옹야옹 울어.이곳에서 호만은 노트북에서 일하며 키보드에 앉으라고 격려했다.너는 갈수록 배가 고파서 야옹야옹 울게 한다.이렇게 하면 두 사건 간의 어떠한 상호 관계도 중요하다. 호만은 관련성이라고 부른다.이 두 가지 상황에서 노트북에 앉아 보거나 야옹야옹 짖는 횟수가 호만이 일을 시도하거나 배고픔이 증가함에 따라 증가하기 때문이다.호만은 네가 그렇게 배고프지 않을 때 더 많이 노는 것처럼 이런 관련성도 마이너스일 수 있다고 말했다.이런 상황에서 하나는 증가하고 다른 하나는 줄어든다.

이제 알겠어요. 감자칩을 사게 할 단서를 찾아야 해요.이렇게 하는 과정에서 호만은 당신에게 예시를 보여 주었습니다.그는 랜덤으로 서로 다른 브랜드 칩의 일부 속성과 그에 대한 사람들의 선호도를 선택했다.이러한 속성은 기본적으로 서로 다른 브랜드 칩의 특징으로 구성된 파일 중의 몇 열이다.그것들은 이렇게 보인다.

너는 왜 사람들이 특정 브랜드의 칩을 좋아하는지 알고 싶다.여기서 보듯이 #0브랜드는 90%의 사랑을 받았고 #4브랜드는 55%의 사랑을 받았다.이 뒤에는 틀림없이 원인이 있을 것이다.
호만은 이 열에서 약간의 값을 골라서 너에게 그의 뜻을 보여 주었다.그는 Python의pandas 라이브러리를 사용하여 그것들을 데이터 프레임으로 변환하고 내장된 데이터 프레임을 호출합니다.corr() 함수는 관련성을 찾아냅니다.
import pandas as pd
data = {'potato content': [45,37,42,35,39],
        'packaging quality': [38,31,26,28,33],
        'owner can say potato in how many languages': [1,3,7,1,7],
        'spiciness': [44,44,43,43,44],
        'liked by %': [90,56,88,73,55],
        }
df = pd.DataFrame(data,columns=['potato content','packaging quality','owner can say potato in how many languages','spiciness','liked by %'])
pd.set_option("display.max_rows", None, "display.max_columns", None)
pd.set_option('expand_frame_repr', False)
corrMatrix = df.corr()
print (corrMatrix)
그리고 나서 그는 당신에게 출력을 보여 주었습니다.

와, 더 많은 숫자!그들은 도대체 무슨 뜻입니까?네가 호만에게 야옹야옹 소리를 지르자 그는 설명하기 시작했다.그는 출력을 관련 행렬이라고 부른다.그럼 이 관련 행렬은 무엇입니까?너는 이것이 시계라는 것을 볼 수 있고, 약간의 숫자가 있다.각 숫자는 데이터 세트의 한 열과 다른 열의 연관성을 나타냅니다.이 숫자들을 상관계수라고 부른다.이 계수는 0과 1 사이이다.물론 이 계산 뒤에는 수학 방정식이 있다.너는 인터넷에서 그것들을 검색하고 볼 수 있다.그것들은 어떻게 일합니까?첫 줄에서 첫 번째 숫자는'감자 함량'과'감자 함량'사이의 관계를 나타낸다.사물과 자신의 상관성은 항상 1.호만은 사람들이 하나의 브랜드를 좋아하는 이유를 알아야 한다고 강조했듯이, 그는 지금 너에게 첫 줄의 마지막 숫자를 설명한다.그것은 감자칩 브랜드의 감자 함량과 사람들이 그것을 좋아하는 관계를 대표한다.숫자가 높을수록 그들의 관계는 더욱 견고해진다.여기는 0.685493이 상당히 높다.이와 유사하게 두 번째 줄의 마지막 숫자는 포장 품질과 사람들이 칩을 좋아하는 관계를 포함한다.다른 줄의 마지막 수도 비슷한 관계를 나타낸다.너는 그중의 일부는 마이너스라는 것을 볼 수 있다.이는 이러한 속성과 사람들이 어떤 브랜드를 좋아하는 감자칩 간의 관계가 상반된다는 것을 나타낸다. 즉, 이러한 속성의 감소는 사람들이 이 브랜드에 대한 선호도를 증가시킬 수 있다는 것이다.호만은 그들이 마이너스 관계라고 말했다.
한 브랜드의 감자칩 중 감자 함량이 높을수록 사람들은 이 브랜드를 좋아하고 매운 맛이 낮을수록 사람들은 이 브랜드의 감자칩을 좋아한다는 것을 이제 알고 있다. 하지만 등등'주인은 몇 가지 언어로 감자를 말할 수 있나요?'?그것은 도대체 어떻게 사람들로 하여금 한 브랜드의 칩을 좋아하거나 싫어하게 합니까?너는 발톱을 그 숫자를 가리킨다.
호만은 네가 또 곤혹스러워지기 시작했다는 것을 안다.그는 지금 너에게 감자튀김을 언제 가장 많이 먹느냐고 묻는다.너는 텔레비전에서 축구를 볼 때 가장 많이 먹는다고 생각하고 대답했다.경기를 볼 때 당신은 또 무엇을 합니까?너는 네가 가장 좋아하는 팀의 유니폼을 입고 자주 야옹야옹 운다.너는 갑자기 네가 스웨터를 입을 때 감자칩을 더 많이 먹은 것 같지만, 실제로 스웨터를 입은 것은 감자칩을 더 많이 먹었기 때문이 아니냐는 것을 깨달았다.아니오, 당신의 감자칩 섭취량은 유니폼을 입는 것에 따라 증가하지 않습니다. 감자칩 소비의 진정한 원인은 경기를 보는 것입니다.호만은'진짜 원인'인과관계라고 부른다.

따라서 관련성이 항상 인과관계를 의미하는 것은 아니다.
지금 이게 문제야.당신은 어떤 것이 진정한 원인인지 어떻게 확정합니까?응, 적어도 지금은 이 점을 찾을 직접적인 방법이 없어.너는 아직 고양이야.너는 커져야 더 복잡한 것을 배울 수 있다.그럼 어떻게 할 거예요?현재 당신은 관련 계수가 비교적 크면 관계가 인과관계일 가능성이 더 높다고 안심하고 가정할 수 있습니다.상관 계수에 대한 임계값을 설정하여 작은 값을 잠시 무시할 수 있습니다.예를 들어 0.4보다 큰 값을 가설하면 0.027518과-0.214263은 매우 작다.따라서 특정 브랜드의 감자칩을 왜 좋아하거나 싫어하는지 생각할 때'감자 함량'과'매운맛'의 수를 안심하고 고려할 수 있다.여기서 우리의 발견은 감자칩의 감자 함량이 비교적 높거나 둘 사이에 상관관계가 있다면 사람들은 감자칩을 더 좋아한다는 것이다.만약 맵기가 높다면, 사람들은 종종 이런 감자칩을 좋아하지 않는다. 다시 말하면, 그것들은 마이너스 관계가 있다.모든 유형의 문제, 분류, 회귀 또는 시간 서열 분석에 대해 이러한 관계 가설을 통해 데이터에 대한 일부 정보를 발견하고 예측해야 합니다.

좋은 웹페이지 즐겨찾기