210624 독서, 통계, 데이터베이스

4840 단어 TILTIL

독서

  • 프리워커스 -- 커리어리 코멘트 공유

데이터베이스

기본키 Primary Key

  • 고유한 식별값을 가질 수 있는 열. 중복되면 안된다.
  • 필요한 이유는? 특정 레코드(행)을 찾고자 할 때 도움이 되기 때문에
  • 또 다른 중요한 역할!!@!
    • 중복값, NULL값은 입력되지 못하도록 '제약'을 걸 수 있다.

통계

  • (2) 그것을 어떻게 측정할 것인가

    • 상관연구 (=횡단면연구) / 실험연구

    • 주된 차이는, 실험연구에서는 우리가 변수를 직접 조작한다는 것이다. 반면
      상관연구에서는 자연적인 사건들을 관찰하거나 시간상의 한 지점에서 여러 변수의 스냄솟을
      취하는 등의 활동을 한다.

    • 상관증거의 문제 :

      1서로 다른 변수들의 시간 관계에 대해 알 수 없다는 것

      2제3의요소, 중첩변수

    • 제시된 원인이 존재하는 또는 존재하지 않는 상황들을 비교하는 것이 바로 실험연구가 추구하는 것

    • 자료수집 방법 — 같은 조건 다른 그룹(독립측정 설계), 다른 조건 같은 그룹(반복 측정 설계)

    • 임의의 인자들로 일어난 차이 - 비체계적 변동 ↔ 구체적 실험 조작에 일어난 차이 - 체계적 변동

      ⇒ 통계학의 임무는 성과에 존재하는 변동이 어느 정도인지 파악하고, 그중 체계적 변동은 얼마이고 비체계적 변동은 얼마인지 알아내는 것이다.

    • 실험적 조작의 효과를 살펴볼 때는 조건들 사이의 임의적이고 통제할 수 없는 차이들에서 발생하는 배경 ‘잡음’에 주의를 기울여야 한다. 반복측정 설계에서는 이러한 ‘잡음’이 최소한으로 유지되어서 실험의 효과가 좀 더 명확하게 드러날 가능성이 크다. 이 는, 다른 요인들이 동일하다고 할 때, 반복측정 설계가 독립설계보다 효과를 검출하는 능력이 더 뛰어남을 뭇한다.

    • 임의화(randomization)
      - 반복측정 설계에서 참가자는 연습효과, 권태효과가 나타날 수 있으므로 순서를 섞는 임의화를 한다.
      - 독립설계에서는 참가자를 무작위로 배정하는 임의화 적용하여 중첩변수를 고르게 분포되게 한다.

      1.7. 자료분석

    • 도수분포; 히스토그램 (hist())

    • 급첨; 완첨

    • 중심경향성 — 최빈값(가장 긴 막대), 중앙값((n+1)/2), 평균

      ⇒ 모든 점수를 사용하고, 서로 다른 표본에서 비교적 안정적이기 때문에 평균을 많이 사용하는 것

    • 산포(범위; range) → 사분위간 범위(양쪽 25% 제거하고 가운데 50%만 사용해서)

    • z점수(z-score): 그 어떤 자료집합이라도 평균이 0이고 표준편차가 1인 자료집합으로 변환할 수 있다. 우
      선 각 점수(X) 에서 모든 점수의 평균(x)을 뺀다. 그러면 자료의 중심이 0이 된다. 다음으로는, 수정된 점수들을 표준펀차(5)로 나눈다. 그러면 결과적으로 전체 자료의 표준편차가 1이 된다. — 70-71p

      1. 96 값은 분포의 상위 2.5%를 잘라낸다는 점에서 중요하다
    • 대립가설; 존재한다

    • 귀무가설; 존재하지 않는다

    • 어떤 자료가 귀무가설을 기각함이 확실하다면 그 자료는 실험가설을 지지한다고 말할 수 있다. 단, 자료가 귀무가설을 기각한다고 해도 그 즉시 실험가설이 증명되는 것은 아니다. 단지 자료가 실험가설을 지지하는 것일 뿐 ⇒ "귀무가설이 참이라고 가정하고 수집한 자료가 실제로 그 가정을 지지할 가능성”에 관해 말하는 것이 합당 ⇒ 근데 그게 또 참이라고 말할 수 없고, 말할 수 있는 자료를 얻을 가능성을 얻는 것

chapter2

- 통계적 모형이 얼마나 적합한지 평가 필요
- 모집단 전체에 접근할 수 없으므로 표본 필요. 표본이 클수록 전체를 반영할 가능성이 높아짐
- 여러 개 표본을 사용하면 결과는 조금씩 달라도 평균은 모집단과 비슷할 가능성이 높음
1. 평균

    적합평가: 제곱합, 분산, 표준편차

    관측값-모형값 (이탈도) → 더하면 되는데 양음을 없애려고 오차제곱합 사용

    분산 → 제곱을 관측값개수(N)-1로 나눈다 (자유도)

    ![https://s3-us-west-2.amazonaws.com/secure.notion-static.com/fad93044-4cbc-41a2-a360-2c5ff82dac4f/Untitled.png](https://s3-us-west-2.amazonaws.com/secure.notion-static.com/fad93044-4cbc-41a2-a360-2c5ff82dac4f/Untitled.png)

    분산은 평균과 관측값 사이의 평균오차이다 (그리고 모형이 실제 자료에 얼마나 적합한
    지를 나타내는 하나의 측도이다).
    분산의 제곱근 = 표준편차
    → 평균과 비교해서 표준편차가 작아야 평균에 가깝고, 0이라면 모든 값이 같을 가능성 있음

![https://s3-us-west-2.amazonaws.com/secure.notion-static.com/11ac64b9-bfac-47b2-bff6-3a540784c73f/Untitled.png](https://s3-us-west-2.amazonaws.com/secure.notion-static.com/11ac64b9-bfac-47b2-bff6-3a540784c73f/Untitled.png)

![https://s3-us-west-2.amazonaws.com/secure.notion-static.com/3981f554-f6de-43c3-8931-ea1367452035/Untitled.png](https://s3-us-west-2.amazonaws.com/secure.notion-static.com/3981f554-f6de-43c3-8931-ea1367452035/Untitled.png)

- 좋은 이론은 세상에 관해 뭔가 이야기 할 수 있어야 한다.
- 표본 자료에서 그러한 일반적인 예측을 이꿀어내는 방법을 이해하려면 먼저 모형이 표본(그 모형을 도출한)에 잘 적합하는지를 살펴보는 것이 아니라, 그 표본을 추출한 모집단에 잘 적합하는지를 살펴보아야 한다.
- 표준오차 - 표본평균들(표집분포?)의 표준편차 ⇒ 주어진 표본이 모집단을 얼마나 잘 대표하는지를 나타내는 측도 → 표본평균이 모집단의 평균과 얼마나 가까운가?
- 중심극한정리
- 신뢰구간 : 모집단의 참값이 속하리라고 간주되는 값들의 범위
    ⇒ 참값을 모르면  표본평균이 근사한지도 모르기 때문에 필요.

표집분포가 정규분포인 큰 표본은, 표준편차(s)와 평균(X)를 알면 신뢰구간을 계산할 수 있다.

  • 신뢰구간의 가시화
  • 신뢰구간들이 이런 식으로 겹친다는 것은 이 펑균들이 같은 모집단에서 나왔을 가능성이
    크다는 뭇이다.
  • 겹치지 않는다면, 두 신뢰구간의 표본들이 서로 다른 모집단에서 추출한 것이거나 아니면 같은 모집단에서 추출한 표본들이긴 하지만 두 신뢰 구간 중 하나에는 모집단 평균이 속하지 않는 것이다.
  • 통계적으로 유의한 발견 — 95%이상 참일 가능성
  • 검정통계량: 체계적 변동 대 비체계적 변동의 비 (rati이 또는 효과 대 오차의 비
  • 유의하다 유의하지 않다가, 변수간 관계가 있다 없다를 말하지는 않는다. 표본이 많으면 유의하게 나올 수 있다. 귀무가설은 결코 참일 수 없다.
    → 귀무가설이 옳다면 이 검정통계량이 발생할 가능성이 아주낮다.
  • 한쪽 꼬리 검정, 양쪽 꼬리 검정
  • 제1종 오류(type 1 eπo에는, 우리가 모집단에 효과가 진짜로 존재한다고 믿지만 사실은 모집단
    에 아무런 효과도 없는 것
  • 제2종 오류(type 1 eπo)모집단에 실제로 효과가 존재하지만 우리는 모집단에 아무 효과도 존재하지 않는다고 믿는 것
  • 효과크기

좋은 웹페이지 즐겨찾기