Post

[수리통계] 이변량 데이터

심슨의 역설

 수술 방법 A수술 방법 B
작은 결석93%(81/87)87%(234/270)
큰 결석73%(192/263)69%(55/80)
합계78%(273/350)83%(289/350)

서로 다른 출처로부터 생성된 데이터를 하나의 테이블로 결합할 때, 오해의 소지가 있는 결론이 발생 가능하다.
= 부분 집합에서는 일관되게 보이는 경향이 전체를 보면 반대 방향으로 해석될 수 있다는 것
-> 기록되지 않은 변수가 연구결과에 반전을 일으킬 위험이 내재한다.

  • Lurking Variable(잠복성 변수, =unrecorded variable)

상관계수 - 선형관계의 측도

correlation coefficient

  • 산점도가 선형관계에 어느정도 가까운지에 대해 상관관계를 계산함으로써 수치화 가능
  • r>0 : (x,y)값들의 모임이 우상향 띠 모양을 이룬다
  • r<0 : (x,y)값들의 모임이 우하향 띠 모양을 이룬다
  • r=1 : (x,y)값들이 양의 기울기를 갖는 직선위에 정확하게 놓여있다.
  • r=-1 : (x,y)값들이 음의 기울기를 갖는 직선위에 정확하게 놓여있다.
  • r $\cong$ 0 : 선형관계가 매우 약하다

상관계수 계산

상관계수 = 공분산을 표준화한 값

공분산 = $\text{Cov}(X, Y) = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})$

상관계수 = $\rho(X, Y) = \frac{\text{Cov}(X, Y)}{\sigma_X \sigma_Y}$

상관관계와 인과관계

  • 표본 상관계수가 높다고 해서 반드시 두 변수 사이에 인과관계가 있음을 의미하지 않는다.
  • 두 변수가 동시에 특정 방향으로 변하는 경향이 관찰되었다고 해서 그들사이에 직접적인 관게가 존재함을 의미하지 않는다.
    • 잠복변수가 만들어낸 거짓 상관 = 허위상관(spurious correlation)
This post is licensed under CC BY 4.0 by the author.