[수리통계] 이변량 데이터
심슨의 역설
| 수술 방법 A | 수술 방법 B | |
|---|---|---|
| 작은 결석 | 93%(81/87) | 87%(234/270) |
| 큰 결석 | 73%(192/263) | 69%(55/80) |
| 합계 | 78%(273/350) | 83%(289/350) |
서로 다른 출처로부터 생성된 데이터를 하나의 테이블로 결합할 때, 오해의 소지가 있는 결론이 발생 가능하다.
= 부분 집합에서는 일관되게 보이는 경향이 전체를 보면 반대 방향으로 해석될 수 있다는 것
-> 기록되지 않은 변수가 연구결과에 반전을 일으킬 위험이 내재한다.
- Lurking Variable(잠복성 변수, =unrecorded variable)
상관계수 - 선형관계의 측도
correlation coefficient
- 산점도가 선형관계에 어느정도 가까운지에 대해 상관관계를 계산함으로써 수치화 가능
- r>0 : (x,y)값들의 모임이 우상향 띠 모양을 이룬다
- r<0 : (x,y)값들의 모임이 우하향 띠 모양을 이룬다
- r=1 : (x,y)값들이 양의 기울기를 갖는 직선위에 정확하게 놓여있다.
- r=-1 : (x,y)값들이 음의 기울기를 갖는 직선위에 정확하게 놓여있다.
- r $\cong$ 0 : 선형관계가 매우 약하다
상관계수 계산
상관계수 = 공분산을 표준화한 값
공분산 = $\text{Cov}(X, Y) = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})$
상관계수 = $\rho(X, Y) = \frac{\text{Cov}(X, Y)}{\sigma_X \sigma_Y}$
상관관계와 인과관계
- 표본 상관계수가 높다고 해서 반드시 두 변수 사이에 인과관계가 있음을 의미하지 않는다.
- 두 변수가 동시에 특정 방향으로 변하는 경향이 관찰되었다고 해서 그들사이에 직접적인 관게가 존재함을 의미하지 않는다.
- 잠복변수가 만들어낸 거짓 상관 = 허위상관(spurious correlation)
This post is licensed under CC BY 4.0 by the author.