<Introduction>
2022.02.11 - [통계] - [통계] 독립 변수란? 종속 변수란?
[통계] 독립 변수란? 종속 변수란?
어떤 일이든 하다 보면, 어느 시점에서 드는 항상 드는 생각이 있습니다. "기본이 정말 중요하구나" 독립변수와 종속변수에 대해 중고등학교 과학 시간에도 익히 들었던 개념입니다. 이 두 변수
panython.tistory.com
독립변수와 종속변수에 대한 글에 이은 글입니다.
독립변수와 종속변수의 관계를 알아보기 위한 방법, 우리가 알고자 하는 현상에 대해 수학적으로 모델을 어떻게 풀어갈 것인가 에 대한 방법인 상관분석과 회귀분석에 대해 작성하고자 합니다.
<상관분석>
제가 생각하는 두 분석의 차이에 대한 예시를 들어보고자 합니다.
"근육량과 운동시간은 어떤 관계를 가질까?" - 상관분석
"근육량과 운동시간의 관계"를 밝혀내고 싶을 때, 상관분석을 하는 것이 맞습니다.
근육량, 운동시간이라는 두 변수의 상호 관계 또는 연관성을 볼 수 있기 때문에 상관분석을 통해 아래와 같은 결과를 볼 수 있을 것입니다.
1. 근육량과 운동시간은 무관하다.
2. 근육량과 운동시간은 양의 상관 관계를 가진다 (근육량, 운동시간 비례적인 관계).
3. 근육량과 운동시간은 음의 상관 관계를 가진다 (근육량, 운동시간 반비례적인 관계).
하지만, 상관분석으로 인과 관계를 밝힐 수 없습니다. 애초의 두 변수에 대한 원인과 결과를 정의해두고 있지 않고, 연관성이나 상호 관계를 분석하는 방식입니다.
즉, 근육량과 운동시간이 양의 상관 관계를 가진다는 결과를 받았을 때, 근육량이 커서 운동시간이 긴 것일지 운동시간이 길어서 근육량이 큰 것인지는 정의하기는 어렵습니다.
상관분석에서는 변수 사이의 관계를 표현하고 수치를 보고자 하는 것입니다. 즉, 두 변수의 관계가 어떻고, 얼마나 강한 연결관계를 가지는 가를 수치, 척도로 표현합니다
<회귀분석>
"운동시간이 길기 때문에, 근육량도 늘지않을까?" - 회귀분석
"근육량과 운동시간의 인과관계"를 밝혀내고자 할 때는, 회귀분석이 적합합니다.
운동시간이 길기 때문에 근육량에 주는 영향을 수학적인 모델로 밝혀 낼 수 있을 것입니다.
회귀분석은 주어진 변수가 인과관계를 가지고 었어야합니다.
하나 이상의 독립 변수(운동시간)의 변화가 종속 변수(근육량)의 변화를 추정하는 것이 목표입니다.
회귀분석은 독립 변수와 종속 변수의 관계를 수학적 모델로 밝혀낸다고 말씀드렸습니다.
그렇기 때문에 회귀분석을 통해 나오는 결과는 "어떠한 수학 식" 이 되고, 일반적인 회귀 분석법인 선형 회귀 분석은 아래와 같은 하나의 직선, 회귀선이라 불리는 수식을 찾는 과정입니다.
![](http://t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png)
y= ax + b는 독립변수 x와 종속변수 y의 관계를 설명하는 수식이라 볼 수 있고, 이 수식을 통해 주어진 x 값을 통해 y값을 추정할 수 있습니다.
즉, 운동시간과 근육량이 위의 그래프와 같은 관계를 가진다면, 1시간 정도 할 경우 근육량이 어느 정도 늘어날 것인가를 추정해 볼 수 있을 것입니다.
결국 회귀분석 과정은 독립변수 x, 종속변수 y의 데이터가 산점도 그래프처럼 뿌려져 그려질 때, y=ax + b라는 최적의 회귀선을 찾아가는 과정을 말합니다.
최적의 회귀선? 두 변수 관계를 가장 잘 설명하는 회귀선!
가장 잘 설명하는 회귀선이라는 기준을 찾는 방법은?? 최소 제곱 법!
<최소 제곱 법>
최소 제곱 법을 설명하기 위해서는 잔차라는 개념을 먼저 알아야 합니다.
잔차란 관측값(실측값)의 y와 예측값의 y 간의 차이를 말합니다.
다시, 산점도 그래프로 뿌려진 데이터에서 가장 설명을 잘할 수 있는 회귀선 y = ax + b를 찾는 과정입니다.
이때, a와 b를 어떻게 갱신하느냐에 따라 회귀선이 달리 표현될 것입니다.
즉, a와 b에 의해 표현된 회귀선이 x, y의 관계를 가장 잘 설명해야하한다 라는 의미가 됩니다.
그래서 a와 b를 임의로 설정한 후 주어진 데이터 x를 넣어보면서 관측값(실측값) y와 차이가 없는지 계속 알아보면서 차이가 적은 그래프, 즉 가장 실측값에 가깝게 표현되는 회귀선을 찾아가는 방법입니다.
이 방법을 "최소 제곱 법"이라고 합니다.
예를 들어 A(1, 4)과 B(2, 3)라는 2개의 점이 있고 회귀 식이 f(x) = y = 2x + 1이라 합니다.
A의 관측값은 4이지만, 회귀선에 의해 예측된 값은 f(1)인 3입니다. 이때 A의 잔차는 1입니다.
B의 관측값은 3이지만, 회귀선에 의해 예측된 값은 f(1)인 5입니다. 이때 B의 잔차는 2입니다.
이때, 잔차의 제곱의 합은 5일 것입니다. 이 값이 가장 최소가 되는 회귀식을 찾아가는 것이 회귀분석의 과정입니다.
![](http://t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png)
<상관분석 vs 회귀분석 비교 차트>
![](http://t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png)
<내 생각>
상관분석은 결국 두 변수에 대한 관계성을 파악하고, 어느 정도 그 관계성이 강한가를 보는 것이고, 회귀분석은 인과관계에 있는 두 변수가 어떤 변화 양상을 가지는 지를 수학적 모델로 표현하고, 이 수학적 모델을 찾아가는 과정이라 이해가 되었습니다.
인공지능에서 하나하나의 노드(퍼셉트론)가 이러한 회귀분석을 통해 결과를 추출한다는 의미에 대해 더 명확하게 이해할 수 있었습니다.
인공지능의 레이어층들은 엄청난 회귀분석의 연속, 집합체라는 생각이 들었습니다.
<참고 자료>
https://ko.gadget-info.com/difference-between-correlation
https://kkokkilkon.tistory.com/77
https://wyn-associates.com/lr_pr/
'통계' 카테고리의 다른 글
[통계] 독립 변수란? 종속 변수란? (0) | 2022.02.11 |
---|