퐈니썬's LIfe - 잘 실패하자 RSS 태그 관리 글쓰기 방명록
통계 (2)
2022-02-14 15:21:14
728x90
반응형

<Introduction>

2022.02.11 - [통계] - [통계] 독립 변수란? 종속 변수란?

 

[통계] 독립 변수란? 종속 변수란?

어떤 일이든 하다 보면, 어느 시점에서 드는 항상 드는 생각이 있습니다. "기본이 정말 중요하구나" 독립변수와 종속변수에 대해 중고등학교 과학 시간에도 익히 들었던 개념입니다. 이 두 변수

panython.tistory.com

독립변수와 종속변수에 대한 글에 이은 글입니다. 

 

독립변수와 종속변수의 관계를 알아보기 위한 방법, 우리가 알고자 하는 현상에 대해 수학적으로 모델을 어떻게 풀어갈 것인가 에 대한 방법인 상관분석과 회귀분석에 대해 작성하고자 합니다. 


<상관분석>

제가 생각하는 두 분석의 차이에 대한 예시를 들어보고자 합니다. 

 

"근육량과 운동시간은 어떤 관계를 가질까?" - 상관분석

 

"근육량과 운동시간의 관계"를 밝혀내고 싶을 때, 상관분석을 하는 것이 맞습니다. 

근육량, 운동시간이라는 두 변수의 상호 관계 또는 연관성을 볼 수 있기 때문에 상관분석을 통해 아래와 같은 결과를 볼 수 있을 것입니다. 

 

1. 근육량과 운동시간은 무관하다.

2. 근육량과 운동시간은 양의 상관 관계를 가진다 (근육량, 운동시간 비례적인 관계).

3. 근육량과 운동시간은 음의 상관 관계를 가진다 (근육량, 운동시간 반비례적인 관계). 

 

하지만, 상관분석으로 인과 관계를 밝힐 수 없습니다. 애초의 두 변수에 대한 원인과 결과를 정의해두고 있지 않고, 연관성이나 상호 관계를 분석하는 방식입니다. 

즉, 근육량과 운동시간이 양의 상관 관계를 가진다는 결과를 받았을 때, 근육량이 커서 운동시간이 긴 것일지 운동시간이 길어서 근육량이 큰 것인지는 정의하기는 어렵습니다. 

 

상관분석에서는 변수 사이의 관계를 표현하고 수치를 보고자 하는 것입니다. 즉, 두 변수의 관계가 어떻고, 얼마나 강한 연결관계를 가지는 가를 수치, 척도로 표현합니다


<회귀분석>

"운동시간이 길기 때문에,  근육량도 늘지않을까?" - 회귀분석

 

"근육량과 운동시간의 인과관계"를 밝혀내고자 할 때는, 회귀분석이 적합합니다. 

운동시간이 길기 때문에 근육량에 주는 영향을 수학적인 모델로 밝혀 낼 수 있을 것입니다.

회귀분석은 주어진 변수가 인과관계를 가지고 었어야합니다.

 

하나 이상의 독립 변수(운동시간)의 변화가 종속 변수(근육량)의 변화를 추정하는 것이 목표입니다.

 

회귀분석은 독립 변수와 종속 변수의 관계를 수학적 모델로 밝혀낸다고 말씀드렸습니다.

그렇기 때문에 회귀분석을 통해 나오는 결과는 "어떠한 수학 식" 이 되고, 일반적인 회귀 분석법인 선형 회귀 분석은 아래와 같은 하나의 직선, 회귀선이라 불리는 수식을 찾는 과정입니다. 

츌처 https://kkokkilkon.tistory.com/77

 

y= ax + b는 독립변수 x와 종속변수 y의 관계를 설명하는 수식이라 볼 수 있고, 이 수식을 통해 주어진 x 값을 통해 y값을 추정할 수 있습니다. 

 

즉, 운동시간과 근육량이 위의 그래프와 같은 관계를 가진다면, 1시간 정도 할 경우 근육량이 어느 정도 늘어날 것인가를 추정해 볼 수 있을 것입니다. 

 

결국 회귀분석 과정은 독립변수 x, 종속변수 y의 데이터가 산점도 그래프처럼 뿌려져 그려질 때, y=ax + b라는 최적의 회귀선을 찾아가는 과정을 말합니다.

 

최적의 회귀선? 두 변수 관계를 가장 잘 설명하는 회귀선!

 

가장 잘 설명하는 회귀선이라는 기준을 찾는 방법은?? 최소 제곱 법!

 

<최소 제곱 법>

최소 제곱 법을 설명하기 위해서는 잔차라는 개념을 먼저 알아야 합니다. 

잔차란 관측값(실측값)의 y와 예측값의 y 간의 차이를 말합니다. 

 

다시, 산점도 그래프로 뿌려진 데이터에서 가장 설명을 잘할 수 있는 회귀선 y = ax + b를 찾는 과정입니다. 

 

이때, a와 b를 어떻게 갱신하느냐에 따라 회귀선이 달리 표현될 것입니다. 

즉, a와 b에 의해 표현된 회귀선이 x, y의 관계를 가장 잘 설명해야하한다 라는 의미가 됩니다. 

 

그래서 a와 b를 임의로 설정한 후 주어진 데이터 x를 넣어보면서 관측값(실측값)  y와 차이가 없는지 계속 알아보면서 차이가 적은 그래프, 즉 가장 실측값에 가깝게 표현되는 회귀선을 찾아가는 방법입니다.

 

이 방법을 "최소 제곱 법"이라고 합니다. 

 

예를 들어 A(1, 4)과 B(2, 3)라는 2개의 점이 있고 회귀 식이 f(x) = y = 2x + 1이라 합니다.

 

A의 관측값은 4이지만, 회귀선에 의해 예측된 값은 f(1)인 3입니다. 이때 A의 잔차는 1입니다. 

B의 관측값은 3이지만, 회귀선에 의해 예측된 값은 f(1)인 5입니다. 이때 B의 잔차는 2입니다. 

 

이때, 잔차의 제곱의 합은 5일 것입니다. 이 값이 가장 최소가 되는 회귀식을 찾아가는 것이 회귀분석의 과정입니다. 

 

출처 https://wyn-associates.com/lr_pr/


<상관분석 vs 회귀분석 비교 차트>

출처 https://ko.gadget-info.com/difference-between-correlation


<내 생각>

상관분석은 결국 두 변수에 대한 관계성을 파악하고, 어느 정도 그 관계성이 강한가를 보는 것이고, 회귀분석은 인과관계에 있는 두 변수가 어떤 변화 양상을 가지는 지를 수학적 모델로 표현하고, 이 수학적 모델을 찾아가는 과정이라 이해가 되었습니다.

인공지능에서 하나하나의 노드(퍼셉트론)가 이러한 회귀분석을 통해 결과를 추출한다는 의미에 대해 더 명확하게 이해할 수 있었습니다. 

 

인공지능의 레이어층들은 엄청난 회귀분석의 연속, 집합체라는 생각이 들었습니다. 

 


<참고 자료>

https://ko.gadget-info.com/difference-between-correlation

https://kkokkilkon.tistory.com/77

https://wyn-associates.com/lr_pr/

 

728x90
반응형

'통계' 카테고리의 다른 글

[통계] 독립 변수란? 종속 변수란?  (0) 2022.02.11
2022-02-11 13:35:19
728x90
반응형

<Introduction>

어떤 일이든 하다 보면, 어느 시점에서 드는 항상 드는 생각이 있습니다.

 

"기본이 정말 중요하구나" 

 

독립변수와 종속변수에 대해 중고등학교 과학 시간에도 익히 들었던 개념입니다. 이 두 변수에 대해서는 통계에 기반한 인공지능을 이해할 때 반드시 숙지해두어야 하는 개념이라 생각하여 정리하게 되었습니다. 

 

<독립변수>


독립변수는 입력값(X)이나 원인으로 고려되는 변수로 설계자, 연구자가 변화시키는 변수를 말합니다. 

 

예를 들어, 근육은 어떻게 하면 키우지? 라고 어느 날 생각했습니다. 

근육이 크려면, 잘먹어야하나?, 운동을 열심히 해야 하나?, 영양제를 잘 챙겨 먹어야 하나?, 세트 간 쉬는 시간을 줄여야 할까? 등등..

근육이 키우기 위한 여러가지 예상되는 행위들이 떠오릅니다.

 

이때, 이러한 예상되는 행위들이 하나하나가 독립변수라고 할 수 있습니다. 원인으로 고려되는 변수들인 것이죠.

 

<종속변수>


종속변수는 출력값(Y)이나 결과로 고려되는 변수로 독립변수에 의해 영향을 받는 변수를 말합니다.

설계자, 연구자가 독립변수의 변화에 따라 어떻게 변하는지 보고자 하는 변수가 되겠습니다. 

 

<독립변수>에서 저는 근육은 어떻게 하면 키우지? 라는 궁금증이 생겼습니다. 

 

그에 대한 독립변수로, 영양, 운동량, 영양제 보충, 세트 간의 휴식시간이라는 독립변수를 떠올렸습니다.

 

이는 결국 근육량 이라는 종속변수가 독립변수에 의해 어떻게 변하는지, 상관관계를 보고 싶었던 겁니다.

 

<독립변수와 종속변수의 관계>


결국 독립변수와 종속변수는 우리(연구자)가 궁금한 문제를 통계적인 모델로 세울 때 사용되는 변수라고 할 수 있습니다. 

이는, 두 변수는 인과 관계에 있다는 것을 정의를 통해 알 수 있고, 두 변수의 관계를 밟혀 내는 것이 우리의 최종적인 목적이라 할 수 있을 겁니다. 

 

결론적으로 독립변수와 종속변수는 인과 관계를 가지고 있습니다.

 


우리의 최종적인 목적은 궁금증 해결, 즉 두 변수간의 관계를 밝혀내야 하는 것이죠. 

 

어떻게?? 밝혀 낼지를 상관관계분석, 회귀분석을 통해 밝혀냅니다.

 

다음 포스트에서 이 두 방법에 대해 작성 하고자 합니다.


 

<독립변수와 종속변수을 부르는 여러 가지 용어>


독립변수 = 설명변수 = 예측변수 = 위험인자 = 공변량(데이터가 연속형 자료일 때) = 요인(데이터가 범주형 자료일 때)

 

종속변수 = 반응변수 = 결과변수 = 표적변수

 

 

<참고 자료>

https://drhongdatanote.tistory.com/14

 

[개념 통계 05] 독립변수와 종속변수는 무엇인가?

안녕하세요. 홍박사입니다. 오늘은 변수와 관련해 마지막 포스팅을 해보려고 합니다. 오늘 다룰 변수는 독립변수와 종속변수입니다. 사실상 독립변수와 종속변수는 중고등학교 과학 시간에도

drhongdatanote.tistory.com

 

https://ko.wikipedia.org/wiki/%EB%8F%85%EB%A6%BD%EB%B3%80%EC%88%98%EC%99%80_%EC%A2%85%EC%86%8D%EB%B3%80%EC%88%98

728x90
반응형

'통계' 카테고리의 다른 글

[통계] 상관분석? 회귀분석?  (1) 2022.02.14