퐈니썬's LIfe - 잘 실패하자 RSS 태그 관리 글쓰기 방명록
독립사건 (1)
2021-06-22 16:43:48
728x90
반응형

1. 나이브 베이즈

이번 포스트에서는 "확률 기반 머신러닝 분류 알고리즘의 대표격인 나이브베이즈 분류 알고리즘" 이 무엇인지 어떤 장단점이 있는지 알아보겠습니다. 

 

2. 나이브 베이즈의 이해 

나이브 베이즈 분류 알고리즘은 데이터를 나이브(단순)하게 독립적인 사건으로 가정하고, 이 독립 사건들을 베이즈 이론에 대입시켜 가장 높은 확률의 레이블로 분류를 실행하는 알고리즘입니다. 자세한 내용은 아래 링크 참조!

 

https://j1w2k3.tistory.com/773

 

[확률과 통계 13탄] 독립사건과 종속사건

독립사건과 종속사건은 내용은 어렵지 않은데...의외로 문제로 나오면 당황하게 만드는 경우가 있습니다. 특히 참,거짓과 관련된 문제로 많이 출제가 되는데 이번 시간에는 독립사건과 종속사

j1w2k3.tistory.com

 

❓ 독립적인 사건으로 가정한다??

 

독립 사건이란 두 사건 A, B가 있을 때, 서로에게 영향을 주지 않을 경우 사건 A, B는 독립사건이라고 합니다.

확률이론에서 독립적인 사건이란 굉장히 중요합니다.

왜냐하면 "두 사건이 독립 사건이다" → 두 사건의 확률은 "확률의 곱"으로 표현할 수 있습니다.

이로 인해 간단해지는 수식이 굉장히 많습니다.

 

다시 본론으로 돌아가서, 베이즈 이론이란 무엇 일까요?

 

베이즈 이론은 간단히 말해서 조건부확률을 말하는데요, 어떤 사건이 발생했을 때 다른 사건이 발생할 확률을 의미합니다.

 

독립사건 : 출처: 위키백과

이 내용이 이해가 안되시면, "주사위의 확률"을 생각해보세요!! 각 시행이 독립이기에 단순한 곱으로 확률을 표현하니깐요!

 

 

3. 나이브 베이즈 알고리즘의 학습 적용

나이브 베이즈 이론에 대해 알아보았고, 나이브 베이즈 이론이 어떻게 학습에 사용되는지 간단히 보도록 하겠습니다.

 

💡 자세한 내용은 아래 링크를 정독하셔도 좋구요! 이 블로그를 보고 제가 이해한걸 간략히 정리했습니다. 

 

https://gomguard.tistory.com/69

 

[머신러닝] 나이브 베이즈 (Naive Bayes)

지도학습 알고리즘 지도학습 관련 알고리즘들로는 최근접 이웃 (Nearest Neighbor) 나이브 베이즈 (Naive Bayes) 의사결정 트리 (Decision Trees) 분류 규칙 학습자 (Classification Rule Learners) 선형 회귀 (..

gomguard.tistory.com

나이브 베이즈 분류는 독립 사건을 가정한 베이즈 이론을 통해 , 즉 확률을 구해가면서 가장 높은 확률을 찾는 알고리즘입니다.

 

가령 아래와 같은 데이터들의 관계 표가 있을 때,

 

"오늘 날씨가 좋고 바람이 많이 불지않고 기압은 높은데 온도가 낮다면 오늘은 비가 올 것인가 안 올 것인가"

 

이 명제에 대한 결과를 도출하는 모델을 만든다고 가정해봅시다.

 

주어진 학습 데이터라고 보면되죠, 출처: https://gomguard.tistory.com/69

 

베이즈이론의 공식에 맞추어 "조건부 확률" 을 계산해 내야합니다. (중략)

 

주어진 데이터를 나이브베이즈 공식에 대입하여 확률 계산 과정

 

위와 같이 확률적으로 찾아가는 모델을 만드는 것이 머신러닝에서의 나이브 베이즈 알고리즘으로 이해 할 수 있습니다. (예시는 연속적인 데이터네요!)

 

4. 나이브 베이즈 알고리즘의 장단점 

장점

  1. 모든 데이터의 특징이 독립적인 사건이라는 나이브 가정에도 불구하고 실전에서 높은 정확도를 보이며, 문서 분류 및 스팸 메일 분류에 유리
  2. 나이브 가정에 의해 계산 속도가 상대적으로 빠
    1. 모든 데이터의 특징을 독립적인 사건이라고 분류하기 때문에 다른 분류 모델에 따라 제약이 크다.
728x90
반응형