1. 나이브 베이즈
이번 포스트에서는 "확률 기반 머신러닝 분류 알고리즘의 대표격인 나이브베이즈 분류 알고리즘" 이 무엇인지 어떤 장단점이 있는지 알아보겠습니다.
2. 나이브 베이즈의 이해
나이브 베이즈 분류 알고리즘은 데이터를 나이브(단순)하게 독립적인 사건으로 가정하고, 이 독립 사건들을 베이즈 이론에 대입시켜 가장 높은 확률의 레이블로 분류를 실행하는 알고리즘입니다. 자세한 내용은 아래 링크 참조!
https://j1w2k3.tistory.com/773
❓ 독립적인 사건으로 가정한다??
독립 사건이란 두 사건 A, B가 있을 때, 서로에게 영향을 주지 않을 경우 사건 A, B는 독립사건이라고 합니다.
확률이론에서 독립적인 사건이란 굉장히 중요합니다.
왜냐하면 "두 사건이 독립 사건이다" → 두 사건의 확률은 "확률의 곱"으로 표현할 수 있습니다.
이로 인해 간단해지는 수식이 굉장히 많습니다.
다시 본론으로 돌아가서, 베이즈 이론이란 무엇 일까요?
베이즈 이론은 간단히 말해서 조건부확률을 말하는데요, 어떤 사건이 발생했을 때 다른 사건이 발생할 확률을 의미합니다.
이 내용이 이해가 안되시면, "주사위의 확률"을 생각해보세요!! 각 시행이 독립이기에 단순한 곱으로 확률을 표현하니깐요!
3. 나이브 베이즈 알고리즘의 학습 적용
나이브 베이즈 이론에 대해 알아보았고, 나이브 베이즈 이론이 어떻게 학습에 사용되는지 간단히 보도록 하겠습니다.
💡 자세한 내용은 아래 링크를 정독하셔도 좋구요! 이 블로그를 보고 제가 이해한걸 간략히 정리했습니다.
https://gomguard.tistory.com/69
나이브 베이즈 분류는 독립 사건을 가정한 베이즈 이론을 통해 , 즉 확률을 구해가면서 가장 높은 확률을 찾는 알고리즘입니다.
가령 아래와 같은 데이터들의 관계 표가 있을 때,
"오늘 날씨가 좋고 바람이 많이 불지않고 기압은 높은데 온도가 낮다면 오늘은 비가 올 것인가 안 올 것인가"
이 명제에 대한 결과를 도출하는 모델을 만든다고 가정해봅시다.
베이즈이론의 공식에 맞추어 "조건부 확률" 을 계산해 내야합니다. (중략)
위와 같이 확률적으로 찾아가는 모델을 만드는 것이 머신러닝에서의 나이브 베이즈 알고리즘으로 이해 할 수 있습니다. (예시는 연속적인 데이터네요!)
4. 나이브 베이즈 알고리즘의 장단점
장점
- 모든 데이터의 특징이 독립적인 사건이라는 나이브 가정에도 불구하고 실전에서 높은 정확도를 보이며, 문서 분류 및 스팸 메일 분류에 유리
- 나이브 가정에 의해 계산 속도가 상대적으로 빠
점- 모든 데이터의 특징을 독립적인 사건이라고 분류하기 때문에 다른 분류 모델에 따라 제약이 크다.
'AI Study' 카테고리의 다른 글
[AI Study] 오토인코더 (autoencoders)란? (0) | 2021.07.16 |
---|---|
[AI Study] Confusion Matrix를 통한 모델 성능 평가하기 (0) | 2021.07.06 |
[AI Study] ImageDataGenerator 사용하여 CIFAR-10 분류하기 (0) | 2021.06.22 |
[머신러닝] 의사결정 트리 (0) | 2021.04.30 |
[머신러닝] 서포트 벡터 머신(SVM) (0) | 2021.04.29 |