Bite Bits/R

AIC, BIC

상영 2019. 12. 21. 01:00

두 개의 서로 다른 선형 회귀 모형의 성능을 비교할 때는 보통 다음과 같은 선택 기준을 사용한다.


조정 결정 계수 (Adjusted determination coefficient)

AIC (Akaike Information Criterion)

BIC (Bayesian Information Criterion)


조정 결정 계수와 함께 많이 쓰이는 모형 비교 기준은 최대 우도에 독립 변수의 갯수에 대한 손실(penalty)분을 반영하는 방법이다. 이를 정보량 규준(information criterion)이라고 하며 손실 가중치의 계산 법에 따라 AIC (Akaike Information Criterion)와 BIC (Bayesian Information Criterion) 두 가지를 사용한다.


AIC는 모형과 데이터의 확률 분포 사이의 Kullback-Leibler 수준을 가장 크게하기 위한 시도에서 나왔다. BIC는 데이터가 exponential family라는 가정하에 주어진 데이터에서 모형의 likelihood를 측정하기 위한 값에서 유도되었다. 둘 다 값이 작을 수록 올바른 모형에 가깝다.







AIC(Akaike Information Criterion), BIC(Bayes Information Criterion)


AIC = -2log(likelihood) + 2p

BIC = -2log(likelihood) + plog(n)

p: 변수의 갯수, n: 데이터 갯수


선형 회귀의 경우 AIC는 nlog(RSS/n) + 2p, BIC는 nlog(RSS/n) +plog(n)이다.

(상기 log는 자연로그이다.) 


변수가 많은 모델이라면(p가 큰) RSS는 작아지게 된다. 결국 AIC, BIC를 최소화 한다는 뜻은 우도(likelihood)를 가장 크게 하는 동시에 변수 갯수는 가장 적은 최적의 모델(parsimonious & explainable)을 의미하게 된다. Bias는 변수를 제거하면서 생기는 오류이고 Variance는 변수가 증가하면서 생기는 오류이다. 상기 AIC와 BIC 식의 좌변을 bias, 우변을 variation으로 부르는 이유이기도 하다. 아래 그림의 변수 갯수에 따른 bias와 variance 관계는 최적 모델 선택을 위한 균형점을 제시한다.




BIC의 경우 변수가 많을 수록 AIC보다 더 페널티를 가하는 성격을 가진다.(BIC의 우변 plog(n)에서 보통 n이 8이상이므로 log(8)>2가 된다. 따라서 AIC 우변 보다 변수 증가에 더 민감하다) 따라서 변수 갯수가 작은 것이 우선 순위라면 AIC보다 BIC를 참고하는게 좋다.



참고 : 

[1]: https://rpago.tistory.com/15 "회귀모델의 변수 선택(Variable Selection) 방법"

[2]: https://datascienceschool.net/view-notebook/bfe4438b46674c68a5ba6598147a5527/ "선형회귀모형 성능비교"

 

'Bite Bits > R' 카테고리의 다른 글

바이올린 그림 vs 박스그림  (0) 2019.12.21
다항 로지스틱 모델  (0) 2019.12.21
How to download YouTube data in R  (0) 2019.11.08
R 기본 연산자 정리  (0) 2019.11.06
[R] R 에서 excel 파일 읽어오기  (0) 2018.02.07