Home i.i.d 가정에 관한 고민
Post
Cancel

i.i.d 가정에 관한 고민

저번 스터디 시간에 i.i.d 가정에 관해 의문을 가진 분이 계셨는데, 정확한 질문은 경사 하강법에서 샘플이 independant를 만족하지 않을 수도 있다는 건 알겠지만, identically distributed을 만족하지 않게 될 수가 있느냐는 질문이었습니다. 당시에는 제대로 답변할 만큼 생각이 정리되지 않아 미뤄뒀기에 이제 제가 아는 것과 생각해 본 것을 적어보려 합니다.

1. 확률적 경사 하강법에서 샘플을 섞지 않거나 랜덤하지 않게 선택된다면

우선, 레이블 별로 데이터의 분포가 동일하지 않은 경우가 대부분이므로 그렇다고 전제하고 시작하겠습니다. 이 이야기는 조금 극단적인 상황이긴 합니다만, 샘플들이 레이블 순으로 정렬되어 있다고 생각해 봅시다. 랜덤하지 않게 선택하기로 했으므로, 샘플을 앞에서부터 택하게 된다면 가장 앞에 있는 레이블의 분포를 따르게 되는 것이 자명합니다. 그 레이블을 모두 다 택해서 사용하면 그 다음 레이블의 분포를 따르게 되니, 당연하게도 identically distributed(동일 분포)라 말할 수 없습니다.

2. 샘플을 한 번만 섞는다면

이 경우에는 앞쪽의 샘플들은 반드시 선택되고, 뒷쪽의 샘플들은 반드시 선택되지 않습니다. 따라서, 선택되는 샘플들은 확정적으로 앞쪽 샘플들의 분포를 따릅니다. 아무리 잘 섞었다고 해도 앞쪽 샘플의 분포와 뒷쪽 샘플의 분포를 완전히 같게 만드는 일은 아주 특수한 상황이 아니라면 거의 불가능하다고 생각됩니다. 따라서, 이러한 경우 훈련 세트 내에서는 identically distributed라 하더라도 선택되는 샘플들의 분포가 전체 훈련 세트의 분포에서 편향된 상태이기 때문에 좋은 결과를 얻기는 어려울 것이라고 생각됩니다. 샘플을 랜덤하게 고르거나, 매번 샘플을 섞어 사용하는 이유는 아마 훈련 세트 내에 있는 모든 샘플이 매번 선택될 수 있는 가능성을 만들기 위해서가 아닐까 싶습니다.

3. i.i.d의 필요성

저는 i.i.d가 저희가 사용하는 머신러닝 모델들의 알고리즘에 정당성을 부여하고 있다고 생각합니다. 통계 수업에서 i.i.d를 처음 배웠던 것은 큰 수의 법칙에서였는데, 큰 수의 법칙은 i.i.d를 만족한다는 가정 하에서 모집단이 충분히 클 때 표본평균이 모평균과 거의 동일하다는 개념으로, 몇 개의 표본으로 모집단의 다른 샘플을 예측하는 머신러닝에서 무척 중요한 지표가 되지 않을까 싶습니다. 더불어, 많은 공식들이 i.i.d가 성립한다는 가정 하에 성립됩니다. 지난 시간에 다루었던 최대 우도 추정법만 해도 우도함수의 공식을 유도하는 데 이 가정이 사용되었습니다.

그러므로, 우리가 머신러닝을 할 때에 가능한 한 i.i.d를 만족할 수 있는 방향으로 문제를 풀어나갈 수 있도록 샘플을 랜덤하게 고르는 것이라고 생각합니다.

This post is licensed under CC BY 4.0 by the author.