Ch03. 언어 모델 (Language Model)

1) 언어 모델(Language Model)이란?

카운트 기반 : P(is An adorable little boy)=count(An adorable little boy is) / count(An adorable little boy)
카운트 기반 접근 한계 :
- 분자가 0이면 확률 0, 분모가 0이면 확률 정의되지않음
- 데이터가 방대하지 않은 경우 저런 문장이 없어서 희소 문제(sparsity problem)이 생긴다.

확률을 계산하고 싶은 문장이 길어질수록 코퍼스에서 그 문장이 존재하지않을 가능성 높음
단어들을 줄이면 카운트를 할수 있음
N-gram : N개의 연속적인 단어 나열
N-gram Language Model의 한계 :
- 희소 문제
- n을 선택하는 것은 trade-off 문제 : n이 커질수록 모델사이즈가 커진다. 희소성이 심각해진다. n이 작아지면 코퍼스에서 카운트는 잘 되겠지만 근사의 정확도가 떨어진다.

모델 A,B 모델 성능 비교하려면?
- 일일히 모델을 실제 작업하는 거는 공수가 많이 듦(외부평가)
- Perplexity : 모델 내에서 자신의 성능을 수치화하여 결과를 내놓는 게 펄플레서티이다(내부평가)
Perplexity(PPL) : 당혹이라는 뜻으로 헷갈리는 정도라고 보면 되겠다(마치 엔트로피랑 비슷) ※ PPL= exp(Cross Entropy) 참고자료
PPL이 낮을수록 성능이 좋다. (=헷갈리는게 낮을수록 좋다.)
분기계수라고도 하는 예를들어 주사위 나오는 수가 1/6이니까 분기계수는 6