본 포스팅은 아래 위키독을 참고하여 작성되었습니다.

https://wikidocs.net/book/2155

Language Model

1. 언어 모델

앞으로나올 단어 예측

2. 통계적 언어모델

alt image

  • 희소 문제(sparsity problem) : 학습데이터에 없는 것

3. N-gram 언어모델

n개의 연속적인 단어 나열을 의미

  • 희소 문제(Sparsity Problem)
  • n을 선택하는 것은 trade-off 문제
    • 희소의 문제(작으면 좋음)와 정확도의 문제(크면 좋음)
    • 5를 넘지 않길 권장
  • 언어 모델의 약점 : 훈련에 사용된 도메인 코퍼스가 무엇이냐에 따라서 성능이 비약적으로 달라지기 때문입니다.

4. 한국어에서의 언어 모델

  1. 한국어는 어순이 중요하지 않다.
  2. 한국어는 교착어이다.
  3. 한국어는 띄어쓰기가 제대로 지켜지지 않는다.

5. 펄플렉서티(Perplexity, PPL)

  • 헷갈리는 정도
  • ‘낮을수록’ 언어 모델의 성능이 좋다.
  • 문장의 길이로 정규화된 문장 확률의 역수

alt image

  • 분기 계수(branching factor)
    • PPL은 선택할 수 있는 가능한 경우의 수를 의미하는 분기계수(branching factor)
    • PPL은 이 언어 모델이 특정 시점에서 평균적으로 몇 개의 선택지를 가지고 고민하고 있는지를 의미합니다.
    • 테스트 데이터 상에서 높은 정확도를 보인다는 것이지, 사람이 직접 느끼기에 좋은 언어 모델이라는 것을 반드시 의미하진 않는다는 점입니다.