[요약정리]딥 러닝을 이용한 자연어 처리 입문(Ch5.문서 유사도)


이전 DTM, TF-IDF에서 숫자 행렬을 만들었으니 이제 그걸로 문서들의 유사도를 구해보자.

참고 사이트 : 딥 러닝을 이용한 자연어 처리 입문 에 대한 글을 요약하였다.

Ch05. 문서 유사도(Document Similarity)

1) 코사인 유사도(Cosine Similarity)

  • 유사도 값 -1에서 1사이로, 문서 벡터가 비슷(?)할수록 1에 가깝다
  • 이걸로 영화 추천시스템을 만들수 있다.

2) 여러가지 유사도 기법

  • 유클리드 거리(Euclidean Distance) : 두 점 사이 거리
  • 자카드 유사도(Jaccard Similarity) : 두 문서에 단어수 교집합 / 두 문서 단어수 합집합





© 2018. by statssy

Powered by statssy