[요약정리]딥 러닝을 이용한 자연어 처리 입문(Ch5.문서 유사도)
이전 DTM, TF-IDF에서 숫자 행렬을 만들었으니 이제 그걸로 문서들의 유사도를 구해보자.
참고 사이트 : 딥 러닝을 이용한 자연어 처리 입문 에 대한 글을 요약하였다.
Ch05. 문서 유사도(Document Similarity)
1) 코사인 유사도(Cosine Similarity)
- 유사도 값 -1에서 1사이로, 문서 벡터가 비슷(?)할수록 1에 가깝다
- 이걸로 영화 추천시스템을 만들수 있다.
2) 여러가지 유사도 기법
- 유클리드 거리(Euclidean Distance) : 두 점 사이 거리
- 자카드 유사도(Jaccard Similarity) : 두 문서에 단어수 교집합 / 두 문서 단어수 합집합