:: ADVANCE ::

[TF-IDF] TF-IDF 본문

Study/Text mining

[TF-IDF] TF-IDF

KSJ14 2015. 4. 20. 00:26
반응형

[TF-IDF] TF-IDF


TF값은 한 문서 내에서 특정 단어가 출현한 빈도수를 의미한다.

이 값을 가중치 모델에 포함시키는 것은, 주어진 단어가 문서 내에서 많이 출현할수록 상대적으로 더 중요하다는 가정을 반영한 것.


실제적으로 활용되는 TF값은 문서 내부의 단어 출현 빈도를 모든 단어의 총 출현 횟수로 나누어 정규화한 형태를 사용한다. 이는 문서의 크기에 따른 TF값의 편중 현상을 방지하기 위함이다.


[참고] TF-IDF의 변형을 이용한 전자뉴스에서의 키워드 추출 기법

      ---> 단일 문서 내의 키워드 추출이 아닌 문서 집합에서의 키워드 추출이기 때문에 정규화를 하는 듯하다.



 






반응형
Comments