Notice
Recent Posts
Recent Comments
:: ADVANCE ::
[TF-IDF] TF-IDF 본문
반응형
[TF-IDF] TF-IDF
TF값은 한 문서 내에서 특정 단어가 출현한 빈도수를 의미한다.
이 값을 가중치 모델에 포함시키는 것은, 주어진 단어가 문서 내에서 많이 출현할수록 상대적으로 더 중요하다는 가정을 반영한 것.
실제적으로 활용되는 TF값은 문서 내부의 단어 출현 빈도를 모든 단어의 총 출현 횟수로 나누어 정규화한 형태를 사용한다. 이는 문서의 크기에 따른 TF값의 편중 현상을 방지하기 위함이다.
[참고] TF-IDF의 변형을 이용한 전자뉴스에서의 키워드 추출 기법
---> 단일 문서 내의 키워드 추출이 아닌 문서 집합에서의 키워드 추출이기 때문에 정규화를 하는 듯하다.
반응형
Comments