Notice
Recent Posts
Recent Comments
목록Study/Text mining (1)
:: ADVANCE ::
[TF-IDF] TF-IDF
[TF-IDF] TF-IDF TF값은 한 문서 내에서 특정 단어가 출현한 빈도수를 의미한다.이 값을 가중치 모델에 포함시키는 것은, 주어진 단어가 문서 내에서 많이 출현할수록 상대적으로 더 중요하다는 가정을 반영한 것. 실제적으로 활용되는 TF값은 문서 내부의 단어 출현 빈도를 모든 단어의 총 출현 횟수로 나누어 정규화한 형태를 사용한다. 이는 문서의 크기에 따른 TF값의 편중 현상을 방지하기 위함이다. [참고] TF-IDF의 변형을 이용한 전자뉴스에서의 키워드 추출 기법 ---> 단일 문서 내의 키워드 추출이 아닌 문서 집합에서의 키워드 추출이기 때문에 정규화를 하는 듯하다.
Study/Text mining
2015. 4. 20. 00:26