TF-IDF(Term Frequency & Inverse Document Frequency),是一种用于信息检索与数据挖掘的常用加权技术。它的主要思想是:如果某个词或短语在一篇文章中出现的频率(term frequency)高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
tfi,j=ni,j∑knk,jidfi=log|D||{j:ti∈dj}|
- IF 定义式的:
- j:第 j 篇文章(文章编号);
- i:某个待考察的单词(第 i 个单词,单词在文章中的编号);
- k:第 j 篇文章的全部单词(文章中的全部单词);
- idf 定义式:
- j:文章编号;
- i:待考察的单词编号;
- |⋅|:表示集合的大小;