TF-IDF(Term Frequency-Inverse Document Frequency)是一种用于信息检索和文本挖掘的常用算法。它用于衡量一个词在文档集合中的重要性。
算法的基本思想是:如果一个词在一个文档中出现频率高,但在整个文档集合中出现频率低,那么这个词可能对该文档具有较高的重要性。TF-IDF通过考虑一个词的词频(TF)和逆文档频率(IDF)来计算词的权重。
具体来说,TF(词频)表示一个词在文档中出现的频率,可以通过以下公式计算:
TF(t,d)=词t在文档d中出现的次数/文档d中出现的次数
IDF(逆文档频率)表示一个词在整个文档集合中的重要性,可以通过以下公式计算:
IDF(t,D)=log(包含词t的文档数+1文档集合D的总文档数)
最终,TF-IDF的计算公式为:
TF-IDF(t,d,D)=TF(t,d)×IDF(t,D)
TF-IDF算法的输出是每个词在每个文档中的权重,这些权重可用于进行文本相似度计算、文档检索等任务。TF-IDF广泛应用于自然语言处理领域,特别是在文本挖掘、信息检索和文本分类等任务中。