TF-IDF 算法研究文档

1. 背景

TF-IDF（Term Frequency-Inverse Document Frequency） 是一种经典的文本特征提取算法，广泛应用于信息检索、文本分类和推荐系统等场景。该算法能够衡量词语在单个文档中的重要性，并有效抑制高频常见词（如“的”“是”等）的干扰，从而更准确地表征文档内容。此外，TF-IDF 在基于大模型的 RAG（Retrieval-Augmented Generation）系统 中也被用于提升检索过程的召回率，帮助更全面地获取相关信息。

2. 算法原理

TF-IDF 通过两个重要指标来度量词语的重要性：

TF（词频，Term Frequency）
词频指某个词在一篇文档中出现的频率。假设有一个文档 \(d\)，词语 \(t\) 在该文档中的出现次数为 \(f(t, d)\)，则该词的 TF 定义为：
\[ TF(t, d) = \frac{f(t, d)}{n(d)} \]
其中，\(n(d)\) 表示文档 \(d\) 中的总词数。
IDF（逆文档频率，Inverse Document Frequency）
IDF 用来衡量一个词语在整个语料库中的重要性。如果一个词语在很多文档中出现，那么它的重要性应被降低。假设语料库中有 \(N\) 篇文档，其中包含词 \(t\) 的文档数为 \(n_t\)。IDF 的定义为：
\[ IDF(t) = \log \frac{N}{1 + n_t} \]
这里加 1 是为了避免分母为 0 的情况。
TF-IDF 计算公式
TF-IDF 将 TF 和 IDF 相乘，得到词语 \(t\) 在文档 \(d\) 中的重要性分数：
\[ TF\text{-}IDF(t, d) = TF(t, d) \times IDF(t) \]

3. 示例

假设我们有如下语料库，共 3 篇文档：
文档 1：机器学习是人工智能的分支
文档 2：机器学习包括深度学习和传统算法
文档 3：深度学习是机器学习的重要领域

词频（TF）计算
对“机器学习”进行计算：
- 文档 1：“机器学习”出现 1 次，总词数 6，TF = 1/6
- 文档 2：“机器学习”出现 1 次，总词数 6，TF = 1/6
- 文档 3：“机器学习”出现 1 次，总词数 7，TF = 1/7
逆文档频率（IDF）计算
在 3 篇文档中，“机器学习”出现在 3 篇，因此：
\[ IDF(\text{机器学习}) = \log \frac{3}{1 + 3} = \log \frac{3}{4} \approx -0.125 \]
TF-IDF 计算
以“机器学习”为例：
- 文档 1：TF-IDF = \(1/6 \times -0.125 = -0.0208\)
- 文档 2：TF-IDF = \(1/6 \times -0.125 = -0.0208\)
- 文档 3：TF-IDF = \(1/7 \times -0.125 \approx -0.0179\)
结果分析
由于“机器学习”在所有文档中均出现，因此其 IDF 值较低，意味着它的辨识度不高。在实践中，诸如“的”“是”等高频词语往往会被 TF-IDF 削弱，从而凸显出更具区分性的词汇。

4. 应用场景

搜索引擎
TF-IDF 可用于根据查询词对文档的重要性进行排序，从而提高搜索结果的相关性。
文本分类
使用 TF-IDF 提取文档的特征向量，输入到机器学习模型（如 SVM、朴素贝叶斯等）进行分类。
推荐系统
在内容推荐中，基于 TF-IDF 计算用户对不同文档的兴趣度，推荐个性化内容。
关键词提取
自动从文本中提取重要关键词，帮助摘要生成或标签推荐。

5. 优缺点

优点：

简单易实现
计算效率高，适合大规模文本处理
能有效衡量词汇在文档中的重要性

缺点：

无法捕捉词语之间的语义关系
对长文档不够鲁棒，容易偏向高频词
静态权重无法适应动态的语料库更新

6. 结论

TF-IDF 作为一种经典的文本分析算法，尽管已经存在多年，但在信息检索等领域依然具有广泛的应用价值。它通过结合词频和逆文档频率，有效地筛选出具有辨识度的词汇。然而，随着深度学习和预训练模型的发展，像 BERT、GPT 等模型逐渐成为文本处理的主流。尽管如此，TF-IDF 由于其简单高效的特点，在某些场景中仍是一个不可替代的工具。

7. 代码实现示例（Python）

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
from sklearn.feature_extraction.text import TfidfVectorizer

# 语料库
corpus = [
    "机器学习 是 人工智能 的 分支",
    "机器学习 包括 深度学习 和 传统算法",
    "深度学习 是 机器学习 的 重要 领域"
]

# 初始化 TF-IDF 向量化器
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(corpus)

# 输出 TF-IDF 权重矩阵
print("词汇表：", vectorizer.get_feature_names_out())
print("TF-IDF 权重矩阵：\n", X.toarray())

输出示例

1
2
3
4
5
6
7
8
词汇表： ['人工智能' '传统算法' '分支' '包括' '机器学习' '深度学习' '重要' '领域']
TF-IDF 权重矩阵：
 [[0.65249088 0.         0.65249088 0.         0.38537163 0.
  0.         0.        ]
 [0.         0.5844829  0.         0.5844829  0.34520502 0.44451431
  0.         0.        ]
 [0.         0.         0.         0.         0.34520502 0.44451431
  0.5844829  0.5844829 ]]

8. 参考文献

Salton, G., & Buckley, C. (1988). Term-weighting approaches in automatic text retrieval. Information Processing & Management, 24(5), 513–523.
Manning, C. D., Raghavan, P., & Schütze, H. (2008). Introduction to Information Retrieval. Cambridge University Press.