Python中可以使用gensim库来实现关键词的相关性判定。具体步骤如下:
- 导入gensim库
import gensim
- 准备语料库
语料库可以是一个文本文档,或者是一个文件夹下的多个文本文档。如果是一个文件夹,可以使用以下代码将文件夹中的所有文件合并为一个字符串:
import os
files = os.listdir('corpus') # 'corpus'为文件夹名
corpus = ''
for file in files:
with open('corpus/'+file, 'r', encoding='utf-8') as f:
corpus += f.read()
- 对语料库进行分词
可以使用jieba库对语料库进行分词。具体步骤如下:
import jieba
seg_corpus = jieba.cut(corpus)
- 基于分词后的语料库建立词向量模型
可以使用gensim库的Word2Vec类建立词向量模型。具体步骤如下:
model = gensim.models.Word2Vec(seg_corpus, min_count=1)
其中,min_count参数指定了在语料库中至少出现几次的单词才会被纳入模型中。
- 使用模型计算关键词之间的相似度
可以使用gensim库的similarity()函数计算两个单词之间的相似度,也可以使用most_similar()函数找到与一个单词最相似的若干个单词。例如:
model.similarity('关键词1', '关键词2')
model.most_similar('关键词')
注意,这里的关键词需要先进行分词。
- 找到与某一个关键词最相关的若干个关键词
可以使用most_similar()函数找到与一个关键词最相关的若干个关键词。例如:
model.most_similar('关键词', topn=10)
其中,topn参数指定了需要找到多少个相关词。
