sklearn计算两个向量之间的距离 - 代码天地

sklearn计算两个向量之间的距离

其他 2018-05-26 11:46:25 阅读次数: 0

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import euclidean_distances
from sklearn.feature_extraction.text import TfidfVectorizer
import jieba

def seg_word(sentence):
    """对句子分词"""
    seg_list = jieba.cut(sentence)
    seg_result = []
    for w in seg_list:
        seg_result.append(w)
    return seg_result

doc1='空气质量良轻度污染空气质量指数125首要污染物为细颗粒物'
doc2='美国环境保护署估计空气在室内污染的严重程度可能比室外污染高8倍'
doc3='天然矿泉水是指从地下深处自然涌出的或钻井采集的含有一定量的矿物质微量元素或其他成分'
# 分词
seg1=seg_word(doc1)
seg2=seg_word(doc2)
seg3=seg_word(doc3)
corpus=[]
#将分词结果加入语料库
corpus.append(' '.join(seg1))
corpus.append(' '.join(seg2))
corpus.append(' '.join(seg3))
tfidf_vectorizer = TfidfVectorizer()
tfidf_count = tfidf_vectorizer.fit_transform(corpus).todense()
# 打印所有的词汇，会为每个词进行编号
print(tfidf_vectorizer.vocabulary_)
# 打印每个文档的向量表示形式，索引对应单词的编号，值为单词的tfidf值
print(tfidf_vectorizer.fit_transform(corpus).todense())
for x, y in [[0, 1],[0,2]]:
    # 计算两个向量之间的距离（欧氏距离）
    dist = euclidean_distances(tfidf_count[x], tfidf_count[y])
    print('文档{}与文档{}的距离{}'.format(x, y, dist))

参考：http://blog.csdn.net/xw_classmate/article/details/51178923

猜你喜欢

转载自blog.csdn.net/lom9357bye/article/details/79170511

sklearn计算两个向量之间的距离

python计算两个向量之间的欧氏距离

计算两个城市之间的距离

两个经纬度之间的直线距离计算

计算两个点（经纬度）之间的距离

计算两个经纬度之间的距离

Mysql sql 计算两个坐标之间的距离

Lua 计算两个GPS坐标点之间的距离

JAVA计算两个经纬度之间的距离

计算两个矩阵之间的欧式距离

Android中计算两个地点之间的距离

PHP计算两个坐标之间的距离

【Golang】计算两个地理坐标之间的距离

PHP计算两个经纬度之间的距离

Unity 计算两个碰撞体之间的距离

计算两个经纬度坐标之间的距离

如何简便计算两个空间向量之间的欧拉角

两个向量之间的相似度计算常用方法

两个经纬度点之间计算距离【经纬度距离计算】

【数据挖掘】编程实现任意给定两个相同维度的向量之间的欧氏距离计算函数dist_E(x,y)

两个点之间的距离

两个单词之间的编辑距离

java 输入两个点计算两点之间的距离并输出结果

计算两个经纬度之间的距离单位(m)

百度地图计算两个点之间的距离

sql server 计算两个经纬度点之间的距离

php计算两个经纬度地点之间的距离

几个常用的计算两个概率分布之间距离的方法以及python实现

reactjs中使用高德地图计算两个经纬度之间的距离

采用成员函数和友元函数计算给定两个坐标点之间的距离

今日推荐

周排行

rac环境打PSU补丁ERROR:This patch is not applicable to GI home.

科学活动《离园倒计时》（时间）

Windows 沙箱开发踩坑

secureCRT 改变显示宽度

hdu多校第六场1008 （hdu6641）TDL 暴力

【low向】注册用户时密码强度的判定

__int64

context-params与init-params

JS三个编码函数和net编码System.Web.HttpUtility.UrlEncode比较

springboot通过重写addResourceHandlers拦截请求访问本地资源

每日归档

更多

2024-08-08(0)

2024-08-07(0)

2024-08-06(0)

2024-08-05(0)

2024-08-04(0)

2024-08-03(0)

2024-08-02(0)

2024-08-01(0)

2024-07-31(0)

2024-07-30(0)