DSSM线上预测速度优化案例 - 代码天地

DSSM线上预测速度优化案例

其他 2019-10-28 10:50:02 阅读次数: 0

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接： https://blog.csdn.net/smartcat2010/article/details/88877960

–输入：1个query和100个Doc-title

•query经分词后的term

•每个文档的title经分词后的term

–输出：

•每个文档的title和query的特征向量四个相似度

–DNN 输入层相似度

–DNN前馈输出后相似度

–CNN输入层相似度

–CNN前馈输出后相似度

通过每一步的计算量分析（也可以用Visual Profiler), 得到：

1. CNN卷积层最耗时；

2. Word-vector从Host到Device的copy耗时大；

1. CNN卷积层优化：

因为卷积核矩阵固定，word-vector词典固定，所以每个word-vector可以事先和卷积矩阵计算好，存储起来；

存储量原来:N*100；存储量之后：N*728*3 (N是词个数，100是词向量维度，728是卷积核个数，3个window-size)

词典增大24倍，GPU放不下，只好放到host主存；

此举：QPS800==>QPS1250

2. DNN word-vector copy优化：

把词表放到GPU，CPU端维护"offset[词id]=词在显存中的offset"的数组，把offset的mini-batch发给显存，显存上直接用GPU来Max-pooling即可；

此举：QPS1250==>QPS1400

3. CPU中的CNN卷积计算优化：

AVX2, 每个指令8个float运算；

此举：QPS1400==>QPS1600

4. 余弦相似度计算优化：

优化之前：用thrust库计算q^2, t^2, q*t, 这3个向量，然后用这个矩阵乘单位向量实现加和，最后传到host上由CPU计算余弦相似度；

分析：thurst读global-memory 4次，写3次；cuBLAS读3次写3次；

优化：手写kernel, 读2次到shared-memory，计算结果折半法reduce，直接在GPU上算完余弦相似度，写回global-memory；

此举：QPS1600==>QPS1700

猜你喜欢

转载自blog.csdn.net/smartcat2010/article/details/88877960

DSSM线上预测速度优化案例

加快tensorflow模型预测速度

Dlib 人脸Landmark检测速度优化

NLP（十八）利用ALBERT提升模型预测速度的一次尝试

MySQL性能优化浅析及线上案例

线上业务优化之案例实战

Android性能优化案例（1）启动速度优化

MySQL慢查询优化（线上案例调优）

扩散模型相关论文阅读，扩散模型和知识蒸馏的结合提升预测速度：Progressive Distillation for Fast Sampling of Diffusion Models

opencv优化算法,提高速度的案例

建议使用这些方法来优化Mac，运行速度直线上升

python opencv车辆测速视频汽车速度检测入侵检测测速

使用图片加载速度，编写一个测速插件

peleenet与yolov3-tiny目标检测速度对比

网站测速服务查看自己网站在全球的打开速度

vultr测速看看vultr哪个地区节点速度快

YOLO杀疯了！目标检测速度与精度的最优组合

如何通过向量化操作提升策略回测速度？

线上遇到的慢查询的案例，MySQL慢查询到底该如何“优化”？

线上kudu集群优化

DSSM简介

DSSM笔记

深度学习实战案例：构建基于 DSSM 双塔模型的电影推荐系统

MATLAB算法实战应用案例精讲-【深度学习】推荐系统模型DSSM&DeepFM

速度优化：重新认识速度优化

Android面试-Android性能优化和内存优化、APP启动速度一线大厂的实战案例解析

MongoDB线上事故案例分享

线上Slave报1062的案例

Tensorflow房价预测案例

Linux的hdparm工具参数详解：硬盘检查、测速、设定、优化

今日推荐

周排行

成为C++高手之宏与枚举

在CAD二次开发中使用进度条

Js插件ECharts，HighCharts学习网址整理

Celery提交任务出错(on windows.)

cephfs内核客户端性能追踪

thinkphp中PHPExcel用法

EntityFramework动态组合多排序字段

汇编语言（八）实验9 根据材料编程

安装ubuntu后必须做的事情（对我而言）

JS函数式编程

每日归档

更多

2024-10-22(0)

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)