用你的手机/电脑运行文生图方案

10月26日,北京站源创会,聊聊高性能计算与大模型推理 随着ChatGPT和Stable Diffusion的发布,最近一两年,生成式AI已经火爆全球,已然成为移动互联网后一个重要的“风口”。就图片/视频生成领域来说,Stable Diffusion模型发挥着极其重要的作用。由于Stable Diffusion模型参数量是10亿参数的大模型,通常业界都是运行部署在显卡上。 但是随着量化、剪枝等模型压缩技术的进步,以及手机等终端设备的算力、带宽、内存持续增大。使得大模型在终端设备部署也成为的可
分类: 其他 发布时间: 10-25 18:43 阅读次数: 0

动态量化:大模型在端侧CPU快速推理方案

10月26日,北京站源创会,聊聊高性能计算与大模型推理 作为一款高性能的推理引擎框架,MNN高度关注Transformer模型在移动端的部署并持续探索优化大模型在端侧的推理方案。本文介绍权重量化的模型在MNN CPU后端的推理方案:动态量化。动态量化指在运行时对浮点型feature map数据进行8bit量化,然后与8bit/4bit的权重数据做矩阵乘法并将结果反量化为浮点类型输出。 虽然动态量化方案设计的初衷是在移动端高效地推理LLM模型,但方案本身适用于所有模型的各个推理场景,例如语音识别
分类: 其他 发布时间: 10-25 18:42 阅读次数: 0

从DDD视角探讨代码复用的成本及效益

10月26日,北京站源创会,聊聊高性能计算与大模型推理 刚工作时,代码写得不太好,师兄每次 CR 代码,总是会指着屏幕里的一坨代码说 “把它抽成一个类或函数”;“为什么呢?写在一起不是挺好的吗?” 我反问道;师兄老道地回答 “为了方便复用”;我仿佛若有所得,回到工位上把那些很长的代码全部抽象成了类和函数,感觉今天又有所成长。 但是随着工作经验的增加,我对此又产生了困惑。随着业务发展得越来越复杂,我当初写的那个类被大量复用,为了适应不同的场景,里面充满了 if...else...;最能代表复用的
分类: 其他 发布时间: 10-25 18:41 阅读次数: 0

深入RAG:知识密集型NLP任务的解决方案

10月26日,北京站源创会,聊聊高性能计算与大模型推理 在当今知识密集型任务日益增多的时代,如何有效地利用外部知识来增强语言模型的生成能力成为了一个重要的研究方向。RAG技术应运而生,通过从外部记忆源中检索相关信息,RAG不仅提高了模型生成的精准性和相关性,还解决了大型语言模型在数据隐私、实时数据处理和幻觉问题等方面的局限。本文将详细介绍RAG的工作原理、应用场景、限制及挑战,帮助读者更好地理解和应用这一前沿技术。 什么是RAG? RAG(Retrieval-Augmented Generat
分类: 其他 发布时间: 10-25 18:41 阅读次数: 0

基于MySQL内核的SQL限流设计与实现|得物技术

10月26日,北京站源创会,聊聊高性能计算与大模型推理 一、引言 编写目的 本文详细描述了SQL限流特性的需求设计方案以及使用方式,开发、测试人员可根据本文实现功能的开发、测试,DBA可根据本文合理使用SQL限流功能。 需求概述 生产环境中可能出现由于业务量增长过快或者慢SQL等原因导致CPU使用率打满,当CPU打满时,会影响所有依赖该数据库实例的业务,因此需要有手段限制影响CPU的业务执行,保证其他核心业务不受影响。 SQL限流的目标是在出现CPU使用率打满影响所有业务时,通过限制非核心业务
分类: 其他 发布时间: 10-25 18:40 阅读次数: 0

实战从零开始实现Raft|得物技术

10月26日,北京站源创会,聊聊高性能计算与大模型推理 一、前言 Raft算法是一种分布式一致性算法,由Diego Ongaro和John Ousterhout在2013年提出。它主要用于分布式系统中,保证系统中的数据在多个节点间保持一致性。 Raft算法被广泛应用于众多分布式系统中,尤其是在需要强一致性保证的场景中,例如: 分布式存储系统:如ETCD、Consul等键值存储系统,它们利用Raft算法来保证数据的强一致性和高可用性。 分布式数据库:一些分布式数据库管理系统(DBMS),如Coc
分类: 其他 发布时间: 10-25 18:40 阅读次数: 0

轻量级的灰度&配置平台|得物技术

10月26日,北京站源创会,聊聊高性能计算与大模型推理 一、前言 随着近几年得物的业务和技术的快速发展,我们不管是在面向C端场景还是B端供应链;业务版本的迭代更新,技术架构的不断升级;不管是业务稳定性还是架构稳定性,业务灰度的能力对我们来说都是一项重要的技术保障,越来越受到我们业务研发的关注。然而,传统的灰度发布服务往往过于定制化,缺乏灵活性和通用性,无法满足不断变化的业务需求,往往灰度的场景可能通过代码硬编码或者简单的配置中心配置。在这样的背景下,本文将介绍一种全新的、轻量级的灰度平台,它将
分类: 其他 发布时间: 10-25 18:39 阅读次数: 0

得物Flink内核探索实践

10月26日,北京站源创会,聊聊高性能计算与大模型推理 一、前言 随着大数据技术的飞速发展,实时处理能力变得越来越重要。在众多实时处理框架中,Apache Flink以其强大的流处理能力和丰富的功能集,受到了广泛关注和应用。在实时业务日益增长的趋势下,这促使我们深入探索Flink的内核,以更好地保障Flink任务的维护。本次分享将重点介绍得物在Flink内核方面的探索与实践,探讨如何通过深度优化和定制,实现更加高效和稳定的数据处理能力。 二、读者收益 通过阅读本次分享,读者将获得以下收益: 深
分类: 其他 发布时间: 10-25 18:38 阅读次数: 0

得物App白屏优化系列|网络篇

10月26日,北京站源创会,聊聊高性能计算与大模型推理 一、背景 图片加载作为重中之重的App体验指标,端侧的白屏问题则是其中最为严重的问题之一。想象一下如果你在浏览交易商品、社区帖子等核心场景下,图片无法完成加载是多么糟糕的体验。 网络作为图片资源加载的最主要来源途径,如果不能够快速的响应请求,那对上层图片库而言,就是巧妇难为无米之炊了。 而且,通过线上白屏问题归因,我们看到网络问题导致比例最高,占比达81.97%。除去常见的弱网/无网等问题外,还有很多各种各样的网络环境问题我们是可以进行优
分类: 其他 发布时间: 10-25 18:38 阅读次数: 0

报名|质量技术&AI提效专题分享-得物技术沙龙

10月26日,北京站源创会,聊聊高性能计算与大模型推理 微软开源基于 Rust 的 OpenHCL 字节跳动商业化团队模型训练被“投毒”,内部人士称未影响豆包大模型 华为正式发布原生鸿蒙系统 OpenJDK 新提案:将 JDK 大小减少约 25% Node.js 23 正式发布,不再支持 32 位 Windows 系统 Linux 大规模移除疑似俄开发者,开源药丸? QUIC 在高速网络下不够快 RustDesk 远程桌面 Web 客户端 V2 预览 前端开发框架 Svelte 5 发布,历史
分类: 其他 发布时间: 10-25 18:37 阅读次数: 0

得物App白屏优化系列|归因篇

10月26日,北京站源创会,聊聊高性能计算与大模型推理 一、前言 本系列前面两篇文章已经分别在图片库和网络库的角度介绍了诸多白屏问题的定位和解决方案,但都是相对独立的问题,并且像OSCP,CDN节点异常之类的第三方问题无法彻底根治,因此为了长治白屏并发掘更多问题,就需要一套相对完善的白屏检测+问题归因体系。 本文将介绍从用户视角出发的白屏检测方案以及线上白屏问题的大致归因思路。 二、白屏归因平台概览 三、客户端 检测思路 直接将白屏检测写到图片库里似乎是比较合适的方案,但是基础库的改动也可能出
分类: 其他 发布时间: 10-25 18:36 阅读次数: 0

说说唯一ID与CAS|得物技术

10月26日,北京站源创会,聊聊高性能计算与大模型推理 一、从数据的唯一标识开讲 数据区分与标识表现 数据和算法组成了我们现有的应用软件,当然互联网应用也不例外。为了区分应用系统收集和运行所必要的这些数据,我们通过各种方法,来组织其存储形式,方便其为我们所用。从数据结构、文件、到专业数据库等工具,无一不是方便数据存储和访问的利器。 但无论如何,我们对数据存储,都要通过唯一的标识来对其进行区分,以确保我们根据这个标识来定位到它。 在不同的系统中,这个标识的表现也各不相同: 在编程语言中,它表现为
分类: 其他 发布时间: 10-25 18:36 阅读次数: 0

客服测试流水线编排设计思路和准入准出应用|得物技术

10月26日,北京站源创会,聊聊高性能计算与大模型推理 一、前言 测试流水线经过多个迭代准入准出的实践应用,基本完成了线上化、标准化以及流程自动化提升,目前客服域已实现100%的应用通过测试流水线准出完成测试。当前在商家和ERP推广,大家一起来了解下测试准出流水线是什么,解决什么问题,又需要如何接入和线上化应用。 二、测试流水线的概念 在DevOps转型中,更多的会提到CI/CD(Continuous Integration / Continuous Delivery,即持续集成和持续交付),
分类: 其他 发布时间: 10-25 18:35 阅读次数: 0

Tritonserver 在得物的最佳实践

10月26日,北京站源创会,聊聊高性能计算与大模型推理 一、Tritonserver 介绍 Tritonserver是Nvidia推出的基于GPU和CPU的在线推理服务解决方案,因其具有高性能的并发处理和支持几乎所有主流机器学习框架模型的特点,是目前云端的GPU服务高效部署的主流方案。 Tritonserver的部署是以模型仓库(Model Repository)的形式体现的,即需要模型文件和配置文件,且按一定的格式放置如下,根目录下每个模型有各自的文件夹。 ./ └── my_model_r
分类: 其他 发布时间: 10-25 18:34 阅读次数: 0

增长在流量规则巡检的探索实践|得物技术

10月26日,北京站源创会,聊聊高性能计算与大模型推理 一、背景 目前我们为了保障生产稳定性,主要运用了如下手段:线上异常日志监控(异常场景抛出error关键词,无法对不符合预定标准的数据进行过滤,误报较高)、数据核对(针对底层数据,缺乏接口维度的数据核对)、前端巡检(重点巡检前端页面的基本展示&交互,但无法精确到数据层面)、流量回放(只在发布前回放只读接口,缺乏写接口的校验,且误报较高)、接口自动化(只能作用于当前自动化产生的流量,且无法在生产环境执行)等。 流量回放天然优势是可以采集到全环
分类: 其他 发布时间: 10-25 18:33 阅读次数: 0

得物自建 Redis 无人值守资源均衡调度设计与实现

10月26日,北京站源创会,聊聊高性能计算与大模型推理 文 / Miro-得物技术 `目录: 一、为什么要做资源均衡调度 二、为什么要做自动化资源均衡调度 三、如何合理选择迁移节点 四、如何保障迁移过程中可靠性 添加从节点 检查同步数据正常 执行主从切换 检查主从切换正常 删除待迁移节点 消息通知 五、迁移任务管理展示 六、总结` 一、为什么要做资源均衡调度 得物 Redis 管理平台目前管理着几百个集群、数万个 Redis-server 节点、几千台 server 宿主机,而且通过精细化运维
分类: 其他 发布时间: 10-25 18:33 阅读次数: 0

性能剖析利器-Conan|得物技术

10月26日,北京站源创会,聊聊高性能计算与大模型推理 原创:得物技术 - 仁慈的狮子 2024年09月30日 18:30 上海 目录 一、背景 1. 局限性 2. 向前一步 二、原理剖析 1. 系统架构 2. 工作模式 3. reporter 三、稳定性验证 四、案例分析 五、写在最后 一、背景 线上问题的定位与优化是程序员进阶的必经之路,常见的问题定位手段有日志排查、分布式链路追踪和性能分析等,其中日志排查主要用来定位业务逻辑问题,分布式链路主要用来定位请求链路中具体是哪个环节出了问题,而
分类: 其他 发布时间: 10-25 18:32 阅读次数: 0

CPython逆向实战分析

10月26日,北京站源创会,聊聊高性能计算与大模型推理 Python代码转换为C代码的时候,将会大大增加框架代码量。 基础教程 | Cython 官方文档中文版(gitbooks.io) 1、正向py->c 先有正向,再有逆向 pip install cython 写一个简单的pyx文件 .pyx 文件是由 Cython 编程语言 "编写" 而成的 Python 扩展模块源代码文件 print("hello") 写一个 setup.py文件 from distutils.core import
分类: 移动开发 发布时间: 10-25 18:31 阅读次数: 0

如何挑选适合团队的待办事项提醒工具?

10月26日,北京站源创会,聊聊高性能计算与大模型推理 当今社会,工作节奏越来越快,经常会出现多项工作同步进行的情况,使用待办事项提醒工具便可以帮助用户管理日常任务,以此提高工作效率和时间管理能力。这类工具通常具备任务创建、任务分配、时间提醒、进度跟踪等功能。随着数字化办公的普及,待办事项提醒工具已经成为团队协作和个人时间管理中不可或缺的高效办公利器。 待办事项提醒工具------板栗看板 板栗看板是一款于2019年上线的待办事项提醒软件,它以看板式的任务管理方式受到许多团队的青睐。板栗看板的
分类: 移动开发 发布时间: 10-25 18:31 阅读次数: 0

iPaaS 平台在企业中的定位及集成方式

10月26日,北京站源创会,聊聊高性能计算与大模型推理 iPaaS 平台在企业中的定位是作为 IT 架构的基础底座能力之一,是构建业务中台的关键组件,同时也为数据中台提供支撑服务。它在企业中承担着连接、集成和管理不同系统、应用程序和数据的重要角色,为企业的数字化转型和业务创新提供了关键的支持和基础设施。 iPaaS(集成平台即服务)平台在企业中的定位主要体现在以下几个方面: 1.IT 架构的基础底座能力:iPaaS 平台作为企业的集成平台,扮演着连接和协调各个应用程序、系统和服务的角色。它提供
分类: 移动开发 发布时间: 10-25 18:29 阅读次数: 0