成都站源创会落幕,10 月苏州精彩继续!

9 月 23 日,开源中国联合腾讯云 TVP 主办的第 95 期 OSC 源创会暨 Techo TVP 技术沙龙在成都圆满举行。本次活动以“数据与前沿技术”为主题,聚集 5 位数据领域的技术大佬,呈现了业界围绕数据存储、分析,数据挖掘等所做的技术创新,共同探讨数据技术的未来发展。
先上大合照,编程从娃娃抓起
活动延续了源创会的优良传统——披萨环节
玩得开心!
捕捉到好多认真学习、记录的小伙伴们!
不会吧,现场不会有人没中奖吧?!
 
看完精彩的现场照片,下面进入主题演讲回顾环节。
 
腾讯云向量数据库产品负责人邹鹏发表了《向量数据库在大模型场景的应用实践》主题演讲。邹鹏介绍,大模型拉开了通用人工智能的序幕,接下来一个较大的改变将是应用范式上的变化。当下人与计算机的交流方式还是代码,但下一个十年的交互方式或将是自然语言、音视频,甚至是肢体动作,而“大模型+向量数据库+提示词”正在成为当今 AI 应用的标准开发范式。
 
大模型学习知识有 3 个途径:预训练、微调、知识库。相较而言,知识库是大模型应用的成本最优解。大模型应用主要是两个方向,一个是 RAG,即搜索增强的生成,可以简单理解为知识问答的场景,另一个方向是 Auto Agent,可以处理一些连续的任务,调用企业接口。其中现在主要在做的 RAG 场景是一个典型的开发范式,比如企业要做内部的知识库、智能客服问答等等,便需要将企业现有的知识素材接入到大模型中,第一步将素材做文本拆分;由于文本无法直接计算,第二步便是转向量;第三步是通过向量数据库建向量索引,实现知识的可查找,完成知识库的建设。应用端则会有一个大模型的 APP,可以查询知识库,结合 Prompt 实现大模型的调用。
 
以 RAG 调优路径为例,邹鹏介绍了其中一些关键的技术节点,以提升向量数据搜索的准确度。首先在文本解析环节,Markdown 格式的文本是首选;Embedding 层决定检索的效果,维度越高效果越好,可以尽可能选取高维度的如 1536、1024 维的;Index 层,初期做 AI 应用时,一个简单粗暴的方式是避免有任何丢失;Query 层可以加入 Query 增强,保证大部分的提问都能得到高质量的回答;Prompt 层,注重角色、背景、目的这三个关键信息;LLM 层,行业模型将是未来的趋势,可以使用开放模型预训练。
 
最后,邹鹏介绍了腾讯云向量数据库 Tencent Cloud VectorDB。Tencent Cloud VectorDB 于今年 8 月 1 日上线,目前正处在邀请测试阶段,有需要的企业可以到官网申请免费开通,这款向量数据库源自腾讯集团积累多年的分布式向量检索引擎 OLAMA,提供高吞吐、低延迟、低成本、高可用、弹性扩展的全托管向量检索数据库服务。
非凸科技成都分公司研发总监赵海峰发表了《量化交易的数据驱动》主题演讲。赵海峰介绍,量化交易主要通过行情数据进行交易决策,那么如何通过券商获取行情,进行行情低延迟接收的软硬件方案呢?
 
交易所发布的行情会经过券商的处理再转发给交易机构,其转发途径主要有 TCP、UDP、FPGA 加速的 UDP 和 ASIC 加速的 UDP 行情等。然而,券商通过 TCP 连接将处理后的行情数据转发给交易机构,会存在延迟大、应用层丢包(非 TCP 协议丢包)、发送端负载大等问题。为了解决这些问题,券商又通过 UDP 组播或广播的方式,将处理后的行情或交易所原始行情转发给交易机构。为了达到极致的低延迟,券商端将会通过多种方式来解决,其中一个特别有效的方式是使用 L1 交换机,在一层转发光或电信号给客户,其转发延迟可以低至 4ns。需要注意的是,虽然 UDP 不是一个可靠传输协议,但在同一个交换机连接的服务器之间使用 UDP 进行通信,正常情况下在网络上几乎不会丢包。然而,在客户端程序和服务器的网卡上可能会丢包。因此,客户在接收行情时,可以使用无锁的 ring buffer 转发数据到处理线程,以并行处理不同股票的行情,然后将处理结果写入共享内存,以供交易系统读取。
 
收到行情后,如何将行情数据转发给内部的其他消费者呢?如果对延迟要求没有太高,可以使用 TCP 转发行情,能够自己控制丢包率,为了降低延迟和增加吞吐,也可以使用 UDP 转发行情。由于逐笔行情不允许丢包,所以在使用 UDP 转发行情时,可以搭配 TCP 行情重传服务,通过多路行情汇聚、Rocksdb 持久化等方式对 UDP 转发行情进行补充。如果转发行情前进行数据压缩,那么延迟和吞吐量可能会更优秀。行情压缩主要有两种方式:行情消息的压缩、消息内部字段的压缩(股票代码、价格)。
 
行情转发之后,如何使用行情数据分析交易执行情况,又该如何训练模型呢?收取到行情后,其中一种应用场景是训练量化交易模型,将收取到的行情数据进行特征处理,提取因子,并利用 AI 进行模型训练,然后将训练好的模型解析出来以备高效地计算实时信号,在接收到实时信号值之后,再极速推送到交易系统,就可以根据不同的策略配置触发交易;另一种场景应用是把收取到的行情数据与 ClickHouse 集成,这不仅能提供高效的聚合和分析查询功能,还能使用流式聚合表自动计算交易数据,如实时交易盈亏,风险指标等。
PostgreSQL ACE/MVP 熊灿灿发表了《云程发轫,万里可期——PostgreSQL 与向量数据库》主题演讲。熊灿灿认为,如果说 LLM 是容易失忆的大脑,向量数据库就是海马体,记忆的缺失让每一次和 LLM 的交互像是一次次不断重头再来的闭卷考。
 
而向量数据库的存在让这一过程能变成开卷考:一方面,LLM 能浏览专用数据与知识,解决 Hallucination 的问题使回答更精准;另一方面,LLM 能回忆自己过往的经验与历史,更了解用户的需求,通过反思实现更好的个性化。因此,向量数据库是一种专门用于存储和查询向量数据的数据库系统,与传统数据库相比,向量数据库使用向量化计算,能够高速地处理大规模的复杂数据;并可以处理高维数据,例如图像、音频和视频等,解决传统关系型数据库中的痛点; 同时,向量数据库支持复杂的查询操作,也可以轻松地扩展到多个节点,以处理更大规模的数据。
目前市面上的向量数据库百花齐放,除了选择专业的向量数据库,使用传统数据库进行扩展也是一种方法,如 pgvector / pg_embedding / pgvecto.rs 等就是以插件的形式存在,站在 PostgreSQL 的肩膀上。
 
以 pgvector 为例,它在 PostgreSQL 上以插件的形式添砖加瓦,继承了 PostgreSQL 生态的超能力集合。此外,pgvector 提供了多种索引算法,如采用 ivfflat 算法以近似搜索,它的工作原理是将相似的向量聚类为区域,并建立一个倒排索引,将每个区域映射到其向量,这使得查询可以集中在数据的一个子集上,从而实现快速搜索。pgvector 还采用了 HNSW 索引,可以与 Product Quantization 结合使用,提高搜索速度和内存效率。
G7 易流技术副总裁、腾讯云 TVP 赵云涛发表了《G7 易流 AIoT 数据实践》主题分享。赵云涛首先为大家介绍了 AIoT 数据场景的特点,包括:设备触发不间断数据流入,对实时监控、实时计算、多维查询的需求较高,具备明显的时空型数据特点,需要进行时空大数据分析。
 
而作为全球领先的物联网软件服务公司,G7易流在面临各种复杂的数据场景,其选择倾向有两点,一是空间换时间,多样性数据存储给客户提供最好的体验,二是在此基础上尽可能采用创新的方案控制成本。赵云涛分享了三个成本控制方案:冷热分治,控制低频存储成本;存算分离,减少计算资源浪费;压缩算法+副本算法升级,整体控制存储成本。
 
最后,赵云涛也表达了对未来数据库的期待,希望作为企业数据底座的数据库可以具备更多样的复合能力,更好的安全控制,同时在成本上有更优秀的表现。在AI新时代下,可以与AI更有机地结合,打造下一代数据存储技术体系。
Apache SeaTunnel PMC member 范佳发表了《Apache SeaTunnel 和 ClickHouse 的数据集成》主题演讲。范佳介绍,Apache SeaTunnel 是一个用于开发数据集成应用程序的框架,支持多引擎、多数据源、多种能力、多种同步模式等等。范佳着重介绍了在 Apache SeaTunnel 中集成 ClickHouse 数据库。Apache SeaTunnel 是一个集成工具,而非计算工具,因此,Apache SeaTunnel 的目标是希望能够更快地将数据写入到 ClickHouse。
 
Apache SeaTunnel 会在写入数据到 ClickHouse 之前,获取表的特征。分布式表的情况下,会通过计算将数据分发到对应的 local table 上,从而提高写入的性能。CDC 适配方面,任意支持的 CDC 数据源;通过 ClickHouse 轻量删除(Lightweight Delete)特性降低删除成本;以 MySQL 为例,对应的数据变化转换为 ClickHouse 对应的 SQL 语句执行数据操作针对非主键模型的增量数据写入。未来,针对 Apache SeaTunnel 和 ClickHouse 的数据集成,将会优化写入速度,实现针对更多引擎的优化,实现读取的优化,支持读取本地表。
感谢各位合作伙伴对本次活动的大力支持!
本次活动到此就要告一段落了,源创会的朋友们 10 月苏州见!
 
如有合作意向,或想提前了解更多源创会信息欢迎添加微信:18655807197
 
最后再送上一大波现场精彩照片!
微软推出全新“Windows App” .NET 8 正式 GA,最新 LTS 版本 小米官宣 Xiaomi Vela 全面开源,底层内核为 NuttX 阿里云 11.12 故障原因曝光:访问密钥服务 (Access Key) 异常 Vite 5 正式发布 GitHub 报告:TypeScript 取代 Java 成为第三受欢迎语言 悬赏十几万元以用 Rust 重写 Prettier 向开源作者提问“项目还活着吗”非常粗鲁且无礼 字节跳动:利用 AI 自动调优 Linux 内核参数 运营商神操作:后台断网、停用宽带账号,强迫用户更换光猫
{{o.name}}
{{m.name}}

猜你喜欢

转载自my.oschina.net/u/4489239/blog/10114975