成都站源创会落幕，10 月苏州精彩继续！

9 月 23 日，开源中国联合腾讯云 TVP 主办的第 95 期 OSC 源创会暨 Techo TVP 技术沙龙在成都圆满举行。本次活动以“数据与前沿技术”为主题，聚集 5 位数据领域的技术大佬，呈现了业界围绕数据存储、分析，数据挖掘等所做的技术创新，共同探讨数据技术的未来发展。

先上大合照，编程从娃娃抓起

活动延续了源创会的优良传统——披萨环节

玩得开心！

捕捉到好多认真学习、记录的小伙伴们！

不会吧，现场不会有人没中奖吧？！

看完精彩的现场照片，下面进入主题演讲回顾环节。

腾讯云向量数据库产品负责人邹鹏发表了《向量数据库在大模型场景的应用实践》主题演讲。邹鹏介绍，大模型拉开了通用人工智能的序幕，接下来一个较大的改变将是应用范式上的变化。当下人与计算机的交流方式还是代码，但下一个十年的交互方式或将是自然语言、音视频，甚至是肢体动作，而“大模型+向量数据库+提示词”正在成为当今 AI 应用的标准开发范式。

大模型学习知识有 3 个途径：预训练、微调、知识库。相较而言，知识库是大模型应用的成本最优解。大模型应用主要是两个方向，一个是 RAG，即搜索增强的生成，可以简单理解为知识问答的场景，另一个方向是 Auto Agent，可以处理一些连续的任务，调用企业接口。其中现在主要在做的 RAG 场景是一个典型的开发范式，比如企业要做内部的知识库、智能客服问答等等，便需要将企业现有的知识素材接入到大模型中，第一步将素材做文本拆分；由于文本无法直接计算，第二步便是转向量；第三步是通过向量数据库建向量索引，实现知识的可查找，完成知识库的建设。应用端则会有一个大模型的 APP，可以查询知识库，结合 Prompt 实现大模型的调用。

以 RAG 调优路径为例，邹鹏介绍了其中一些关键的技术节点，以提升向量数据搜索的准确度。首先在文本解析环节，Markdown 格式的文本是首选；Embedding 层决定检索的效果，维度越高效果越好，可以尽可能选取高维度的如 1536、1024 维的；Index 层，初期做 AI 应用时，一个简单粗暴的方式是避免有任何丢失；Query 层可以加入 Query 增强，保证大部分的提问都能得到高质量的回答；Prompt 层，注重角色、背景、目的这三个关键信息；LLM 层，行业模型将是未来的趋势，可以使用开放模型预训练。

最后，邹鹏介绍了腾讯云向量数据库 Tencent Cloud VectorDB。Tencent Cloud VectorDB 于今年 8 月 1 日上线，目前正处在邀请测试阶段，有需要的企业可以到官网申请免费开通，这款向量数据库源自腾讯集团积累多年的分布式向量检索引擎 OLAMA，提供高吞吐、低延迟、低成本、高可用、弹性扩展的全托管向量检索数据库服务。

非凸科技成都分公司研发总监赵海峰发表了《量化交易的数据驱动》主题演讲。赵海峰介绍，量化交易主要通过行情数据进行交易决策，那么如何通过券商获取行情，进行行情低延迟接收的软硬件方案呢？

交易所发布的行情会经过券商的处理再转发给交易机构，其转发途径主要有 TCP、UDP、FPGA 加速的 UDP 和 ASIC 加速的 UDP 行情等。然而，券商通过 TCP 连接将处理后的行情数据转发给交易机构，会存在延迟大、应用层丢包（非 TCP 协议丢包）、发送端负载大等问题。为了解决这些问题，券商又通过 UDP 组播或广播的方式，将处理后的行情或交易所原始行情转发给交易机构。为了达到极致的低延迟，券商端将会通过多种方式来解决，其中一个特别有效的方式是使用 L1 交换机，在一层转发光或电信号给客户，其转发延迟可以低至 4ns。需要注意的是，虽然 UDP 不是一个可靠传输协议，但在同一个交换机连接的服务器之间使用 UDP 进行通信，正常情况下在网络上几乎不会丢包。然而，在客户端程序和服务器的网卡上可能会丢包。因此，客户在接收行情时，可以使用无锁的 ring buffer 转发数据到处理线程，以并行处理不同股票的行情，然后将处理结果写入共享内存，以供交易系统读取。

收到行情后，如何将行情数据转发给内部的其他消费者呢？如果对延迟要求没有太高，可以使用 TCP 转发行情，能够自己控制丢包率，为了降低延迟和增加吞吐，也可以使用 UDP 转发行情。由于逐笔行情不允许丢包，所以在使用 UDP 转发行情时，可以搭配 TCP 行情重传服务，通过多路行情汇聚、Rocksdb 持久化等方式对 UDP 转发行情进行补充。如果转发行情前进行数据压缩，那么延迟和吞吐量可能会更优秀。行情压缩主要有两种方式：行情消息的压缩、消息内部字段的压缩（股票代码、价格）。

行情转发之后，如何使用行情数据分析交易执行情况，又该如何训练模型呢？收取到行情后，其中一种应用场景是训练量化交易模型，将收取到的行情数据进行特征处理，提取因子，并利用 AI 进行模型训练，然后将训练好的模型解析出来以备高效地计算实时信号，在接收到实时信号值之后，再极速推送到交易系统，就可以根据不同的策略配置触发交易；另一种场景应用是把收取到的行情数据与 ClickHouse 集成，这不仅能提供高效的聚合和分析查询功能，还能使用流式聚合表自动计算交易数据，如实时交易盈亏，风险指标等。

PostgreSQL ACE/MVP 熊灿灿发表了《云程发轫，万里可期——PostgreSQL 与向量数据库》主题演讲。熊灿灿认为，如果说 LLM 是容易失忆的大脑，向量数据库就是海马体，记忆的缺失让每一次和 LLM 的交互像是一次次不断重头再来的闭卷考。

而向量数据库的存在让这一过程能变成开卷考：一方面，LLM 能浏览专用数据与知识，解决 Hallucination 的问题使回答更精准；另一方面，LLM 能回忆自己过往的经验与历史，更了解用户的需求，通过反思实现更好的个性化。因此，向量数据库是一种专门用于存储和查询向量数据的数据库系统，与传统数据库相比，向量数据库使用向量化计算，能够高速地处理大规模的复杂数据；并可以处理高维数据，例如图像、音频和视频等，解决传统关系型数据库中的痛点；同时，向量数据库支持复杂的查询操作，也可以轻松地扩展到多个节点，以处理更大规模的数据。

目前市面上的向量数据库百花齐放，除了选择专业的向量数据库，使用传统数据库进行扩展也是一种方法，如 pgvector / pg_embedding / pgvecto.rs 等就是以插件的形式存在，站在 PostgreSQL 的肩膀上。

以 pgvector 为例，它在 PostgreSQL 上以插件的形式添砖加瓦，继承了 PostgreSQL 生态的超能力集合。此外，pgvector 提供了多种索引算法，如采用 ivfflat 算法以近似搜索，它的工作原理是将相似的向量聚类为区域，并建立一个倒排索引，将每个区域映射到其向量，这使得查询可以集中在数据的一个子集上，从而实现快速搜索。pgvector 还采用了 HNSW 索引，可以与 Product Quantization 结合使用，提高搜索速度和内存效率。

G7 易流技术副总裁、腾讯云 TVP 赵云涛发表了《G7 易流 AIoT 数据实践》主题分享。赵云涛首先为大家介绍了 AIoT 数据场景的特点，包括：设备触发不间断数据流入，对实时监控、实时计算、多维查询的需求较高，具备明显的时空型数据特点，需要进行时空大数据分析。

而作为全球领先的物联网软件服务公司，G7易流在面临各种复杂的数据场景，其选择倾向有两点，一是空间换时间，多样性数据存储给客户提供最好的体验，二是在此基础上尽可能采用创新的方案控制成本。赵云涛分享了三个成本控制方案：冷热分治，控制低频存储成本；存算分离，减少计算资源浪费；压缩算法+副本算法升级，整体控制存储成本。

最后，赵云涛也表达了对未来数据库的期待，希望作为企业数据底座的数据库可以具备更多样的复合能力，更好的安全控制，同时在成本上有更优秀的表现。在AI新时代下，可以与AI更有机地结合，打造下一代数据存储技术体系。

Apache SeaTunnel PMC member 范佳发表了《Apache SeaTunnel 和 ClickHouse 的数据集成》主题演讲。范佳介绍，Apache SeaTunnel 是一个用于开发数据集成应用程序的框架，支持多引擎、多数据源、多种能力、多种同步模式等等。范佳着重介绍了在 Apache SeaTunnel 中集成 ClickHouse 数据库。Apache SeaTunnel 是一个集成工具，而非计算工具，因此，Apache SeaTunnel 的目标是希望能够更快地将数据写入到 ClickHouse。

Apache SeaTunnel 会在写入数据到 ClickHouse 之前，获取表的特征。分布式表的情况下，会通过计算将数据分发到对应的 local table 上，从而提高写入的性能。CDC 适配方面，任意支持的 CDC 数据源；通过 ClickHouse 轻量删除(Lightweight Delete)特性降低删除成本；以 MySQL 为例，对应的数据变化转换为 ClickHouse 对应的 SQL 语句执行数据操作针对非主键模型的增量数据写入。未来，针对 Apache SeaTunnel 和 ClickHouse 的数据集成，将会优化写入速度，实现针对更多引擎的优化，实现读取的优化，支持读取本地表。

感谢各位合作伙伴对本次活动的大力支持！

本次活动到此就要告一段落了，源创会的朋友们 10 月苏州见！

如有合作意向，或想提前了解更多源创会信息欢迎添加微信：18655807197

最后再送上一大波现场精彩照片！

成都站源创会落幕，10 月苏州精彩继续！

猜你喜欢