在云计算、人工智能、物联网等技术发展迅速的今天,海量数据的规模化增长成为常态。当前行业通用的存储方案也面临巨大挑战。而随着云原生的逐渐兴起,原有的存算一体架构越来越多地暴露出弊端:
-
计算资源和存储资源扩容速度不匹配 ,不同时期需要不同的存储空间和计算能力配比,导致机器选型不便;
-
计算资源和存储资源按某一比例强绑定,系统扩容必须按节点数目增加,导致内存或磁盘的浪费;
-
在云计算场景下,因计算集群中包含数据,导致不能实现真正的弹性计算。
企业可以通过云上存算分离架构,以低成本的对象存储作为存储底座,完美地解决以上问题。而针对在大数据和机器学习场景下,由对象存储带来的诸如存储性能(IO 瓶颈)、接口兼容性等问题,火山引擎推出自研的大数据文件存储(CloudFS)作为解决方案。
火山引擎大数据文件存储以对象存储为底座,针对大数据和机器学习场景进行了完整的兼容和优化,助力更多企业改善云上大数据体验。现已开放免费公测,欢迎申请试用。
大数据文件存储 CloudFS
大数据文件存储是面向大数据和机器学习生态的统一文件存储。支持对接多云对象存储,并提供统一数据管理和数据缓存加速服务,具备低成本、高可靠、高可用等特性。加速数据处理、数据湖分析、机器学习等场景下海量数据的存储访问速度。
长按识别二维码,了解更全产品信息
应用场景与特性
传统的大数据 Hadoop 离线分析类场景往往存在云上 HDFS 搭建成本高、运维难等问题。大数据文件存储支持 HDFS 缓存加速,针对上述痛点精准优化:
-
全托管免运维,完全兼容 HDFS 协议 ,零成本迁移;
扫描二维码关注公众号,回复: 14491244 查看本文章 -
TOS 存储底座,低成本,高可靠,容量弹性伸缩;
-
缓存加速突破 TOS 对象存储性能限制,速度十倍提升;
-
海量数据场景下的性能优化。
在数据湖分析、机器学习模型训练等结构化/非结构化数据场景下,针对 I/O 性能要求高,小文件众多,数据共享困难等问题。大数据文件存储推出 TOS 透明加速模式,支持以下关键特性:
-
部分 HDFS 协议与 POSIX 协议支持;
-
无需修改路径即可使用加速特性;
-
缓存空间水平弹性伸缩;
-
多云、多对象存储统一维护;
-
完备的缓存策略提升机器学习场景下的 I/O 负载;
-
数据强一致性保证。
客户案例
火山引擎大数据文件存储脱胎于字节跳动内部超大规模业务最佳实践,实现了多种场景下的企业级功能增强,支持字节跳动多款产品核心场景的实现与优化。
案例一:抖音实时推荐。大数据文件存储作为抖音大数据分析的存储底座,承接了全部的数据仓库和数据湖数据存储,支持批式和实时的数据引擎,数据规模达到 EB 级别。
案例二:巨量引擎广告智能推荐。大数据文件存储支撑了巨量引擎广告推荐平台的构建,存储了全量的离线模型,助力精准广告投放和媒体商业化。
案例三:今日头条海量索引引擎。头条搜索基于大数据文件存储构建了海量索引引擎,支持了索引数据的高并发、高吞吐和低时延读写,助力头条搜索提供简单智能的搜索体验。
产品优势
火山引擎大数据文件存储相比同类产品,具备易使用、低成本、多场景、高性能等多种优势:
-
低成本:单文件系统存储空间无上限,可满足海量数据存储与分析的需求。同时支持存储空间线性弹性扩展,降低成本。
-
易使用:支持完整的 HDFS 语义,兼容开源大数据生态,支持业务无缝上云。同时可与火山引擎 流式计算 Flink、批式计算 Spark、云原生消息引擎深度集成,提供端到端的 Serverless 大数据计算及存储解决方案。
-
多场景:不同场景模式,能满足大数据处理、机器学习等场景下的数据存储需求,提升数据处理效能。
-
高性能:基于近端数据加速技术,提供大数据分析所需的高吞吐能力;通过提供原子目录操作与分层命名空间,实现海量数据处理时优异的存储性能。
长按识别二维码,了解更全产品信息
突破云上存储新边界:欢迎申请产品公测 大数据文件存储-火山引擎