摘要:AI应用场景爆发,软件定义存储如何解决海量小文件读写痛点?

软件定义存储时代,如何解决AI场景下的存储难题? | 爱分析调研-爱分析ifenxi

指导 | 李喆 调研 | 卢施宇 冯伟 撰写 | 冯伟

随着人工智能应用场景的拓展,来自AI厂商和企业客户的高性能计算需求日益膨胀,AI模型训练和推理所需的海量小文件读写成为许多AI厂商的一大痛点,但传统的存储设备难以满足其需求。焱融科技基于软件定义存储(SDS)技术实现面向容器和海量小文件的高性能读写,目前已服务科大讯飞等头部AI厂商。

多种因素驱动软件定义存储技术,催生云存储创业热潮

近些年,随着AI等新型应用,以及硬件存储设备、网络通信技术、云计算等基础设施平台的不断迭代发展,对存储技术的性能和可扩展性提出了全新的要求。

首先,高速以太网、InfiniBand等网络通信技术的发展,极大降低了网络延迟,为分布式存储的发展提供了基础保障。其次,SSD、NVMe设备和协议等技术的成熟,极大提升了硬件存储设备的性能,硬件IO延迟从过去的毫秒级大幅降低到微秒级。

但是,传统的数据中心仍然采用NAS、SAN等包含磁盘阵列的存储方案。在这种条件下,存储软件的性能瓶颈,使得单个硬盘的性能、网络性能的提高难以同等程度地反映到大规模存储场景中。因此,如何通过存储软件充分发挥出新型硬盘和网络的性能优势变得十分重要。

此外,以人工智能为代表的新型应用不断出现,这些应用对存储性能及快速扩展能力提出了极高的要求。NAS、SAN等传统存储设备,由于横向扩展能力受限,难以满足需求。因此,通过新型的存储软件来实现存储的大规模横向扩展,成为一种必然的选择。

最后,云计算技术不断演进,大量基于物理机和虚拟机等传统IT架构的应用被迁移到云平台上,容器技术也不断发展,IT架构发生巨大的变化。因此,新型存储软件成为有效整合新型IT架构与现有存储设备的重要桥梁。

在以上这些要素的驱动下,近些年,软件定义存储(SDS)已成为一项十分受到关注的新兴技术,成为了云计算技术生态中的重要组成部分,也催生了焱融科技等一批在该方向的优秀创业公司。

焱融科技CEO&创始人王海涛曾担任IBM全球私有云产品技术负责人,是国内最早参与私有云研发的人员之一,后加入金山云,担任金山云私有云团队负责人。

2016年,王海涛创立焱融科技,创始团队均来自VMware、华为、阿里云、美团云、金山云等知名云服务商,具有资深的虚拟化和存储技术研发经验。

软件定义存储时代,如何解决AI场景下的存储难题? | 爱分析调研-爱分析ifenxi

瞄准AI细分应用场景,专注于软件定义存储

创立之初,焱融科技选择从超融合作为切入点,推出了超融合架构云平台YRCloud,提供虚拟化计算、网络、存储资源的全融合服务,帮助企业快速搭建私有云平台,实现企业数据中心的快速、低成本的上云。

从2017年开始,焱融科技选择了更加细分、场景化的技术方向,推出了分布式文件系统YRCloudFile,它的主要定位是解决两类问题:海量文件存储、高性能访问,以及容器中有状态应用持久化存储。

软件定义存储时代,如何解决AI场景下的存储难题? | 爱分析调研-爱分析ifenxi

YRCloudFile可支持POSIX访问接口,也支持NFS、CIFS、SMB等标准协议客户端。针对部分对存储性能有苛刻要求的应用场景,例如人工智能、高性能计算、生命科学、资源勘探、模拟仿真等,焱融科技联合国际著名的端到端网络和InfiniBand(无限带宽)技术提供商Mellanox推出了联合解决方案。

在解决方案中,Mellanox提供InfiniBand交换机和EDR适配器,结合焱融科技对RDMA技术的支持和优化,在应用服务器的YRCloudFile客户端与x86服务器上的YRCloudFile集群之间实现高性能连接,使存储性能相比于TCP网络协议提升300%。

目前,YRCloudFile是焱融科技的战略重点,焱融科技会持续将主要研发资源投入其中。YRCloudFile可提供纯软件和一体机两种产品形态。

优化海量小文件读写性能,实现面向容器的存储

YRCloudFile面向的主要应用场景,一类是海量小文件的高速访问,包括AI高性能计算、内容影像管理、生命科学计算、地理信息管理等应用场景,另一类是解决容器中有状态应用的持久化。

软件定义存储时代,如何解决AI场景下的存储难题? | 爱分析调研-爱分析ifenxi

首先是海量小文件的存储。

过去,传统数据中心对非结构化文件进行存储,主要通过NAS存储设备来实现,但它更加适合存储MB乃至GB级别以上的大文件,同时随着文件数量的增加性能受到极大的挑战。

但在人工智能、基因分析等新型应用日益增长的今天,大量文件都是只有KB级别,乃至1KB以下的小文件,文件数量同时在快速增长。如果采用传统的NAS设备来存储这些海量小文件,那么由海量元数据带来的高并发存取、热点目录访问都会产生严重的性能瓶颈。

为此,YRCloudFile通过虚拟目录、优化元数据集群等手段,克服了海量元数据带来的性能瓶颈。同时,YRCloudFile基于自身的文件存储系统,对接的第三方对象存储系统,实现冷热数据的自动分层,将冷数据自动下沉到对象存储系统中,在保证访问性能的同时,帮助用户降低海量数据存储的整体成本,完成数据的整个生命周期管理。

其次是容器平台中有状态应用的持久化。

近些年,随着容器技术的不断成熟和发展,Kubernetes已经成为了事实上的容器编排标准,企业传统应用的微服务化、容器化改造持续进行,有效帮助企业提升了计算资源的利用率和业务应用的开发、交付效率。

但在这些应用中,一部分属于有状态应用,比如MySQL、PostgreSQL、WordPress等,必须借助存储设备才能实现应用状态的持久化,使应用能保存数据,或使它们在因异常而重启后可自动恢复原状态。但传统的存储设备并非专门为容器应用而设计,因此在实际容器环境中往往存在大量问题,有状态应用的容器化也就成为容器化改造的一大痛点。

为此,YRCloudFile针对容器进行了接口的适配,以能够让Kubernetes有效调度YRCloudFile的存储能力,从而帮助有状态应用遇到故障后快速实现自动跨节点重建。同时,在真实生产环境中,企业往往还有面向容器存储单元的资源隔离、细粒度性能监控等需求,YRCloudFile也对这些企业级功能进行了支持。

人工智能企业是重点客群,混合云存储场景是发力方向

YRCloudFile主要面向的客群则是数据量持续增长,尤其是小文件数量、以及面向容器的存储等应用的客群,其中一大部分来自人工智能、运营商、汽车制造、生物信息、金融新科技等行业对高性能计算和存储具有需求的客户。由于YRCloudFile的客群定位清晰,因此目前带来的营收正经历快速增长。

国内著名人工智能和语音识别服务商科大讯飞,采用YRCloudFile统一管理语音模型训练所需的语音、视频片段,而这些小文件的数量往往以数十亿计,使用YRCloudFile存储方案后,科大讯飞单次语音训练的时间缩短了80%,有效提升了训练的效率和精度,在首个存储集群上线后完成了数次扩容和扩建,数据量已达十多PB,为近千台高性能GPU训练服务器提供数据支持。接下来,科大讯飞还计划将YRCloudFile对接至讯飞云的容器平台中,并将YRCloudFile作为企业内部非结构化数据存储平台提供数据服务。

在国内视觉识别领域处于一流地位的某人工智能企业,同样将YRCloudFile运行在核心的图片识别模型训练集群中。在客户的训练业务流程中,对数千万个KB级别小文件聚合成的TB级大文件进行随机读,每秒分析超过5000张图片,将原有的分析性能提升近一倍。

国内某电信运营商为了对容器平台上语音客服、视频客服、微信网关等业务提供容器持久化存储,使用YRCloudFile搭建了PB级别的容器存储集群,对接300多台Kubernetes容器计算节点,承载数百个业务子系统。

某省会城市为满足大型活动安保需要,同时推动社会治安管理和社会安全防控水平,由省公安厅发起其省会城市视频监控建设项目,YRCloudFile为该项目提供4PB后端存储服务,整个文件存储集群提供超过6GB/s的整体带宽,支撑前端数千路高清摄像头的视频存储,同时无缝对接视频监控管理、编解码、回放、车牌识别、人脸识别等核心系统。

获客方式因项目类型而异,与腾讯云、Rancher等厂商建立合作关系

焱融科技的获客方式主要有渠道获客和直销获客两种模式,其中直销获客比例约占六成。

其中,渠道获客一般是针对从零开始对整个数据中心进行上云的大型项目。在这类项目中,客户的着眼点一般在解决终端业务的需求,需要的是从IaaS到SaaS层的完整解决方案。渠道合作伙伴或行业ISV可以借助YRCloudFile的能力形成更有优势的方案,为最终客户服务。

另外,直销获客主要是针对存储方案单独进行购置或升级的项目。在这类项目中,客户的着眼点一般是存储方案本身,是完全的技术导向。因此,这类项目一般通过直销就可推进。

在合作伙伴生态方面,焱融科技与腾讯云、Mellanox、Rancher、灵雀云、DaoCloud、谐云等多家上下游厂商进行合作。针对海量文件、AI、高性能计算、面向容器存储的项目,焱融科技都可作为联合解决方案的提供商进行参与。

据了解,目前焱融科技有数十人的销售团队分布在全国各地,公司整体规模近60人。

软件定义存储时代,如何解决AI场景下的存储难题? | 爱分析调研-爱分析ifenxi

近日,针对焱融科技的发展历程、公司定位、业务模式、客群状况及发展战略,爱分析与焱融科技联合创始人&产品总监黎俊鸿进行了深入的访谈,现将访谈内容的精彩部分摘取如下。

扩展性强是软件定义存储的核心优势

爱分析:相比于NAS、SAN等传统存储设备,您认为软件定义存储的优势在哪?

黎俊鸿:传统的存储设备,包括高性能的磁盘阵列,因为有专用的数据连接和交换设备,有高带宽的网络连接,有高性能的指令和协议,在规模有限的场景下的性能都是不错的。比如针对单个Oracle数据库的存储,去连接一些高端的SAN设备。

但是这些传统存储设备对横向扩展的支持是有限的。一方面是存储设备自身的扩展性有限,比如NAS设备在有限的机头下,横向扩展能力是受限的,在数据快速增长的背景下就会出现问题。另一方面是对上层应用横向扩展的支持性有限,一旦应用服务器的集群规模增加以后,存储性能就会成为整个系统的瓶颈。

而软件定义存储在扩展性上比传统存储具有优势。SDS不依赖专用存储设备,是部署在x86服务器上的,用户只需要提供更多的x86服务器,就可以实现横向扩展。在集群规模获得更灵活的扩展性的同时,软件定义存储在性能的线性提升上也具备传统集中式存储无法具备的基础和优势。

爱分析:License是按照什么标准来收费的?

黎俊鸿:License主要是按照客户管理的磁盘容量来授权。比如,当客户新增加节点之后,存储的整体容量就增加了,我们就会对增加的这部分容量来授权和收费。

YRCloudFile是云服务商产品体系的补充而非竞争对手

爱分析:焱融科技与腾讯云等云服务商进行合作的时候,怎么去找和云厂商自身存储产品的差异点?

黎俊鸿:几乎所有的云服务商,都会提供块存储和对象存储。共享文件存储由于应用场景很广,云服务商通常只能针对文件存储的通用场景提供服务,对于AI、高性能计算、生物科学、容器持久化存储等对于性能或特定功能有更高需求的场景,就缺少有效支持,而YRCloudFile正好可以在这些方面满足用户在云上业务的需求。

所以,YRCloudFile并不会对云服务商既有的产品去做替代和竞争,而是对他们既有的产品体系做一个很好的补充。

爱分析:焱融科技目前切入的是高性能和容器存储这个细分场景,那么以后可能会在SDS领域做得更加大而全一些吗?

黎俊鸿:从目前的发展战略来看,我们还是会专注于这些核心的优势场景,充分发掘这些场景下客户的业务痛点和实际需求,暂时没有计划去做一个大而全的产品。

爱分析:YRCloudFile底层是文件存储,是否能够支持关系型数据库?

黎俊鸿:不同的关系型数据库是不一样的。对于Oracle数据库,因为YRCloudFile没有提供块存储的访问接口,底层也没有支撑相关的指令,所以现在是不能支持的。但是MySQL这些开源数据库是借助于底层的被格式化的文件系统来运行的,而且YRCloudFile支持标准的POSIX语义操作,对于MySQL这类可以使用文件系统接口的数据库来说,是可以支持的。

爱分析:从自主可控的角度来看,焱融科技除了能够适配通用x86服务器以外,有没有考虑适配一些国产的服务器架构?

黎俊鸿:我们目前已经适配了飞腾、申威、华为泰山等国产化CPU架构的服务器。

软件定义存储潜在市场规模巨大,主要驱动因素在于企业业务转型

爱分析:公司近两年业务增速较快的原因主要在哪?

黎俊鸿:首先一个原因还是因为随着YRCloudFile产品的成熟,我们寻找客户的过程更加精准。在2019年,我们更加专注与瞄准AI这个场景并取得了很好的效果,比如科大讯飞等AI客户就是2019年完成深度合作的。在AI训练场景中,对于海量小文件的存取及性能都有很强的诉求,我们在这个领域处于国内领先水平。

另外一个原因是随着以容器作为承载手段的云原生应用在企业中逐步获得更大范围的使用,企业对有状态的容器应用开始逐步了解和接受,YRCloudFile在这个领域的优势再加上和容器平台厂商的深入合作,对公司的业务发展都带来了有效推动。

爱分析:目前SDS的潜在市场规模大约有多大,渗透率在一个什么水平?

黎俊鸿:整个存储市场的潜在规模是很大的,根据海外一些报告来推算,潜在市场规模大概在千亿级别。但目前SDS在整个存储市场的渗透率还是比较低的,市场空间仍然很大,对国内的软件定义存储厂商而言都是非常好的机会。

爱分析:您觉得阻碍企业从传统存储转到新型存储的最大障碍在哪?

黎俊鸿:企业不会无缘无故选择新型存储,他们要做转型,通常是由业务诉求和数据访问诉求上面的变化来驱动的。新型的基础架构,对客户数据中心的运维方式、知识体系都会带来新的变化,需要我们这样的供应商为客户提供更全面和契合业务需求的产品和方案,帮助用户完成数字化转型。

爱分析:所以焱融科技去拓客的时候,会从客户的业务角度会去切入吗?

黎俊鸿:存储产品首要任务是服务于业务系统,所以我们不管是产品设计还是拓客,都非常关注用户业务场景的诉求,例如读写特点、性能诉求等。另一方面,分布式存储软件产品和其它业务层软件的一个差别,就是在服务业务的同时,还要关注系统管理人员的诉求和需要。客户在进行产品选择时,这两方面会进行综合考虑和评估,也都是我们的切入点。

联系我们

软件定义存储时代,如何解决AI场景下的存储难题? | 爱分析调研-爱分析ifenxi
软件定义存储时代,如何解决AI场景下的存储难题? | 爱分析调研-爱分析ifenxi