首页
智能设备
数据安全
绿色科技
栏目分类

智能设备

你的位置:未来探索网 > 智能设备 > AI赋能数据存储,重塑数字基石

AI赋能数据存储,重塑数字基石

发布日期:2025-03-19 14:37    点击次数:150

AI赋能数据存储,重塑数字基石

文/数据猿

Hitachi Vantara的最新谈论自大,在AI波浪的驱动下,改日几年数据存储容量的需求将激增150%。现时大型企业平均捏有150PB的数据,展望到2026年底存储的数据将进步300PB。

凭证这项谈论,31%的IT带领者暗示,数据存储容量激增是必须面对的一大挑战;76%的受访者暗示,一半以上的数据悲悼结构化的数据。

另一方面,跟着AI应用的推广,数据的价值将会增加,导致企业需要存储更多的数据,况兼数据存储的时间更长。

与此相对应的是企业在数据存储上的投资将增长224%。希捷首席商务官B.S.Teh合计,天然AI对更大、更复杂的数据存储的需求正在增加,但存储行业还莫得为这种增长作念好准备。跟着生成式AI的应用变得更具计谋性,企业需要围绕容量制定永久筹划,以确保存储供应。

在AI期间,数据是企业的生命线,而数据存储才略关乎企业发展的命根子。数据存储企业正在不同领域开展改进,通过存储架构改进、存储时期新创,以及发展对象存储、软件界说存储等,以叮咛AI期间的多重挑战。

数据存储,AI生态链的紧要一环

AI期间,数据质料决定着AI演进的高度,以存力基础设施变革为代表的数字底座升级老成开启。

AI对存储的影响将是深入的和捏久的。从从存储的容量和性能提高,到智能数据不断和优化资源分派,到增强的安全性和存储效果,以及存储能耗的改善,AI将从根柢上蜕变企业感知和诈欺存储系统的方式。

跟着东谈主工智能应用的加速,企业关于数据存储的需求日益增加,面对的挑战日益严峻。

一是数据量呈爆发式增长。凭证IDC的数据,现时寰球东谈主均日产生数据从2024年10GB,将发展到2034年的100GB,寰球数据总量将超200ZB。而LLM的应用又推高Token需求,兼顾资本的高容量数据存储大势所趋。

二是数据存储高可推广需求日益迫切。一个有用的数据存储系统必须既可推广,又经济实惠,这两个属性在数据存储中老是共存的。从历史上看,高度可推广的系统在资本/容量方面愈加荣华。要是大型AI数据集超出存储预算,则是不可行的。

对象存储是可以在单个定名空间内无穷推广的存储类型。此外,模块化设想允许随时增加容量。组织可以按需推广。对象存储构建在业界资本最低的硬件平台上,将其与低不断支出和量入为用空间的数据压缩功能相结合,资本比传统的企业磁盘存储低70%。

三是数据安全与数据存储共同发展。尤其是端侧AI,东谈主们对数据的掌控欲愈发激烈,秘籍保护、数据好意思满性,成为AI发展关怀的重心。为此,在数据存储系统中,企业的处罚决议往往齐带了保护数据好意思满性的安全措施。

一些存储供应商启航点诈欺东谈主工智能和机器学习来防护数据丢失,通过智能数据归赞叹系统化备份策略提高可用性,并加速停机期间的盘活速率。

四是数据效果和功耗效果也按捺疏远。要让AI大说话模子能高速完陋习划,就需在最短蔓延内杀青数据的存储与读取,像低蔓延、实时反应、量入为用资本以及优化资源和数据放手等时期,齐成为AI期间的重要考量。

另外,功耗效果亦是重中之重。在AI基础设施竞赛中,天然核电厂建立被包括AWS、谷歌、微软等泛泛说起并加入投资者行列,但杀青数据存储系统高效且低功耗才是重要,不仅能诽谤资本,还能延长斥地寿命,无疑是存储产业进犯AI领域的紧要目的。

AI和ML责任负载骨子上是数据密集型的,需要坚忍的存储处罚决议来容纳海量数据并叮咛各样化的I/O模式。AI由数据驱动,数据的存储方式会显赫影响AI大模子款式的罢了。不仅如斯,AI大模子的四个不同阶段(获取、准备、西宾和推理)齐有不同的存储需求。

数据获取阶段,AI责任负载的原始数据可能来自各样结构化和非结构化数据源,需要一个可靠的系统存储数据。存储介质可以是高容量数据湖或快速层(如闪存存储),尤其是用于实时候析。

数据准备阶段,在数据存储后因为它是“原始”形势,因此需要对数据进行处理和形势化,以供其他阶段使用。文献I/O性能在此阶段是一个相称紧要的磋议身分。数据形势化后,将被馈遗到神经采蚁合进行西宾。

西宾和推理这两个阶段,齐是规划密集型的,一样需要将数据流式传输到西宾模子中。西宾是一个迭代过程,需要缔造和重置,用于创建模子。推理可以被合计是数据和西宾的总额。奇迹器中的GPU和存储基础设施财富稀缺,高效诈欺就需要低蔓延、高浑沌量和快速反当令间。

另外,不要健忘容量和生动性。确保存储基础设施可以推广,同期推广对分娩运营影响最小或无中断,从而跟上业务数据增长的要领。同期存储系统要满盈生动,可以凭证AI基础架构的不同需求,磋议不同的存储确立。

AI驱动存储架构改进,SSD + NVMe重塑数据存储方法

在AI期间,数据呈爆炸式增长,传统数据存储架构难以舒服需求,以高密度固态存储SSD(Solid - State Drive),以及NVMe(Non - Volatile Memory Express)架构为中枢的数据存储架构变革正悄然驾临。

SSD与NVMe联袂,打造数据存储的虚幻组合,以闪电般的读写速率和超低蔓延,为数据存储开启极速期间。AI应用对存储容量需求极高,可以大肆地从TB级推广到数百PB级。

25年前,SSD的存储容量唯一1或2GB。到2024年,SSD的容量达到了122TB!SSD凭借闪存芯片杀青数据存储,经过多年的发展,比拟传统机械硬盘HDD,具有读写速率快、抗震性强、能耗低等显赫上风。其高性能发达为数据处理提供了坚忍能源,如在大型数据中心,SSD能使奇迹器快速反应数据苦求,极大提高系统的全体性能。

NVMe架构则是这场变革的另一重要力量。它专为闪存存储斥地设想,针对SSD性情进行优化,极大诽谤了存储探询蔓延。传统SATA接口受限于条约带宽,无法充分通晓SSD性能,而NVMe通过PCIe总线径直伙同CPU,大幅提高数据传输速率,冲突存储性能瓶颈。

NVMe提供了AI和机器学习应用设施所需的大带宽和低蔓延,以最大限制地提高性能。它与AI平台使用的高性能、横向推广存储和基于GPU的规划天然契合,将有助于摒除I/O瓶颈并提供可推广性。

这一变革带来了深入影响。在云规划领域,高密度SSD与NVMe架构结合,能为云奇迹提供商提供更高效、清楚的存储奇迹,支捏海量用户并发探询。

在东谈主工智能领域,快速的数据读写与低蔓延探询对模子西宾和推理至关紧要,为AI发展提供了坚实基础。

诈欺SSD + NVMe架构改进,存储企业奉献了立场互异的处罚决议。华为旗下的高端存储OceanStor 18000系列就给与全闪存架构,支捏端到端NVMe时期,专为企业的重要任务和高性能需求而设想。

OceanStor系列居品给与多适度器松耦合架构,支捏大畛域推广,最多可以推广到数十个适度器。其横向推广与纵向推广架构的结合,使得系统具备了超卓的推广性、清楚性和可靠性。此外,HyperMetro双活时期允许在两个数据中心之间杀青业务无缝切换,提高了高可用性。

在安全性方面,OceanStor高端存储系统支捏端到端的数据加密,具备坚忍的容灾和备份功能,确保企业在叮咛采集过失和斥地故障时大致快速归附。此外,OceanStor还引入了AI驱动的智能运维系统,通过机器学习优化性能、预测故障并自动调整系统,简化了存储不断和运维经过。

新华三在2023年推出了H3C/HPE Alletra MP全局解耦NVMe智能全闪存储。H3C/HPE Alletra MP基于长入通用平台、一致云化体验,以直不雅的数据奇迹云平台简化不断,以AI加捏的全活冗余设想保证清楚可靠,以颠覆性的推广及部署模式带来极致性能,加速企业以数据为先的数字化转型程度。

据先容,Alletra MP存储居品基于AI in Storage发展的理念,重新界说了AI通用存储性能和可靠性,同期也借助AI时期,让存储系统继续地自我优化,提高性能。

2023年,联思凌拓发布的两款高性能企业级闪存存储系统DE6400和DE6600也基于端到端的NVMe架构设想,其中DE6600提供高达200万IOPS的超高性能,适用于东谈主工智能应用。

PowerMax是戴尔科技集团的高端存储处罚决议,专为处理重要任务和高性能需求而设想。PowerMax给与全闪存架构,支捏NVMe条约,大致提供超高的性能和极低的蔓延。它还具备多适度器架构,可推广性强,大致生动叮咛企业继续增长的存储需求。

在数据安全性方面,PowerMax内置了端到端的数据加密功能,并支捏高可用性和容灾功能,确保在采集过失或斥地故障时数据仍能得到保护和快速归附。其集成的AI驱动自动化不断器具,大致实时优化存储系统的性能和健康情景,减少东谈主为操作,提高运维效果。

在应用上,某智算中心基于波浪信息元脑NF5266G7、NF5180G7等存储奇迹器居品,搭建了大容量、高性能、高可靠的多层存储处罚决议,得手构建了50PB对象存储数据,10PB全闪文献存储数据的资源池。

针对互联网、金融、生命科学等领域AI大模子应用在西宾时袒露的PB级数据存储与处理需求,全闪性能可追随节点数目增加而线性增加,存储带宽可达6TB/秒,IOPS达到亿级。面对万亿参数模子,90天的单西宾周期GPU恭候时间从7天减少到1天,加速开释东谈主工智能改进潜能。

AI应用对数据存储条款严苛,以高密度固态存储SSD及NVMe架构为中枢的存储架构,能从多方面舒服其需求。

高速读写:AI模子西宾和推理需要处理海量数据。SSD基于闪存芯片,读写速率远超传统机械硬盘,在西宾大型神经采集时,能快速读取数据,诽谤西宾时间。NVMe架构通过PCIe总线直连CPU,进一步提高传输速率,让AI模子实时获取数据,高效运算。

低蔓延:在自动驾驶等实时性条款高的AI场景中,数据存储蔓延至关紧要。NVMe专为闪存优化,搭配SSD,能近乎即时反应AI模子的数据苦求,确保决策实时准确。

高可靠性:AI西宾数据认真,存储可靠性必须保险。SSD无机械部件,抗震性强,减少物理损坏致数据丢失风险,部分高端SSD还具备数据纠错机制,保险数据好意思满。

可推广性:AI模子和数据量继续增长,存储架构需同步推广。NVMe支捏多队伍和并行处理,可伙同多个SSD,提高存储容量与性能,舒服AI数据增长需求。

能耗效果:大畛域AI运算能耗大,SSD能耗低于传统硬盘,可诽谤数据中心能耗与散热资本,契合AI应用资本适度条款。

取代纠合式存储,漫衍式交融存储大显神通

以ChatGPT为代表的生成式AI正在阅历迅速的发展,突显了数据的强大价值:数据集越好意思满,模子畛域越大,从AI中取得的罢了就会越好。而怎样高效地处理和存储海量数据,变得尤为紧要。

漫衍式存储作经过多年的发展,正在逐步取代一些传统存储方式。纠合式存储指的是传统的SAN或NAS磁盘阵列,其架构以双适度(四控或8控)为主,分享多组RAID磁盘柜,具有低蔓延、高性能、高可靠性的特质,但推广才略较差,升级或更换贫困,TCO高。

漫衍式存储与传统纠合式存储的最大区别是其以软件界说(SDS)为时期妙技,通过将数据分散存储在多个节点上,杀青高可用性、高性能和高可推广性。典型的漫衍式存储具有三大时期特征:使用通用x86或ARM存储奇迹器;使用固体硬盘(SSD)以提高IO性能;软件界说存储,即给与漫衍式多副本/纠删码时期,杀青数据保护、资源智能调配调、自动化运维和监控功能,杀青有储资源的抽象、池化和自动化不断。其上风在于可显赫诽谤总领有资本、提高性能和IT团队的效果。

现时,漫衍式存储呈现出多重的上风,如多条约交融互通,支捏多种存储条约,如NFS、CIFS、HDFS、S3、Ceph等,处罚了数据孤岛问题,提高了数据探询效果;杀青了高性能,通过并行读写和负载平衡时期,显赫提高了数据探询速率和系统浑沌量。

在高可用性和容错性方面,漫衍式存储给与数据冗余和故障鬈曲机制,确保系统在节点故障时仍能正常运行。同期支捏动态添加或删除节点,杀青有储容量和性能的线性推广。

另外,漫衍式存储领有可以生动性,大致凭证业务需求进行确立和调整,支捏多种数据类型和探询模式。

跟着时期的继续改进,漫衍式存储正在诽谤系统设想和调节复杂性,诽谤高性能和多条约支捏可能导致较高的运行投资资本,处罚在某些情况下,采集蔓延和数据复制可能出现的性能瓶颈,并在漫衍式环境中,确保数据一致性。

现时,漫衍式存储在大数据与AI、云存储、数据库、采集存储等应用场景得到泛泛应用。

面对各样的漫衍式存储需求,市集上袒清晰诸多处罚决议,其中HDFS、Ceph、MinIO备受能干。其中,HDFS是漫衍式存储领域的前驱,旨

Ceph是一款开源的漫衍式存储系统,在云规划、大数据等领域得到繁密厂商的珍爱,成为OpenStack的主流后端存储聘用。Ceph养殖出三种存储接口:对象存储(RADOSGW)、块存储(RBD)、文献系统存储(CephFS)。

当作后发先至,MinIO以开源、高性能、兼容S3接口迅速在漫衍式存储市集崭露头角,专为云原生应用、大畛域对象存储需求经心打造。

在国内市集,漫衍式交融存储发展迅速,为企业数据存储提供可选的决议。波浪信息在存储架构方面积极改进,推出了可组合漫衍式交融存储(CDFS)模式,旨在杀青更高的空间诈欺率和不断效果。这一架构包括数据编织层、微奇迹化功能层和硬件资源层,大致凭证具体需求按需组合,为不同用户提供定制化的存储决议。其中,机柜级存储底座(BoR)适用于边际、畛域小的企业应用,允许在更小的空间内杀青更高效的近数据规划。

波浪信息发布了新一代漫衍式交融存储AS13000G7,以极致交融架构设想,杀青高效的“All In One”非结构化数据存储,提高了数据存力和I/O性能。

AS13000G7在业界率先杀青了一套集群系统同期支捏文献、对象、大数据、视频四种条约,杀青数据交融;同期支捏闪存、磁盘、磁带、光盘四类存储介质,杀青不断交融;可以支捏基础设施云化、结构化、非结构化等全部应用场景;支捏全生命周期不断,数据在热、温、冷、冰四级存储间目田、高效流动,杀青“一套存储架构、支捏一个数据中心”。

新华三集团漫衍式存储代表居品从H3C UniStor X10000 G6发展到现时的Polaris X20000。

当作全NVMe漫衍式存储,X10000 G6以海量可靠、交融流动、极速极省助力新式智算中心建立。其中,明星居品X18000 G6领有一框委派、极致可靠、极致性能、绿色节能等多重上风,全面舒服AI、诬捏化、数据库等全场景存储需求,终点适用于医学科研、AI绘图、自动驾驶等AI场景。

在智算应用中,团结份数据需要在不同应用如文献处理、对象处理之间进行数据拷贝和搬移,致使形势的转机,耗时,并影响GPU的使用率。因为智算投资大,用户但愿GPU算力大致满负荷运转,因此条款存储不可有任何中断,必须要捏续清楚地运行,这就需要存储提供高效的数据探询方式。

新华三的AI数据存储平台Polaris X20000通过系统、体验、价值重构,杀青性能优化、条约交融、架构进化,单节点带宽达80GB/s、200万IOPS,支捏多佃户,故障秒级切换,泛泛赋能AIGC等领域,助力智算发展。

2023年联思凌拓推出其首款国产化漫衍式云存储ThinkSystem DF系列,是一款基于海光平台打造的,在原有NAS基础上,同期支捏SAN和对象等泛泛条约的寰宇产化漫衍式存储系统。其漫衍式架构、高推广才略、高性能、长入不断的性情等,可舒服企业海量数据的不断需求,充分开释云霄数据价值。

新式存储时期与自研芯片崛起,推动数据存储冲击新记载

AI期间,新式存储时期迅速发展,成为推出数据存储发展的后浪。

EDSFF提供更高的存储密度,同期兼顾性能与可靠性,妥当数据中心日益增长的数据存储与处理需求。EDSFF也即是企业和数据中心固态硬盘外形规格,是专为趋附企业与数据中心存储需求所设想的固态硬盘圭臬,在于提供更高的存储密度,同期兼顾出色的性能与可靠性,从而妥当数据中心日益增长的数据存储与处理需求。

现时,EDSFF具备各样化的外形,领有多种外形尺寸与接口类型,像E1.S、E3.S等,大致舒服不同奇迹器及存储斥地因空间舍弃而产生的不同性能条款。

其性情之一是支捏NVMe条约,大致提供极高的IOPS(每秒输入输出操作次数),况兼具备低蔓延的性情,大致大幅提高数据读写速率,进而加速应用设施的运行。

诈欺先进的闪存时期,单颗EDSFF固态硬盘大致杀青数TB致使更高的存储容量,关于数据中心而言,有助于减少存储斥地的数目,从而有用诽谤资本。

此外,它还给与了端到端数据保护、磨损平衡、无理检测与改良等时期,进一步提高了数据的好意思满性以及斥地的清楚性。

EDSFF启航点泛泛应用于云规划、企业数据中心、高性能规划等领域,为奇迹器、存储阵列等斥地提供快速且可靠的存储支捏,以叮咛大畛域的数据存储与处理任务。

CXL可能重新界说智算中心组网的形态,杀青算力资源池化、存储资源池化、内存资源池化。CXL即规划快速伙同,是一种高速且低蔓延的互连条约,主要用于伙同处理器与其他斥地,比如内存、加速器、存储斥地等。它的目的是提高系统全体性能与可推广性,冲突传统架构中处理器与外部斥地之间存在的性能瓶颈。

CXL大致提供比传统PCIe更高的带宽以及更低的蔓延,使得处理器与外部斥地之间大致快速传输数据,进而提高系统的反应速率。

CXL支捏内存池化时期,可将多个斥地的内存资源整合成为一个分享的内存池,让处理器大致探询到更多的内存,有用处罚内存容量不及的问题,同期提高内存诈欺率。

CXL还允许不同处理器分享加速器、存储等斥地,提高资源诈欺率的同期诽谤硬件资本,举例多个处理器大致同期探询团结加速器进行规划,从而提高系统的全体性能。

值得一提的是,CXL与现有的PCIe生态系统兼容,便于在现有系统中冷静引入CXL时期,杀青平滑升级。

CXL在数据中心、东谈主工智能规划、高性能规划等对规划性能和斥地互连条款较高的领域应用泛泛,可用于构建更为高效的奇迹器架构,加速东谈主工智能西宾和推理等任务。

而群众合计,跟着CXL 3.0的出现,改日有可能对存储系统领来新的匡助,致使有可能重新界说智算中心组网的形态,杀青算力资源池化、存储资源池化、内存资源池化。但这个事情,如故需要悉数业界厂商一齐共同起劲材干够杀青。

2024年Kioxia就推出了其全新KIOXIA XD8 Series PCle 5.0企业和数据中心圭臬外形尺寸E1.S SSD。Innodisk宜鼎海外推出CXL 2.0内存模块,为AI奇迹器和云数据中心提供更大内存带宽和更多内存容量。

而据先容H3C Polaris X20000十足支捏E1.S居品形态,也兼容了CXL 2.0圭臬。在Polaris X28000居品中,把四个漫衍式节点加上两个交换机,从底本10U的斥地,作念到2U空间里边,空间省俭75%,能耗诽谤17%,从而大肆叮咛数据中心对存储系统性能和资源带来的挑战。

新式存储时期的崛起,以其独有的上风为东谈主工智能硬件的发展带来了全新的机遇与可能。新存科技发布其自主研发的国产首款最大容量新式3D存储器芯片NM101。该新品给与先进工艺制程结合三维堆叠时期,单芯片容量达64Gb。这款高速大容量芯片专为大数据期间设想,旨在舒服奇迹器、智能末端等领域对存储容量和读写性能的严苛需求。

据悉,当作纯国产自主学问产权的居品,新存科技的3D PCM(相变存储器)依然处于产业化的前夕,新存科技与浙江安吉政府互助投建的1万片/月产能的中试线现时正平定鼓吹,展望2025年即可投产。

自研SSD主控存储芯片舒服AI性能和资本。算力是AI发展的基础设施,AI西宾需要将数据集进行叠增加轮处理,算力的畛域径直决定了数据处理的效果和才略。

进入AI智算期间,数据量呈现“指数级”增长。面对“存储墙”、“功耗墙”等问题,传统规划体紧缚构入网算存储架构亟需升级,将存储与规划有机交融,以其强大的能效比提高后劲,材干匹配智算期间巨量数据存储需求。

忆芯科技自主研发高性能企业级SSD存算一体化主控芯片STAR2000,初度杀青了真的“存算一体”,将存内规划、存储适度、边际规划和东谈主工智能应用加速归集在单一芯片上加以杀青,以此面向企业级市集提供了极具功效比上风的SSD居品,以叮咛AI期间存储日益复杂和各样化的挑战。

忆芯企业级SSD居品以高算效比设想,支捏AI算法存内规划与数据库存算数据一致性加速退换,推行算效比超12TOPS/W,提供坚忍的智能业务规划保险。在东谈主工智能规划应用的全经过中,杀青了AI资源和数据分类、AI数据处理索引检索加速、AI聚类加速、特征比对加速、硬件智能认证折柳、数据流退换及规划存储实在度量等多重功能。

忆芯企业级SSD居品在奇迹质料、蔓延、安全、兼容性、容错纠错等方面发达优秀。其中,STAR2000E系列居品大致提供坚忍的稳态轨则读写和立时读写性能,最高轨则读写可分别达7.2GB/s、6.8GB/s,立时读写性能最高可达1750K IOPS和700K IOPS,具有业界最初的忆芯第4代LDPC纠错算法,同期支捏3DWPD和1DWPD的长久性,充分保证数据的可靠性。同期提供高达32TB的单盘容量可选,舒服智算中心对海量数据高效存储的需求。

AI的发展带动了对大容量SSD和QLC NAND时期的需求增长,展望QLC NAND时期因其资本效益和高密度存储才略而得到更泛泛的应用,尽管其写入速率较慢,但相称得当AI驱动的数据存储需求。展望2025年数据中心对NAND容量需求增长超30%,边际AI时期将逐步渗入市集,2026年影响更显赫,推动新式存储决议需求。

得一微加大了在QLC NAND适度器的研发干预,以舒服端侧AI以及AI奇迹器增长需求,况兼公司行将推出PCIe Gen5等关系芯片,为大模子的泛泛应用提供坚忍撑捏,提高数据处理的速率和效果。

在存算一体和存算互联时期方面,得一微极力于于开发基于规划快速链路(CXL)圭臬之上的可规划存储处罚决议,和以数据为中心的规划架构,以杀青有储资源与CPU的空洞耦合,摒除内存层级间的蔓延冒失。现时得一微已捏续积贮CXL关系的时期,将推出关系记号性居品。

在这场AI驱动的数据存储市集的变革波浪中,对象存储凭借独有的数据不断模式,软件界说存储以重塑资源调配方式的生动的架构,SSD漫衍式存储则凭借高速读写和高推广性,协力为AI应用数据增长筑牢根基。

改日,这些改进时期将不绝深度交融改进,继续提高性能,诽谤资本,强化可靠性,不仅能大肆叮咛AI应用数据呈指数级增长的挑战,还会为AI繁盛发张开辟宽敞空间,推动各行业迈向智能化新高度。

举报/反馈