從規(guī)???,近三年中國(guó)分布式存儲(chǔ)市場(chǎng)規(guī)模均保持30%以上的高速增長(zhǎng),2022年市場(chǎng)規(guī)模達(dá)104.2億元
從結(jié)構(gòu)看,2022年,文件存儲(chǔ)占比最高,一體機(jī)、分布式混閃、虛擬化融合在各自領(lǐng)域占比較高。
從場(chǎng)景看,HPC在2022年中國(guó)分布式存儲(chǔ)主要場(chǎng)景市場(chǎng)中居于重要地位
從區(qū)域看,2022年華北、華東地區(qū)占據(jù)半壁江山,京津冀、長(zhǎng)三角市場(chǎng)領(lǐng)跑
2022年中國(guó)分布式存儲(chǔ)市場(chǎng)中,領(lǐng)導(dǎo)者有華為、中科曙光、浪潮、新華三;挑戰(zhàn)者有漢榮信息、XSKY、 SmartX、 NetApp、 Dell&EMC、焱融科技;跟隨者有同有、杉巖和中國(guó)電子云;可期待者有深信服和聯(lián)想。
中科曙光在分布式存儲(chǔ)教育科研和氣象市場(chǎng)份額居首位,SmartX在分布式塊存儲(chǔ)金融市場(chǎng)居首位。
一、分布式存儲(chǔ)是什么
傳統(tǒng)存儲(chǔ)面臨拓展性有限、結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)兼容性不佳、數(shù)據(jù)讀寫任務(wù)(I/O)性能與成本不經(jīng)濟(jì)、可靠性不高和面向新應(yīng)用(如容器)支持能力有待提升等問(wèn)題,用戶體驗(yàn)不佳。在此背景下,分布式存儲(chǔ)近年來(lái)迅速發(fā)展,一定程度上與傳統(tǒng)存儲(chǔ)實(shí)現(xiàn)了較好配合,滿足了多個(gè)場(chǎng)景用戶的個(gè)性化需求。
分布式架構(gòu):與集中式架構(gòu)不同,分布式架構(gòu)沒(méi)有負(fù)責(zé)所有業(yè)務(wù)的中心節(jié)點(diǎn),而是由多個(gè)可相互通信、協(xié)調(diào)的普通節(jié)點(diǎn)構(gòu)成集群,對(duì)外提供服務(wù)。
軟硬件協(xié)同:硬件主要由存儲(chǔ)控制系統(tǒng)(CPU、緩存)、硬盤/閃存盤和網(wǎng)絡(luò)等構(gòu)成,軟件則是與硬件適配的存儲(chǔ)操作系統(tǒng),以及存儲(chǔ)服務(wù)軟件、管理軟件、狀態(tài)監(jiān)控軟件等應(yīng)用軟件。
高效網(wǎng)絡(luò):并不是傳統(tǒng)的TCP/IP網(wǎng)絡(luò),而是采用存算分離的設(shè)計(jì)思路,不通過(guò)CPU,直接由內(nèi)存?zhèn)鬏數(shù)街悄芫W(wǎng)卡完成I/O的遠(yuǎn)程直接地址訪問(wèn)網(wǎng)絡(luò)(RDMA)。
二、分布式存儲(chǔ)的分類
根據(jù)場(chǎng)景特點(diǎn)和需求,2022年中國(guó)分布式存儲(chǔ)產(chǎn)品共有四種主要的分類方式:
按存儲(chǔ)對(duì)象,可分為分布式塊存儲(chǔ)、分布式文件存儲(chǔ)、分布式對(duì)象存儲(chǔ)、分布式統(tǒng)一存儲(chǔ);
按產(chǎn)品形態(tài),可分為一體機(jī)、純硬件和純軟件;
按存儲(chǔ)介質(zhì),可分為分布式全閃存、分布式混閃;
按部署方式,可分為虛擬化融合方式、容器融合方式和分離方式。
(一)按存儲(chǔ)對(duì)象分類
分布式塊存儲(chǔ):指將各存儲(chǔ)節(jié)點(diǎn)的硬盤、閃存盤等存儲(chǔ)硬件資源通過(guò)劃分邏輯卷(LVM)、創(chuàng)建獨(dú)立冗余存儲(chǔ)陣列(Raid)、邏輯分區(qū)等方式,由物理存儲(chǔ)資源轉(zhuǎn)化為面向需求的邏輯塊,提高使用效率。
分布式文件存儲(chǔ):指基于文件系統(tǒng)對(duì)各存儲(chǔ)節(jié)點(diǎn)的數(shù)據(jù)進(jìn)行存儲(chǔ),形成目錄、子目錄、文件,常見的分布式文件存儲(chǔ)應(yīng)用有Ceph、HDFS、GFS、 FastDFS、GridFS、mogileFS、TFS等。
分布式對(duì)象存儲(chǔ):指各存儲(chǔ)節(jié)點(diǎn)由標(biāo)識(shí)符、數(shù)據(jù)和元數(shù)據(jù)的對(duì)象數(shù)據(jù)構(gòu)成。其中標(biāo)識(shí)符在該存儲(chǔ)系統(tǒng)中唯一,用于區(qū)分不同存儲(chǔ)區(qū)域;元數(shù)據(jù)將提取數(shù)據(jù)特征,便于快速檢索。分布式對(duì)象存儲(chǔ)相比塊存儲(chǔ)和文件存儲(chǔ),數(shù)據(jù)查找和提取的效率大大提升,適用于文本、音頻、視頻等非結(jié)構(gòu)化數(shù)據(jù)。
分布式統(tǒng)一存儲(chǔ):指各存儲(chǔ)節(jié)點(diǎn)同時(shí)支持塊、文件和對(duì)象三大類型數(shù)據(jù),滿足虛擬化、云平臺(tái)和容器平臺(tái)等新興存儲(chǔ)需求,為用戶提供服務(wù)典型應(yīng)用和計(jì)算平臺(tái)的統(tǒng)一存儲(chǔ)資源池。
(二)按產(chǎn)品形態(tài)分類
一體機(jī):從設(shè)備層面將各節(jié)點(diǎn)存儲(chǔ)資源進(jìn)行融合優(yōu)化,同時(shí)軟硬件為同一廠商生產(chǎn)、一體交付,適配度高,可有效緩解單個(gè)節(jié)點(diǎn)或設(shè)備短板導(dǎo)致整體系統(tǒng)功能受影響等問(wèn)題。擴(kuò)展能力較強(qiáng),且可在線增加節(jié)點(diǎn),對(duì)前段業(yè)務(wù)完全透明。不足之處是價(jià)格偏高。
純硬件:指交付形態(tài)為磁盤陣列、閃存盤集群等硬件資源的分布式存儲(chǔ)產(chǎn)品,適配的軟件分為自研和開源二次開發(fā)兩種路線。純硬件交付模式成本高,但可靠性較高,適用于重要敏感數(shù)據(jù)存儲(chǔ)場(chǎng)景。
純軟件:指交付形態(tài)為定制化應(yīng)用軟件、平臺(tái)授權(quán)碼等的分布式存儲(chǔ)產(chǎn)品,一般應(yīng)用于優(yōu)化存儲(chǔ)硬件的場(chǎng)景,如老舊數(shù)據(jù)中心改擴(kuò)建等。純軟件交付定制化空間大、成本低、交付周期短,但擴(kuò)容及存儲(chǔ)硬件兼容性問(wèn)題一定程度上也會(huì)影響運(yùn)行效率。
(三)按存儲(chǔ)介質(zhì)分類
分布式全閃存:指各存儲(chǔ)節(jié)點(diǎn)完全由固態(tài)硬盤(SSD)構(gòu)成,主流的適配接口為NVNe,每秒讀寫次數(shù)(IOPS)可躍升至百萬(wàn)級(jí)別,相比傳統(tǒng)的機(jī)械硬盤(HDD)提升了近千倍。缺點(diǎn)是價(jià)格高昂,且受限于系統(tǒng)總線協(xié)議和其他部件,分布式全閃存性能較難完全發(fā)揮。
分布式混閃:指各存儲(chǔ)節(jié)點(diǎn)由SSD、HDD等構(gòu)成。盡管性能不及分布式全閃存,但可針對(duì)場(chǎng)景需求進(jìn)行個(gè)性化定制,從而最大程度上均衡成本和性能,是目前主流的分布式存儲(chǔ)產(chǎn)品。
(四)按部署方式分類
虛擬化融合:指在分布式存儲(chǔ)(塊存儲(chǔ)為主)的架構(gòu)基礎(chǔ)上,利用服務(wù)器虛擬化的隔離機(jī)制,實(shí)現(xiàn)存儲(chǔ)和服務(wù)器虛擬化在同一硬件節(jié)點(diǎn)上的部署。這種架構(gòu)的優(yōu)勢(shì)在于整體架構(gòu)更為簡(jiǎn)單,并且節(jié)省了硬件成本,缺點(diǎn)是計(jì)算和存儲(chǔ)需要同時(shí)擴(kuò)展,不適用于計(jì)算和存儲(chǔ)應(yīng)用不均衡的場(chǎng)景。
容器融合:面對(duì)容器化持久化存儲(chǔ)日益增長(zhǎng)的需求和Kubernetes特有的管理架構(gòu),專門針對(duì)此類場(chǎng)景的分布式存儲(chǔ)產(chǎn)品也開始涌現(xiàn)。容器融合的分布式存儲(chǔ)產(chǎn)品對(duì) K8s集群內(nèi)的存儲(chǔ)資源進(jìn)行整合與管理,不僅可以通過(guò)與容器融合部署降低成本,簡(jiǎn)化系統(tǒng)架構(gòu),還可以無(wú)縫融入 K8s 原生的開發(fā)和運(yùn)維體系,更加符合 K8s 運(yùn)維團(tuán)隊(duì)的使用習(xí)慣。
分離:指各存儲(chǔ)節(jié)點(diǎn)資源與應(yīng)用分離,雖然架構(gòu)更加復(fù)雜并需要更多的硬件節(jié)點(diǎn),但方案更為靈活,并適用更多場(chǎng)景,尤其適合大容量的數(shù)據(jù)存儲(chǔ),以及從裸金屬、虛擬化到容器的不同計(jì)算節(jié)點(diǎn)的混合資源池。
三、分布式存儲(chǔ)的優(yōu)勢(shì)
高可靠性:分布式存儲(chǔ)的數(shù)據(jù)采取存放在多個(gè)存儲(chǔ)節(jié)點(diǎn)中的全冗余部署,通過(guò)多時(shí)間點(diǎn)快照、周期增量復(fù)制兩大核心技術(shù),可實(shí)現(xiàn)在一定時(shí)間間隔內(nèi),對(duì)各版本數(shù)據(jù)的保存,并且同時(shí)進(jìn)行恢復(fù),可幫助分析和研究,避免類似災(zāi)難的再次發(fā)生。
高效作業(yè):面對(duì)可劃分為若干個(gè)并行運(yùn)行的子任務(wù)的存儲(chǔ)任務(wù),分布式存儲(chǔ)可將這些子任務(wù)分散到不同的存儲(chǔ)節(jié)點(diǎn)上,使其同時(shí)運(yùn)行作業(yè),從而提高效率。另外,分布式存儲(chǔ)系統(tǒng)具有任務(wù)負(fù)載平衡功能,如果某個(gè)存儲(chǔ)節(jié)點(diǎn)的負(fù)載過(guò)重,則可把其中一些作業(yè)遷移到其他節(jié)點(diǎn)去執(zhí)行,從而減輕該節(jié)點(diǎn)的負(fù)載,實(shí)現(xiàn)整體效率的提升。
高可擴(kuò)展性:分布式存儲(chǔ)橫向連接了多個(gè)存儲(chǔ)節(jié)點(diǎn),可按存儲(chǔ)容量和性能的需要,靈活橫向拓展(Scale-out)新節(jié)點(diǎn)。新存儲(chǔ)節(jié)點(diǎn)和原系統(tǒng)連接到同一個(gè)網(wǎng)絡(luò),同時(shí)業(yè)務(wù)的連續(xù)性基本不受影響,可基本實(shí)現(xiàn)分布式存儲(chǔ)系統(tǒng)的總?cè)萘亢托阅軣o(wú)感線性擴(kuò)展。新存儲(chǔ)節(jié)點(diǎn)的資源將由分布式存儲(chǔ)操作系統(tǒng)管理,進(jìn)行分配或取消,原有數(shù)據(jù)可通過(guò)復(fù)制、鏡像、同步等方式,實(shí)現(xiàn)在新節(jié)點(diǎn)的遷移。
四、分布式存儲(chǔ)的典型應(yīng)用場(chǎng)景
2022年,中國(guó)分布式存儲(chǔ)充分發(fā)揮上述優(yōu)勢(shì),與傳統(tǒng)的集中式存儲(chǔ)相比,在云原生、高性能計(jì)算(HPC)、融媒體、智能備份和分布式數(shù)據(jù)庫(kù)等領(lǐng)域表現(xiàn)突出。
云原生:指“生在云上、長(zhǎng)在云上”的政企業(yè)務(wù)場(chǎng)景,典型的有容器和微服務(wù)等;
高性能計(jì)算(HPC):支撐氣象、基因測(cè)序等每秒百億億次浮點(diǎn)計(jì)算(EFLOPS)場(chǎng)景的分布式存儲(chǔ),通常以PB,乃至EB計(jì)量;
融媒體:指文件大且I/O延遲要求低的元宇宙、虛擬數(shù)字人和虛擬現(xiàn)實(shí)等場(chǎng)景;
智能備份:指視頻監(jiān)控、醫(yī)療影像和智能制造等場(chǎng)景;
分布式數(shù)據(jù)庫(kù):指具備分布式事務(wù)處理能力、可平滑擴(kuò)展、分布于計(jì)算機(jī)網(wǎng)絡(luò)且邏輯上統(tǒng)一的數(shù)據(jù)庫(kù),分布式存儲(chǔ)是分布式數(shù)據(jù)庫(kù)的核心技術(shù)之一。
聯(lián)系我們
您好,我們隨時(shí)為您提供服務(wù)
全國(guó)統(tǒng)一服務(wù)熱線:4008081607
銷售熱線:13912903125