北京2022年8月12日 /美通社/ -- 隨著經(jīng)濟(jì)社會(huì)加速數(shù)字化轉(zhuǎn)型,大數(shù)據(jù)、云計(jì)算、人工智能、區(qū)塊鏈等新一代信息技術(shù)快速興起,智慧政務(wù)、金融科技、智慧交通、遠(yuǎn)程教育、智慧醫(yī)療等應(yīng)用加速落地,辦公文檔、圖片、視頻、音頻、設(shè)計(jì)文檔、日志文件、機(jī)器數(shù)據(jù)等非結(jié)構(gòu)化數(shù)據(jù)爆發(fā)式增長(zhǎng),企業(yè)和組織愈發(fā)重視海量非結(jié)構(gòu)化數(shù)據(jù)的管理與應(yīng)用。如何依靠底層技術(shù)讓海量非結(jié)構(gòu)化數(shù)據(jù)的管理和使用更簡(jiǎn)單?無處不在的元數(shù)據(jù)給出了答案。
什么是元數(shù)據(jù)?
元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù),人們身邊的一切信息和資源都可以用數(shù)據(jù)來描述,元數(shù)據(jù)則是從數(shù)據(jù)資源中抽取用來說明其特征和內(nèi)容的結(jié)構(gòu)化數(shù)據(jù),用于組織、管理、保存、檢索信息和資源。雖然人們看不見元數(shù)據(jù)的存在,但它卻無時(shí)無刻不伴隨左右。人們平時(shí)所津津樂道的大數(shù)據(jù),也是基于元數(shù)據(jù)來計(jì)算的。
企業(yè)和組織可以基于元數(shù)據(jù)對(duì)海量非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行管理,例如獲取后綴名為jpeg的所有圖片文件列表、獲取文件大小大于10M的文件列表、獲取給定日期之前創(chuàng)建的文件列表,在快速獲取符合條件的文件之后還可以高效管理對(duì)應(yīng)的數(shù)據(jù)。而如何更方便快捷地查找到非結(jié)構(gòu)化的文件成為分布式存儲(chǔ)面臨的全新挑戰(zhàn)。
傳統(tǒng)檢索方式較為簡(jiǎn)單粗暴,難以應(yīng)對(duì)文件多、目錄層次深、檢索條件復(fù)雜等挑戰(zhàn)。例如Linux中的find查找,對(duì)象存儲(chǔ)中的前綴檢索,都只能遍歷所有文件進(jìn)行篩選,功能上不能滿足多樣化的檢索需求,檢索字段有限,檢索方式單一;還有性能上也影響了底層元數(shù)據(jù)管理服務(wù)的檢索能力和檢索效率。
浪潮分布式存儲(chǔ)基于對(duì)元數(shù)據(jù)檢索的研究,在分布式存儲(chǔ)平臺(tái)AS13000上進(jìn)行技術(shù)創(chuàng)新,在對(duì)象、文件、大數(shù)據(jù)三大非結(jié)構(gòu)化存儲(chǔ)場(chǎng)景,研發(fā)了元數(shù)據(jù)檢索功能,支持對(duì)文件名稱、路徑、類型、大小、自定義元數(shù)據(jù)、創(chuàng)建時(shí)間、修改時(shí)間、用戶(組)、桶等關(guān)鍵字段進(jìn)行檢索,以及支持基礎(chǔ)檢索和邏輯關(guān)系自定義等高級(jí)檢索功能。百億級(jí)文件,可以進(jìn)行亞分鐘級(jí)檢索。
浪潮分布式存儲(chǔ):元數(shù)據(jù)檢索的四大優(yōu)勢(shì)
浪潮分布式存儲(chǔ)AS13000元數(shù)據(jù)檢索能夠同時(shí)兼容對(duì)象、文件、大數(shù)據(jù)三大非結(jié)構(gòu)化存儲(chǔ)場(chǎng)景,引入Elasticsearch作為元數(shù)據(jù)檢索引擎,支持NFS、CIFS、S3、Swift、HDFS協(xié)議。
Elasticsearch是一個(gè)可擴(kuò)展的RESTful風(fēng)格的分布式數(shù)據(jù)檢索和分析引擎,它能夠快速且近實(shí)時(shí)地存儲(chǔ)、檢索、分析海量數(shù)據(jù),通常用作具有復(fù)雜檢索應(yīng)用的底層引擎。
分布式存儲(chǔ)+Elasticsearch,即為浪潮分布式非結(jié)構(gòu)化存儲(chǔ)AS13000元數(shù)據(jù)檢索的核心。
文件的元數(shù)據(jù)信息會(huì)同步至Elasticsearch引擎中,基于此,企業(yè)的元數(shù)據(jù)檢索命令通過協(xié)議轉(zhuǎn)換,在Elasticsearch中檢索出符合要求的文件信息。
比如,浪潮分布式存儲(chǔ)具有更全面的協(xié)議支撐。浪潮分布式存儲(chǔ)AS13000能夠同時(shí)支持NFS、CIFS、S3、Swift、HDFS協(xié)議進(jìn)行檢索;同時(shí)支持企業(yè)自己的RESTful風(fēng)格訪問程序進(jìn)行自定義元數(shù)據(jù)信息檢索;
又如,具備更靈活便捷的檢索方式?;谏鲜龅慕Y(jié)構(gòu),浪潮分布式存儲(chǔ)AS13000實(shí)現(xiàn)了更為豐富的檢索手段和快捷的檢索速度,對(duì)數(shù)據(jù)存儲(chǔ)本身的讀寫影響更小。浪潮存儲(chǔ)支持的檢索內(nèi)容包括兩個(gè)方面,其一,豐富的檢索字段,包括文件名稱、路徑、類型、大小、創(chuàng)建時(shí)間、最后修改時(shí)間、用戶名、用戶組名、桶名,以及用戶自定義的元數(shù)據(jù)信息,都可以作為檢索字段。其二,多樣的檢索邏輯,支持大于、大于等于、小于、小于等于、不等于、等于等算術(shù)比較運(yùn)算符,邏輯支持"并且"、"或者"等邏輯運(yùn)算符。企業(yè)可以根據(jù)需求在檢索界面上進(jìn)行檢索式的組裝,且檢索結(jié)果支持分頁展示。
再如,更安全的元數(shù)據(jù)保護(hù)。為了保護(hù)企業(yè)的元數(shù)據(jù)信息,避免非法的RESTful請(qǐng)求惡意獲取Elasticsearch中的元數(shù)據(jù)信息,浪潮分布式存儲(chǔ)AS13000同時(shí)針對(duì)Elasticsearch進(jìn)行了安全限制,針對(duì)Elasticsearch提供數(shù)據(jù)流加密,同時(shí)基于角色進(jìn)行訪問安全校驗(yàn),保障元數(shù)據(jù)信息的網(wǎng)絡(luò)安全。
最后,更便捷的對(duì)接方式。浪潮分布式存儲(chǔ)AS13000不僅能夠提供元數(shù)據(jù)檢索服務(wù),同時(shí)能夠輕松對(duì)接企業(yè)的Elasticsearch引擎。如果企業(yè)原本就有元數(shù)據(jù)檢索引擎,則可以直接部署浪潮分布式存儲(chǔ),對(duì)接企業(yè)的Elasticsearch,不需要企業(yè)更改原本的檢索手段,實(shí)現(xiàn)無縫切換。
具備元數(shù)據(jù)檢索功能的浪潮分布式存儲(chǔ)AS13000,已經(jīng)在金融、通信、教科研、醫(yī)療等行業(yè)規(guī)模部署,為企業(yè)提供更簡(jiǎn)單、更豐富、更便捷的元數(shù)據(jù)檢索方式,讓企業(yè)輕松應(yīng)對(duì)數(shù)字經(jīng)濟(jì)時(shí)代的海量數(shù)據(jù)挑戰(zhàn)。