自然語言處理NLP是通過計算機對語言的形、音、義等信息進行處理,即進行字、詞、句、篇章的輸入、輸出、識別、 分析、理解、生成等操作和加工,其目的在于用計算機代替人工來處理大規模自然語言信息。為使人機間信息交流成 為可能,NLP是目前人工智能界、計算機科學界和語言學界所共同關注的重要技術。
蘇州大學作為教育部與江蘇省人民政府共建的國家一流學科建設高校,憑借強大科研力量進行著NLP領域的機器翻譯、 文本分類、文本校對、信息抽取、語音合成、語音識別等前沿技術研究。期間,科研組發現大型數據出現存取受限及 讀寫緩慢等問題,由此亟需通過存儲優化,以加速整體科研進程。
NLP包含多種系統(機器翻譯系統、自然語言理解系統、信息自動檢索系統、文本信息挖掘系統、語音自動識別系 統、文字自動識別系統等),會涉及十分龐大及多樣化的文本數據。
NLP文本聚類和文本生成對文本信息的迭代將產生大量數據,由此存儲的后期擴展性十分重要。
在NLP智能人機對話技術研究中,對于語音數據的實時讀取十分重要,這要求存儲系統需具備高效的傳輸性能。
為幫助蘇州大學NLP科研組解決目前所面臨的存儲難題,超集信息聯合西部數據,為其提供了MatrixStore分布式存儲 解決方案。
MatrixStore分布式存儲通過虛擬化技術、分布式存儲技術以及集群技術將海量的通用X86架構服務器虛擬成一個容量 大、性能高、擴展性強的共享硬盤,為NLP提供高并發數據讀寫訪問,同時搭載西部數據創新的OptiNAND技術的閃存 增強型硬盤系列產品,從架構上徹底消除了傳統存儲的瓶頸,能夠滿足高帶寬、高并發的海量數據存儲需求。
在經濟高效地存儲大規模數據方面,硬盤(HDDs) 將繼續發揮核心作用。因此整個存儲系統搭配了由西部數據提供的大 容量Ultrastar系列產品,實現了更高的數據密度,從而助力數據中心擴展和效率提升。目前,西部數據擁有高達22TB 的數據中心HDD,并且采用創新的OptiNAND技術,成為了數據密度領域的下一次飛躍。這種更高容量的密度能讓數據 中心能夠更大限度利用其存儲空間,特別是在空間和功率受限的環境中。
西部數據在其數據中心20TB及22TB容量的HDD中均采用了OptiNAND技術,這一重塑的存儲架構將兩項基本技術結合 在一起,提供了一種能夠實現創新的解決方案,為滿足未來的容量、性能和可靠性需求奠定基礎。
為幫助蘇州大學NLP科研組解決目前所面臨的存儲難題,超集信息聯合西部數據,為其提供了MatrixStore分布式存儲 解決方案。
MatrixStore分布式存儲通過虛擬化技術、分布式存儲技術以及集群技術將海量的通用X86架構服務器虛擬成一個容量 大、性能高、擴展性強的共享硬盤,為NLP提供高并發數據讀寫訪問,同時搭載西部數據創新的OptiNAND技術的閃存 增強型硬盤系列產品,從架構上徹底消除了傳統存儲的瓶頸,能夠滿足高帶寬、高并發的海量數據存儲需求。
更高容量
可以把ePMR硬盤的容量做得更大。OptiNAND與三階尋軌定位系統(TSA)技術相結合可以幫助增加磁道數量,即磁道 密度(TPI),實現更高的面密度,以使磁碟上存儲更多數據。
性能的增強
通過優化固件縮短時延,主要是減少相鄰磁道干擾(ATI)刷新次數,并減少寫緩存啟用模式下對寫緩存刷寫的需求,從 而提高內部磁盤效率。
可靠性的提升
在發生緊急斷電事件時,相比將數據刷新到 DRAM的上一代HDDs,OptiNAND可以安全地刷新和保留近 50 倍的客戶 數據。
更值得一提的是在OptiNAND技術支持下的 ArmorCache™功能(僅限22TB),在啟用寫入緩存 (WCE) 的模式下為您的 數據提供企業斷電保護,同時在禁用寫入緩存 (WCD) 的模式下提高性能。
蘇州大學前期項目規劃中未考慮存儲擴展需求,局限的性能無法滿足數據持續增長下的性能需求。在西部數據Ultrastar 大容量系列產品及超集信息MatrixStore分布式存儲解決方案幫助下,以更佳的可靠性、安全性和性能,有效解決了目 前所面臨的存儲瓶頸,實現了大于2GB/s的高帶寬吞吐,同時豐富的橫向擴展能力帶來了更加靈活的存儲擴容。并且, 當硬盤節點發生故障時,可在短時間內完成恢復,整個存儲平臺的容量及性能均得到了有效提升。