恭喜百度滄海?存儲團隊與中國科學技術大學、清華大學合作的論文《Mantle:EfficientHierarchicalMetadataManagementforCloudObjectStorageServices》已正式被計算機系統領域學術會議SOSP'25(SymposiumonOperatingSystemsPrinciples)錄用!
SOSP與OSDI并稱為操作系統與系統軟件領域具影響力的兩大學術會議,是全球計算機領域公認的高榮譽殿堂。本屆SOSP共收到368篇投稿,僅錄用65篇,錄取率低至17.7%,代表了該領域當前前沿、具影響力的研究成果。
該論文詳細介紹了百度智能云對象存儲BOS的分布式層級Namespace系統Mantle的核心設計。Mantle成功攻克了困擾業界多年的難題,使得對象存儲BOS的層級Namespace能夠同時具備可擴展性與高性能,為AI時代的大數據上云徹底掃清了障礙。
入選SOSP'25:百度智能云對象存儲破解業界難題,掃清大數據上云障礙
注:標*為共同一作,其中BiaoCao為百度智能云架構師
傳統對象存儲的困境:層級Namespace難逃單機瓶頸
多年以來,HDFS一直是大數據存儲的代名詞。然而,隨著數據規模的日益增大,其固有缺陷愈發凸顯:其一,三副本機制導致存儲成本高昂;其二,單Namenode的設計將文件規模限制在數億級別,難以滿足AI時代單桶百億甚至千億文件的擴展性需求;其三,復雜的運維工作對技術團隊提出了極高要求。
在此背景下,具備「低成本、無限擴展、云原生免運維」等優勢的對象存儲,迅速成為構建新一代數據湖存儲底座的共識,以支撐更大數據規模的大數據計算業務。但一個關鍵瓶頸橫亙眼前:傳統對象存儲采用的「平坦Namespace」難以高效支持依賴文件系統語義的大數據計算任務(如目錄遍歷、遞歸刪除、路徑重命名等),導致其在特定場景下的性能遠不如HDFS。
為了彌合這一鴻溝,業界普遍認為,為對象存儲增加「層級Namespace」能力是必然趨勢。但遺憾的是,主流云廠商的現有方案始終未能擺脫單機性能瓶頸,其擴展性與HDFS相比并無本質飛躍。
兩大核心挑戰:為何高性能的分布式層級Namespace如此難解?
構建一套面向大規模對象存儲服務、真正分布式的層級Namespace,面臨著兩個長期未被攻克的嚴峻性能挑戰:
長路徑解析開銷巨大:解析一個深層文件路徑,如/A/B/C/D/file.txt,需要多次網絡通信,累積延遲極高,嚴重拖慢計算效率。傳統的客戶端緩存,在對象存儲基于RestfulAPI、無狀態Proxy的架構下難以實施。而簡單的并行路徑解析方案,在高并發場景下又因線程過度調度而引發資源爭搶,適得其反。
分布式事務沖突頻發:當數千乃至上萬個計算任務并發地對同一目錄進行創建、刪除或重命名操作時,傳統分布式事務機制會產生海量的讀寫沖突與重試,導致系統吞吐量斷崖式下跌。即便放寬隔離級別等緩解手段,也難以根治跨目錄重命名等復雜操作帶來的根本性沖突問題。
正因為如此,業界一直缺乏一種既能發揮對象存儲成本與擴展性優勢,同時又能媲美HDFS性能的真正可擴展、高性能的層級命名空間解決方案,導致「對象存儲成為數據湖存儲底座」的愿景,在實際落地中屢屢受阻。
Mantle:全球破局者——融合文件和對象存儲的優勢,構建數據湖堅實底座
百度滄海?存儲研發的Mantle,正是全球范圍內一個公開的、完整解決上述兩大難題,并成功經受了超大規模生產環境長期檢驗的「分布式層級Namespace系統」。
Mantle創新性地將傳統文件系統的強大語義優勢,與新型對象存儲的低成本、可擴展、云原生易運維特性融合,實現了革命性的突破,為EB級別的新一代數據湖打開了想象空間。
此次入選SOSP'25的論文,所闡述的正是這套兼具擴展性與卓越性能的方案,它標志著對象存儲真正成為云原生數據湖的堅實底座。
入選SOSP'25:百度智能云對象存儲破解業界難題,掃清大數據上云障礙
卓越性能:延遲降低高99.1%,吞吐提升高115倍
分布式層級Namespace系統Mantle不僅解決了理論難題,更在實踐中創造了令人驚嘆的性能表現:
性能:與Tectonic、InfiniFS和LocoFS等業界新進展相比,Mantle將元數據訪問延遲降低了6.6%至99.1%,吞吐量提高了0.07倍至115.00倍。
業務加速:在交互式Spark分析場景,作業完成時間縮短了63.3%至93.3%。在AI驅動的音頻預處理任務中,作業完成時間縮短了38.5%至47.7%。
目前,Mantle已在百度智能云對象存儲BOS的生產環境中大規模上線超過兩年,提供了成熟可靠的服務。它為云上眾多客戶的大數據分析、人工智能、自動駕駛等關鍵業務提供了堅實、高效的存儲底座。
不止于論文:百度滄海?存儲元數據面架構的創新故事
關于Mantle論文技術解讀,以及百度滄海?存儲元數據面架構的創新故事,后續將在微信公眾號百度智能云技術站,敬請期待!
