數據空間需要新型基礎設施
國家數據局成立后于2023年首次提出了數據基礎設施體系(如圖1),左上的網絡設施、安全設施是信息基礎設施的核心,右下的算力設施、數據流通設施是新型基礎設施的核心。
圖1:國家數據局提出的“數據基礎設施”體系圖
本文的主要觀點是:從信息時代演進到智能時代的本質變化就是網絡空間(Cyberspace)架構在信息空間層上增加了數據空間層。數據基礎設施就是要實現人工智能三要素——數據、算力、算法的基礎設施化,以支撐智能時代核心資源的廣域共享與人工智能低門檻的廣泛應用。
一、 網絡空間是如何形成的?
空間就是有結構的一種物質客觀存在形式。從空間的角度看,網絡空間(Cyberspace)是如何形成的?
首先,網絡空間的基礎是計算機系統,從大型的主機到小型的服務器,再到微型的微機,以及移動型的智能手機和現在嵌入型的智能物端(embodiment thing)等,都是單個的計算機系統。然后,建立連接,就有了計算機網絡,形成了網絡空間的物理層——計算機空間。由網絡IP地址和網絡傳輸協議構成的互聯網結構,是計算機空間的基本結構,其主力應用是各類網絡應用,如電子郵件(email)、遠程終端(telnet)。
然后,通過萬維網(World-Wide Web),形成了網絡空間的邏輯層——信息空間。其基本抽象是網頁(web page),核心功能都是通過網頁的生成、組合、顯示(html)來實現的,網頁的地址和鏈接協議(http)構成了信息空間的基本結構,主力應用是各類網頁應用,如搜索(Baidu)、網購(Alibaba)、即時通信(WeChat)。
這樣形成了網絡空間中的信息基礎設施(information infrastructure),包括四層:底層是通信基礎設施,包括光網絡、接入網、衛通網、物聯網;中間層是互聯網基礎設施,包括IP網、域名服務等;上層是萬維網的各大信息樞紐網站;最后的第四層是云計算基礎設施,包括超算中心、IDC、公有云、私有云等。
當前正在形成網絡空間的虛擬層——數據空間。下面將探討數據空間的本質,數據空間的新型數據基礎設施,以及如何支持數據空間的主力應用AI+。
總結一下,網絡空間是一個三層架構(如圖2)。最下層是計算機空間,基本結構是互聯網,連接所有計算設備,加工人類抽象出的知識。中間層是信息空間,基本結構是萬維網,連接所有網頁,加工信息。最上層是數據空間,基本結構是數據場(注:該概念由吳曼青院士首先提出),連接所有數據件,加工人機物三元世界產生并匯聚的數據,生成模型,再通過AI+溶入(embodiment)到信息世界、物理世界的各個過程中。
圖2:網絡空間的三層架構
二、 數據空間存在嗎?
數據是客觀存在的(being),并在網絡空間中被數字化了,在信息空間里被處理后成為網頁中的信息。但是,數據空間獨立出來的價值是什么?網絡世界里的數據集合是否具備獨立的基本結構呢?
1. 處理對象
網絡空間處理對象的演化規律是從知識到信息,再到數據(如圖3、4、5)。網絡計算空間是連接所有計算設備,加工人類符號化的數理知識,網格計算(Grid Computing)是這個空間的算力基礎設施化;網絡信息空間是連接所有網頁,加工人類社會向數字空間投影的各類信息,云計算(Cloud Computing)是這個空間的算力基礎設施化;網絡數據空間是連接所有數據件與模型庫,加工全量數據形成智能模型,算力網(Computility)是這個空間的算力基礎設施化。由計算機學者在上世紀60年代提出的算力基礎設施化的理想正在一步步變成現實。
圖3:網絡計算空間
圖4:網絡信息空間
圖5:網絡數據空間
網絡數據空間預計會分成三個發展階段,其中:2010-2020年是基于爬取數據集的大數據(BigDada)與深度學習(DeepLeaning);2020-2030年是基于連接數據件的大模型深度學習;2030-2040年階段,我們預期是大模型連接成網,未來通用人工智能不是一個大模型能覆蓋的,會有很多大模型,可能通用人工智能(AGI)需要連接網絡空間里所有的模型。 除了人工智能大模型,科學計算也有很多模型,也需要與人工智能大模型用某種方式連接起來。
2. 價值增值方式
所有信息變換的目的都是為了價值的不斷增值。網絡信息空間的高價值活動的特點是“核裂變”,追求無限擴大信息可達的邊界,梅特卡夫定律(Metcalfe's law)指出:網絡信息空間的價值與用戶數的平方成正比。而網絡數據空間的高價值活動的特點是“核聚變”,追求無限擴大數據件的邊界,無限壓縮知識數字化表達的語義空間。從這個角度看問題,LLM是用Transfomer算法點火成功的互聯網數據空間的一個大型聚變反應的產物。我們也大膽預測一個定律:網絡數據空間的價值與廣譜關聯數據件數量的平方成正比。從數據空間看,智能是數據的百煉成鋼(如圖6),還需要提煉出若干數據增值的范式。
圖6:網絡數據空間的價值增值方式
3. 數據空間存在結構嗎?
數據空間是否存在基本的結構體,目前學術界還沒有形成共識。最早試圖破解這個基礎難題的學者是圖靈獎獲得者羅伯特?卡恩,他是TCP/IP互聯網協議的發明人,在20世紀80年代創造了“國家信息基礎設施”(NII)一詞,后來被稱為“信息高速公路”。他提出了數字對象架構(Digital Object Architecture,DOA)的概念,以便實現在互聯網上對各種數據資源進行管理與互操作,并給出了以數字圖書館為代表性應用的一個參考實現。
國內北大等團隊基于數字對象架構提出了數聯網的構想。數聯網的基本思路是基于軟件定義,通過以數據為中心的開放式軟件體系結構和標準化互操作協議,將各種異構數據平臺和系統連接起來,在“物理/機器”互聯網之上形成的“虛擬/數據”網絡。數聯網的技術思路是沿用Web的思路,實現數據集合的定位發現、交換調度、互操作訪問。數據對象是否需要像Web信息那樣在全世界互聯網上可見可用呢?還是只需要支持區域內共享?需要深入思考。
吳曼青院士在國家數據局推出將數據要素化作為新質生產力的背景下,帶領國家數據空間戰略研究團隊提出數據空間的基本結構是數據場的思路。核心思路是面向數據要素化中的數據流通與交易、價值深加工,提出一套圍繞數據基本抽象的標準、協議、廣譜關聯方法與核心系統。
三、 數據件
智能時代賦予了數據新的兩重屬性,即資源要素屬性與價值加工屬性。數據的資源要素屬性包括產生、獲取、傳輸、匯聚、流通、交易、權屬、資產、安全等要素;而數據的價值加工屬性包括有效提升價值的主要要素,如加工對象(如數據件)、加工工藝(如廣譜關聯算法)、加工動力(如算力網)等。
數據要素化后將會出現多個產業形態。以礦產資源為例,有采礦業、大宗礦物交易市場、冶煉業等。在數據方面,將來也對應有采“數”業、數據交易市場、數據加工業等。數據要素化也需要多個技術體系的支撐,例如,需要傳感器/物聯網技術體系來解決數據“供得出”的難題,需要數據元件概念與數據金庫系統(注:該概念由中國電子陸志鵬副總經理首先提出)來解決數據匯聚與“流得動”的難題,需要數據件技術體系來解決數據“用得好”的難題。除了技術體系,還要有經濟政策層面的創新,包括:數據資產在資產表中怎么并表、數據使用怎么才安全合規、數據集定價的錨點如何選擇等。
數據的基礎設施化主要解決數據的大規模匯聚與流動的問題,包括國家數據樞紐的建設、數據流通與交易設施的建設?!皵祿?0條”推出后,這方面在國家、地方、行業等多個層面都有了很多的實踐,需要進一步歸納出最有效的模式。
支撐數據的價值加工屬性方面則欠缺系統性的工作。數據加工技術從早期的數據管理(DB),到數據檢索(IR),再到數據分析(BI/BD),直到現在的數據深加工(AI),一直在發展與演進。數據的不斷“解耦”是演進的主要規律,它也帶來數據基本抽象的變化(如圖7)。第一次解耦是數據與應用程序的解耦,目標是屏蔽數據訪問的復雜性,降低應用系統的開發門檻,數據基本抽象是ER模型,核心系統有數據庫/數據倉庫。第二次解耦是數據與業務系統的解耦,目標是屏蔽數據匯聚分析的復雜性,降低企業級系統的開發門檻,數據基本抽象是KV模型,核心系統有數據湖。第三次解耦是數據生產與消費主體的解耦,目標是屏蔽數據流轉與使用的復雜性,降低數據要素社會化供給、流通與應用的門檻,數據基本抽象是數據件模型(Dataware),核心系統有數據場。
圖7:數據的不斷“解耦”帶來基本抽象的演化
數據件(Dataware)是數據要素流動與使用的基本單位,通過對異質多源數據的語義、結構、基本操作等進行標準化封裝,使得數據要素與數據主體、數據應用“解耦”,讓數據在不同主體、不同應用系統間高效地流轉與使用。在云計算中,容器(docker)是對應用程序及其依賴的封裝,讓算法在不同平臺上實現一鍵運行,它是一個可以參考學習的對象(如圖8)。
圖8:容器(docker)和數據件(Dataware)
當前的數據加工流程是“原始數據?AI/BD算法”,即原始數據直接送到AI/BD算法中進行處理。數據要素化后的數據加工流程應該經過“原始數據?數據件?數據場?AI/BD計算”三級解耦,實現數據價值的梯次轉化(如圖9),數據的全社會加工效率才能更高。
圖9:數據件的生產鏈
第一步,原始數據先送給數據件組裝工具。以AI大模型應用場景為例,通過數據件構造工具實現預訓練、指令微調、向量數據的快速構造與組裝,再由大模型訓練軟件調用,大幅簡化傳統數據工程的工作量(如圖10)。
圖10:數據件組裝工具
第二步,數據件送給數據場生成工具,其中包括數據件互聯協議和數據場生成描述語言。數據件互聯協議實現數據件尋址、傳輸的透明化、標準化,讓用戶不再關注數據件的存儲位置,實現廣域意義上的存算解耦。數據場生成描述語言,通過對數據件需求的形式化定義與需求轉換邏輯,實現多維度、多類型“數據場”的按需生成,實現對數據件快速、精準地在線獲取。
第三步,數據件最后送給數據場加工工具,其中包括各類廣譜關聯算法。廣譜關聯算法覆蓋對數據件的基本運算操作,實現對數據件的橫向融合加工(如BD分析)與縱向深層提煉(如AI大模型)。同時,數據件生產鏈還要支持內生的安全保障(如圖11)。?
圖11:數據件生產鏈內生安全保障
四、 算力網
性能一直是計算部件與系統能力的表征,為什么還要提出算力這個新概念?算力這個術語對應的英文單詞是Computility(注:《中國計算機學會通訊》,2022年12月),其本義是從產生算力的角度對計算性能的通俗表達,衍生之后更注重消耗計算資源產生效用的能力,是從消耗算力的角度表達。定義一個國家的算力指數不僅要統計處理器芯片數量,還要體現對數據進行深加工與精煉能力。算力概念提出的本質是要推進算力的基礎設施化,而算力網是算力基礎設施化的第三階段。算力網不是把計算設備聯網(這一點互聯網已經做到了),而是算力資源被基礎設施化后以服務的形式提供出來,在全網消費。因此在算力網上流動的不是計算能力,而是消費算力的算力網頁、任務閉包等新容器。
第一階段的算力基礎設施(算力1.0),是網格計算,共享私屬的超算資源,使超算中心資源易使用。第二階段的算力基礎設施(算力2.0),是云計算,將互聯網龍頭企業的閑置算力資源虛擬化后對公眾提供租用服務,對算力用戶來說,做到了算力的彈性可擴展和變買為租,有力地支撐了互聯網時代Web信息的廣域共享。隨著近年來智能物端(無人系統、智能機器人、智能硬件)的蓬勃發展、人工智能技術的大爆發,算力網的概念應運而生,它是第三階段的算力基礎設施(算力3.0)。算力網是繼美國提出網格計算、云計算之后,首次由中國提出的概念。算力1.0和2.0是構建在信息空間之上,而算力3.0必須構建在數據空間之上。
算力網將異地、異屬、異構的分布式算力站,在邏輯上構建成“一臺大電腦”,提供更優適配、更低成本和更加易用的智能算力服務,有力支撐智能時代數據、算力、算法的廣域共享。
國家發改委推動的“東數西算”工程是我國在算力網領域最早的政府行動計劃,有力地推動了我國率先實現算力的基礎設施化?!皷|數西算”工程穩步推進兩年取得很大的進展,算力資源集中向八大國家算力樞紐內匯聚,特別是西部樞紐節點充分利用了綠電資源。在技術創新方面也取得了明顯的成效,包括:異屬算力并網、異構智算統一納管、算力站間直連網絡;算力跨域調度、算網協同調度、廣域數據快遞;超算互聯網應用模式、城市與省域算力網運營等。“東數西算”工程正在形成自己的技術體系(如圖12)。
圖12:“東數西算”技術體系圖
算力網在三個方面存在巨大技術挑戰。
第一個巨大挑戰是可在算力網上流動的算力基本抽象,即算力要素流動與使用的基本單位,可稱之為任務閉包(task closure)。算力基本抽象應包括任務編排的原子化抽象、運行時資源空間管理抽象、算力資源一體化封裝抽象三個層次,按技術發展演進來看(如圖13),從最初的線程/進程/CPU時間片,發展到微服務/容器/虛擬機,再發展到現在的任務閉包/網程/算力池。在IT 1.0的主機階段,并行與分布式編程是在線程抽象的基礎上構建,進程是對資源分配與調度的抽象,可以跨CPU時間片運行;在IT 2.0的互聯網階段,云計算實現了計算能力的虛擬化,容器是對基礎軟硬件資源的封裝,微服務是對編程的原子化抽象,可以跨虛擬機運行;在IT 3.0的智能階段,對全網計算資源要用“一臺大電腦”的思路提供新的抽象,任務閉包可以在端邊云異構平臺上流動和運行;網程是對端上的物理機、邊上的虛擬機、云上并網的算力池,進行統一封裝,形成一個智能應用的資源空間;算力網上的異地、異屬、異構的算力資源并網后要形成一體化的算力池。
圖13:任務閉包的本質
第二個巨大挑戰是實現算力網的兩個核心變化,即算力資源“全局統一”和供需各方“環節解耦”。“全局統一”是指在廣域范圍內分布的異地、異屬、異構的算力資源,在邏輯上對上層應用抹平差異,從而實現資源的全域命名、算力資源統一的池化抽象、算力使用的單一實時計量、算力使用的“網頁化”編程、算力任務的廣域路由、算力負載的跨平臺遷移等各個層次的“單一映像”(如圖14)。“環節解耦”是指在算力網生態構成中,通過技術手段支持更多的細分角色,如算力提供商、算力運營商、算力增值服務商、算力消費商等,解除云計算生態中算力供應商對算力消費者的綁定,解除算力應用對特定算力芯片的依賴,構建一個真正開放、對創新者友好、更加安全的算力基礎設施生態(如圖15)。
圖14:算力網全局統一技術體系
圖15:算力網分層解耦技術體系
第三個巨大挑戰是打造算力基礎設施中國方案的全球比較優勢。建設算力基礎設施的目的是實現對信息化的廣泛支撐。首先分析一下在不同時期我國信息化的全球比較優勢(如圖16),其中橫坐標是問題的規模和場景,縱坐標是對開發者的要求,這兩個維度是決定產業規模的核心要素。信息化的第一個階段是位于左下角象限的信息管理系統(MIS)時期,信息化項目的特點是碎片化,而且無需深度領域知識支持,沒有算法挑戰,利潤低,所以美國把這部分業務外包給中國和印度了。信息化的第二個階段是位于右上角象限的互聯網平臺時期,美國依靠技術的領先優勢引領全球,中國則依靠人口規模紅利和互聯網行業對全中國人才的虹吸效應,在全球競爭中處于優勢地位。信息化的第三個階段是位于左上角象限的大數據與機器學習時期,美國依靠技術的領先優勢和高端人才數量優勢,在全球處于絕對領先地位,中國則處于跟隨與苦苦追趕的態勢,工業等行業的智能化很難形成可廣泛推廣的范式。信息化的第四個階段進入了右下角象限的大模型時期,AI+開始廣泛滲透到各行各業,對它們進行智能化改造,對開發者要求低,場景規模大,而中國的特色正好是工程師總量大,場景多。以此為背景,我國可以在算力基礎設施上形成具備全球比較優勢的技術與建設方案,在大幅度降低算力使用成本、大幅度降低算力使用門檻的同時,為包括“一帶一路”國家在內的最廣范圍覆蓋的人群提供高通量、高品質的智能服務。
圖16:信息化比較優勢對比圖
人工智能技術的規?;茝V要解決應用長尾問題,為80%的中小微企業提供低價格的算力、低門檻的服務。算力網的中國方案需要具備 “兩低一高”,即“低成本、低門檻、高通量”?!暗统杀尽笔侵冈诠┙o側,大幅度降低算力器件、算力設備、網絡連接、數據獲取、算法模型調用、電力消耗、運營維護、開發部署的總成本,讓廣大中小企業都消費得起高品質的算力服務,有積極性開發算力網應用。“低門檻”是指在消費側,大幅度降低廣大用戶的算力使用門檻,面向大眾的公共服務必須做到易獲取、易使用,像水電一樣即開即用,像編寫網頁一樣輕松定制算力服務,開發算力網應用。“高通量”是指實現低熵、高通量的算力服務,其中高通量代表算力服務的數量,是指在提供高并發度服務的同時,保證端到端服務的響應時間可滿足率,即通量=并發度*響應時間可滿足率。低熵代表算力服務的質量,是指在高并發負載中出現對資源無序競爭的情況下,保障系統的通量不急劇下降。簡而言之,算力1.0時期的目標是“算得快”,算力2.0時期的目標是“算得省”,算力3.0時期的目標是“算得多”,而“算得多”對中國尤其重要。? ?
五、 算法基礎設施
算法是計算機科學的核心,凝聚著計算機科學家的智慧,也是很多IT產品的關鍵模塊,但是它既不能申請專利,自身也不能成為產品,以AI算法為核心的創業公司大多不太成功。AI大模型第一次實現了算法的基礎設施化,提供“模型即服務”(MaaS)。傳統的數值計算算法(Numerical Computation)是對數理知識建模,如BLAS庫模型、有限元等,每個模型解決一小類問題,屬于小模型,通過數學庫和求解器的形式提供調用。計算機科學基礎算法(Fundamental of Computer Science)如圖、概率、搜索等方法,也屬于小模型,通過算子庫的形式提供調用。這些傳統算法如何基礎設施化是個困難的問題。一個復雜應用需要調用不同的模型,當前模型之間沒有通用、標準的調用方式。解決了模型之間的互操作問題,才能突破復雜問題求解的邊界。
最后,數據空間基礎設施需要一個通用引擎,用來統一表達復雜智能任務。隨著AI Agent的發展,它有可能成為新的算力網通用引擎。實現統一的復雜任務表達需要設計用戶編程語言、程序和通用執行引擎,在計算空間上它們是C語言、并行程序和編譯器,在信息空間它們是Java語言、信息網頁和瀏覽器,在數據空間它們可能是python語言、算力網頁和AI Agent。其中,編譯器解決了計算應用的跨平臺遷移,Java虛擬機解決了智能終端應用的跨平臺遷移,那么什么技術能解決智能云端應用的跨算力平臺遷移?
數據基礎設施的目標是將互聯網時代的“信息在線”升級到智能時代的“智能在線”。做到始終在線(on-line)是信息服務的終極目標。需要把數據場、算力網和“模型即服務”統一變成一個基礎設施,通過算力網頁表達復雜的智能應用需求,讓智能始終在線。數據基礎設施讓智能應用以更簡單的表達方式使用算力、數據與算法,智能應用程序員更專注于業務功能的低門檻實現(如圖17)。
圖17:基于數據基礎設施實現智能在線
六、 未來
網絡空間在2020年來到了新的歷史關口,在過去40年圍繞信息沖浪(surfing)創造了整個互聯網技術體系和龐大的應用生態,未來30年圍繞數據沖浪能否創造出算力網技術體系和新的應用生態?信息沖浪是人或者APP由通用瀏覽器引擎作為入口,通過網絡七層協議,到Web Server,再操作全網共享的信息網頁。數據沖浪是由人、APP或者物由AI Agent引擎作為入口,通過新協議(包括算力路由、數據件協議簇等),到模型Server,再操作全網共享的數據件(如圖18)。
圖18:數據空間技術體系圖
網絡空間已經形成了信息空間的四層架構(如圖19),即第一層云主機,第二層通信基礎設施,第三層互聯網基礎設施,第四層WEB基礎應用。未來的數據空間也將形成四層架構,即第一層算力站(算力池化),第二層未來網絡(包括6G和算力網絡),第三層數據基礎設施,包括模型即服務、算力網、數據場緊耦合在一起,第四層智能體。新架構的網絡空間將支撐我們進入智能時代。
圖19:網絡空間架構圖
我國在強起來的時代,科技必須自立自強,只有通過完整技術體系的創造,才能搶占科技制高點。
(根據孫凝暉院士在2024年計算所春季戰略規劃會上的報告整理)