【摘要】要素化的數據資源通過場景面向的結構性整合過程形成場景數據集,對于垂直模型預訓練、大模型強化微調等人工智能技術場景具有核心意義。然而,我國現有數據市場與數據平臺的場景化供給能力受限,高質量場景數據集所涉開放共享標準、質量評估機制等配套規則尚不完善,以致人工智能產業中合成數據增強、后訓練推理強化等前沿優化方案難以實現。為全面激活與大規模釋放醫療、交通、金融、法律等重要領域的數據價值,應進一步剖釋細分行業場景下的數據需求與場景化路徑。同時,結合聯邦學習、合成數據等技術措施耦合差異場景的具體需求,逐級設定公共數據與場景數據集的技術標準、共享機制與法治方案,為現代化人工智能與更多數字時代新型技術應用提供高質量數據集的場景化賦能。
【關鍵詞】高質量場景數據集 數據供給 人工智能
【中圖分類號】D92 【文獻標識碼】A
在新一輪數字化革命的推動下,數據成為繼土地、勞動力、資本、技術之后的第五大生產要素,并在不同社會領域配合其可復制性、可增強性、可訓練性、可互操作性等獨有特征,實現跨行業價值釋放。然而,未經篩選整合的海量數據依然存在數據噪聲、非對稱性、低完整性等內生問題,難以通過可信利用轉化形成可持續的數據價值。面對迥然相異的產業技術需求,數據可以通過特定的格式和結構加以集合進而發揮實質價值,這一概念亦被稱作“數據集”。在新質生產力驅動的全新技術業態下,以人工智能為代表的尖端科技正在對特定垂直場域中的“場景數據集”展現更強的上下文依賴性,醫療、交通、教育、金融等場景化的專業性數據集需求高速提升,①特定應用場景的精細化對數據價值體系提出更高要求。②此背景下,場景數據集的概念激活與高質量發展正密切關聯我國數字產業經濟的創新性配置、領域性轉型與技術性突破。為實現場景數據價值效用的乘數倍增與充分釋放,亟需打通我國關聯領域目前在數據供給、數據流通、數據評估、數據標準、數據開放、數據共享等層面的堵點,以“場景化加工能力”與“多樣化共享體系”兩大要點共同構建具有國際化樣板意義的高質量場景數據集。
高質量場景數據集的戰略定位與價值釋放
現代科技譜系中,數據集可能關聯區塊鏈、物聯網、人工智能、自動化工程、高性能計算、地理信息系統等多端技術,作為中樞性資源要素發揮復合效果。而在醫療、工業等具體領域的技術應用中,數據集的價值轉化則清晰展現“應用牽引”下的場景差異化需求。例如,工業場景需要傳感器數據等精度高、實時性強的數據集合,醫療場景的數據集建構則更多關聯隱私保護、數據保真度等要求。此背景下,面向具體場景的高質量數據集供給日趨關鍵,并對各國科技產業的戰略性部署展現出重要價值。例如,歐盟委員會于2022年發布《高價值數據集實施法案》,明確環境數據、地理空間數據與地球觀測數據等特定場景高價值數據集的供給標準,進一步完善面向工業、國防等重點場景的高質量數據集供給。
在多類應用情境中,人工智能對于高質量場景數據集的需求尤為突出。2024年《政府工作報告》首次將“人工智能+”上升至國家戰略層面,明確提出深化大數據、人工智能等研發應用。近年來,以DeepSeek、ChatGPT、Gemini、通義千問、豆包為代表的大語言模型在各社會領域展現了卓越的應用潛力與現實效果,③此類生成式人工智能所采用的預訓練方法便是通過海量數據的累積效應實現模型的智能涌現與能力遷移。但一方面,預訓練模式對于模型專業領域的性能提升效果欠佳,未經篩選的低質量數據容易導致專業性問題的“模型幻覺”(模型生成了不符合事實或毫無根據的信息);另一方面,預訓練所需的可用數據資源即將被用盡。在雙重挑戰的協同作用下,針對特定場景的高質量數據集成為人工智能模型訓練的關鍵支撐,為現有數據局限下智能模型的訓練路徑優化提供轉向可能。
其一,特定領域的高質量數據注入能夠推動人工智能掌握對應領域的關鍵特征與獨有規律,通過垂直場景的上下文關系增強模型訓練的精準性與針對性,實現高度專業化與個性化的人工智能解決方案與創新拓展。其二,高質量場景數據集在模型微調與強化學習階段的嵌入亦可抑制數據偏差與特殊場景下模型的表現失衡,基于目標行業的標準與規范提升模型的合規性、可信度與可解釋性。其三,OpenAI推出的一系列推理模型正在數學、物理、化學等強邏輯專業領域展現專家級別的優異表現,此類后訓練模型的調試與性能增強對于專業領域數據與反饋的需求更為迫切。2024年末,OpenAI宣布將開展強化微調(Reinforcement Fine-Tuning)的模型定制計劃,通過特定領域小規模數據集的重點訓練將通用模型轉化為專業模型,并展示了運用此種方法推動GPT o1 Mini模型高水平推理罕見疾病成因的實例。未來,更多專業維度的高質量場景數據集將助推人工智能于更寬廣的重點領域展現“專家級”能力,實現模型性能與社會效率的場景化躍升。
我國高質量場景數據集的供給現狀與發展困境
規范層面,我國早在2020年已認識到高質量數據集供給對于經濟社會發展的戰略價值,并發布《關于構建更加完善的要素市場化配置體制機制的意見》等系列政策。近年來,我國相繼頒布《關于構建數據基礎制度更好發揮數據要素作用的意見》(2022年)《網絡數據安全管理條例》(2024年)等政策法規。然而,相較歐盟在《公共部門信息復用指令》等開放數據法規基礎上所明確的《關于開放數據和公共部門信息再利用指令》等規范及其落地效果,我國數據集的場景優勢與場景化激活能力仍顯不成熟,特別是在數據基礎設施建設、公共數據開放制度、數據集共享生態等層面仍顯不足。
實踐層面,我國數據資源總量優勢明顯,多樣化數據資源豐富,為高質量場景數據集的高速增長提供現實基礎。據新華社消息,2024年,全國數據市場交易規模預計超1600億元,同比增長30%以上,其中場內市場數據交易(含備案交易)規模預計超300億元,同比實現翻番。根據全國數據資源調查工作組發布的《全國數據資源調查報告(2023年)》,2023年,全國數據生產總量達32.85ZB(澤字節),同比增長22.44%。我國數據資源“產—存—算”的規模優勢已基本形成。根據國際數據公司(IDC)的預測,中國“數據圈”(每年被創建、采集或是復制的數據集合)在2025年增至48.6ZB(澤字節),占全球27.8%,成為最大“數據圈”。同時,線上支付、電子商務、共享經濟、電子政務、智慧醫療等多樣化數字服務與數據應用場景在我國具有良好的社會接受度與廣闊的應用前景。得益于多民族文化的包容特性與社會秩序的長期穩定,我國大多數民眾對跨場景數據應用持開放態度,數字化需求趨于多樣,這為數據賦能的技術突破與多領域數字創新的涌現提供了社會土壤。然而,我國高質量數據集供給的場景完善度不足,海量數據與多樣化場景優勢的潛能仍有待進一步釋放。
其一,我國面向場景的有效數據供給有待強化,數據資源總量優勢的價值轉化尚待釋放。在“原始數據—場景數據—可用場景數據—高質量場景數據集”的四階段數據轉化與價值遞進中,作為中間產品的數據要素須經清洗、標注、分析等加工活動以實現價值創造。此過程中,三方面因素使得我國在基于差異化場景需求實現數據價值的場景化增長方面存在一定難度。一是數據加工過程中投入與回報不成比例所引發的動力匱乏問題。專業化數據的高質量標注需要龐大的資金投入且同時關聯安全責任風險,這與數據應用的收益回報比例之間存在錯位。二是公共數據場景化加工的程度與緊迫性不足,難以發揮公共數據對于數據開發利用的引領作用與催化作用。從現有國家政策來看,我國工業、醫療、交通、氣象等具體場景的數據供給能力尚未作為專門對象加以細化規定,領域差異化數據統歸于公共數據范疇的做法難以匹配垂直領域的細化要求。三是數據加工技術存在優化空間,專業人才供給難以充分滿足需求,致使場景化加工效果欠佳。在數據標注自動化工程尚未成熟的階段,將雜亂無序的低價值數據在工業互聯網等特定場景加工為標準化、目錄化、高價值數據資源需要高級別的專業技術技能,④人工智能訓練與推理階段涉及多模態數據、高維度數據、跨領域數據,對計算機科學專業技術需求更加嚴苛,⑤這為我國數據加工的現代化場景轉向帶來一定挑戰。
其二,受限于較低級別的數據開放度與流通度,我國高質量場景數據集的源頭供給能力有待提升。首先,我國公共數據開放程度有限,關鍵主題高價值數據集的動態數據、應用編程接口(API)與數據開放許可證等標準尚不明晰,難以實現公共數據面向公眾和企業的有序開放或強制開放。其次,我國多領域數據源很大程度為大型數據平臺所壟斷,各行業數據普遍向平臺呈現聚攏態勢,根據全國數據資源調查工作組發布的《全國數據資源調查報告(2023年)》,大型平臺企業平均數據交互量約為行業重點企業的200倍以上。但同時,大型平臺企業常以保護個人信息、防范安全風險等理由拒絕共享,僅把數據用于自身場景構建。因此,大量中小型企業雖有豐富的場景數據需求,卻常處于“無數據可用”的困境。最后,在數據共享受限的背景下,我國數據交易亦存在供需失衡。《全國數據資源調查報告(2023)》顯示,調研的27家交易所的數據產品中僅有17.9%實現交易。數據權屬界定、數據交易定價等固有難題引發的數據交易制度滯后問題致使整體性數據產品成交率低迷,供需不匹配的現象廣泛存在,數據交易機構供給水平難以滿足場景數據需求。
其三,細分應用場景的技術標準仍有待完善,海量數據在垂直場景實現價值激活面臨挑戰。不同應用場景下,數據的格式、版本等特征性技術需求對應相異的數據標準與技術標準。例如,在柔性制造領域,數據需配合高頻采樣、實時監測的產業需求,在生產節拍精準同步等方面存在特定數據規范;在智能交通領域,位置、路況信息之外的視覺、雷達、激光測距等多樣化數據融合及相應技術標準對高精度地圖的更新則至關重要。然而,我國當前主要著眼數據供給數量的增加,尚未針對場景深入開展數據集標準化技術工程。此背景下,數據技術標準與架構的不統一增加了場景數據集成的復雜性,不同數據間的場景融合與預期場景的具體需求所關聯的轉換、加工與適配工作消耗過量資源,亦可能基于標準引發的數據誤差降低場景數據供給的整體質量。人工智能模型結構高速迭代的產業背景下,多模態模型所需圖像、語音、文本、視頻等數據形式的融合需求日趨關鍵,⑥推理模型對高邏輯領域復雜問題的反饋數據需求也趨于迫切,多模態數據元模型擬定、元數據描述語言等新興技術標準問題正快速更新,亟需有效回應。未來,細分場景下數據技術標準與架構的滯后效應可能進一步影響場景數據集在現代化技術需求下的流通與復用,阻礙數據流通、數據交易與數據價值增值的充分實現。
其四,現有規范體系下數據開放目錄、數據開放主體、數據開放責任等配套制度在落地實施時面臨一定阻礙,存在供給不積極、供需不匹配、共享不充分等問題。在實踐中,真正實現開放的公共數據主要是各部門的政務數據,而此類數據難以直接轉化為產業價值。而水電、通信、交通、醫療等重點場景數據則往往被拒絕開放,或限縮開放范圍。同時,在《中華人民共和國網絡安全法》《中華人民共和國數據安全法》與《中華人民共和國個人信息保護法》這三大立法的實施進程中,數據控制合法性判斷與數據流通利用的責任規則仍不明確,⑦個人隱私與商業秘密難以在真正實現場景化數據開放的情境中得到充分保護。此外,數據產權定義尚未統一,信息脫敏與數據加密等配套安全措施仍不完善,場景數據開放時法律責任與權益保護也因而趨向復雜化和模糊化。綜合作用之下,即便我國近年已在相關法規中展現“推動按用途加大供給使用范圍”等政策轉向,但重點場景的數據確權與開放亦存在一定障礙,數據開放與數據安全的平衡性問題依然較難明確。
我國高質量場景數據集的多方共享與突破路徑
其一,培育多方技術,強化高價值數據的現代化場景加工能力。現代化技術驅動的數字產業變革中,前沿科技對我國數據市場與場景化數據供給能力的重塑具有核心意義。首先,提升捕捉場景化需求的技術能力,積極運用機器學習中的自然語言處理與物聯網技術中的邊緣計算等方法提升對場景需求的精準分析與細化把控。同時,對海量數據實現價值分層,結合深度學習構建數據價值分層管理體系,完成從低質量數據到高價值數據的高效篩選與價值萃取。其次,繼續完善數據基礎設施與自研工程,從底層基礎層面提升數據存儲與計算能力。可利用尖端大模型突出的文本數據集標注能力與經濟化效益,持續打造契合國產人工智能發展脈絡的中文場景訓練數據語料庫。⑧同時,配合數據質量評估體系,對專業數據、平臺數據等內容以特征導向展開質量評測,避免數據偏差與“虛假多樣性”等數據風險。最后,人工智能等現代技術的積極運用是提升數據場景化加工能力的核心關鍵。例如,在醫療、金融等不適合進行數據自由流動的敏感場景,可利用人工智能轉化為“偽數據”或匿名數據的形式,結合大模型生成合成數據或進行數據增強。同時,運用隱私計算、聯邦學習與分布式訓練等技術方法,在保障數據安全的基礎上提升數據的場景化加工與供給能力,在回應場景化數據需求的同時平衡數據“可用與可控”之間的矛盾。此過程中,須將人工智能人才培育作為重點政策并細化培養方案,積極運用專項基金等激勵措施,帶動專業化人才發展以實現場景需求下數據集建設與供給能力的躍升。
其二,在場景面向下推進公共數據、平臺數據的可信開放與充分共享。一方面,我國阿里、騰訊、百度、字節跳動等超大型平臺企業對海量互聯網數據形成支配,但受到個人信息保護與平臺成本的限制,簡單要求共享數據的思路亦不可行。為實現少數平臺數據壟斷向全行業數據良性共享的過渡,首先,可借鑒歐盟與美國等西方數據治理相關立法中的“守門人”制度,將滿足特定條件的大型平臺企業規定為“守門人”并要求其承擔特定的法律義務。進一步細化“守門人”制度的限制,明確“守門人”將非個人數據共享給第三方的要求及其具體規定。其次,亦可借鑒知識產權制度中的保護時間設計,根據不同場景下的數據價值變化曲線要求,引導或鼓勵平臺在一段時間后共享具有公共屬性的數據以便其他主體進行利用。最后,進一步完善數據交易制度、數據產權制度與數據收益分配制度。協調場內交易與場外交易等相異場景需求下的具體措施,逐步形成面向數據資源化、資產化、資本化等不同層面,兼顧薪資分配、效益分配和股權分配等多種分配形式的分配機制與交易生態。另一方面,推動公共數據標準化、共享機制和安全保障體系建設,兼顧政府、企業與個人等主體對公共數據開放的需求與利益訴求,構建公共數據開放與共享的深度協同機制并提升跨部門協調能力與政策執行力。
其三,聚焦重點場景,賦能多樣化場景,推進政府主導與市場平衡下的前沿數據利用。針對場景面向下公共數據與高價值數據的利用,政府不宜對市場“無形之手”的靈活調控效果進行過度干預,但也應對數據開放、流通與利用過程的合規性與安全性承擔主要監管職責。可以采用“兩步走”的方式推動從重點場景到多樣化場景中良性秩序的形成。第一步,現階段暫時摒棄“不加區分、一并推進”的做法,明確數據集供給的劃定應用場景。例如,《“數據要素×”三年行動計劃(2024—2026年)》中明確指出,要“聚焦重點行業和領域,挖掘典型數據要素應用場景”。通過借鑒域外取得良好效果的重點場景,可在地方層面進一步將高質量場景數據集建設明確在普惠金融、醫療保險、物業服務等相對有限的細分板塊。在此基礎上,完善重點應用場景下的數據開放細則,爭取實現相應領域數據的有需必應。第二步,在著眼核心場景的同時持續推進更大范圍場景的賦能效應。一是建立開放清單動態調整機制,同步維持開放數據的實時更新與日常性維護工作,確保實時分析能力的精準高效與相應救濟途徑的暢通;二是以市場為主體推動多樣化場景數據的衍生發展,先通過提高相似場景中的數據泛化表現以提升場景數據集的通用性,避免智能模型等末端應用過擬合于某些特定子場景;三是針對元宇宙、數字孿生、智能決策等數字時代的新型場景進行數據需求的前瞻性剖析,并對智能監控等數字城市治理場景中出現的前沿問題作出精準把握,⑨提前布局以保障新興領域預見性政策的及時跟進。
其四,優化現有規范,明確數據架構與技術配套的場景化標準。一方面,持續完善頂層制度設計以發揮其對場景數據流通的保障與激勵機能。可參考美國《信息自由法》《聯邦數據戰略》與歐盟《通用數據管理條例》《數據治理法案》等規范中關聯的可借鑒規則,建構公共部門信息復用與數據開放的場景化框架并推動本土化創新,鼓勵行業導向的戰略性數據集建設與數據開放生態。同時,在跨境電商、跨國物流、國際金融等場景中,跟進關注《中歐全面投資協定》(CAI)、《全面與進步跨太平洋伙伴關系協定》(CPTPP)、《區域全面經濟伙伴關系協定》(RCEP)等國際經貿協議中的數據跨境流動規則,通過跨境場景的數據協同構建我國數據要素的獨特場景優勢,合理分配國家的“剩余控制權”,保留更多的行業自律與跨行業協同空間。另一方面,持續完善場景面向的數據架構與技術標準。一是推動差異場景下技術架構的統一化進程,促進高質量數據的跨場景互通,推動全國數據要素市場一體化。同時,亦不可忽視場景間的差異性,避免盲目追求共性而損害數據質量,跟進補充對標特定場景的數據標準,特別關注大模型背景下多模態數據的可識別性與技術架構互通等問題。二是在技術標準制定進程中以前瞻視角關注人工智能等前沿技術的新型應用場景與產業模態。例如,明確不同場景下人工智能合成數據的質量標準;細化無監督機器學習中場景數據抓取的合規技術標準;厘清大模型生成內容領域數據集提供者、模型開發者與服務使用者之間的數據義務等。三是以場景為牽引,建立強制性的“數據法規”與自愿性的“數據標準”相結合的新型標準化體制。⑩特別是在醫療、科研等專業細分場景的數據標準中,運用彈性較高的技術標準與倫理標準發揮“軟法先行”的正向效應,動態探索各數據場景的適配規則。
(作者為浙江大學光華法學院教授、博導,浙江大學國際戰略與法律研究院常務副院長,數字法治研究院首席專家)
【注:本文系國家社科基金年度項目“基于語料庫的網絡安全話語體系研究”(項目編號:24BYY151)、國家社科基金重大項目“建立健全我國網絡綜合治理體系研究”(項目編號:20ZDA062)、浙江省法學會重點課題“數字社會司法治理理論與規則研究”(項目編號:2024NA19)階段性成果】
【注釋】
①歐陽日輝:《激活數據要素價值發展新質生產力》,《人民論壇》,2024年第11期。
②程樂:《“數字人本主義”視域下的通用人工智能規制鑒衡》,《政法論叢》,2024年第3期。
③程樂:《生成式人工智能治理的態勢、挑戰與展望》,《人民論壇》,2024年第2期。
④程樂:《構建以數據流通為核心的工業互聯網生態體系》,《人民論壇》,2024年第15期。
⑤張濤:《生成式人工智能訓練數據集的法律風險與包容審慎規制》,《比較法研究》,2024年第4期。
⑥程樂、趙藝林:《制度競爭下的美國人工智能監管與中國因應》,《思想理論戰線》,2025年第1期。
⑦高富平:《數據流通理論數據資源權利配置的基礎》,《中外法學》,2019年第6期。
⑧張凌寒:《加快建設人工智能大模型中文訓練數據語料庫》,《人民論壇·學術前沿》,2024年第13期。
⑨程樂:《我國公共安全視頻監控體系的布局與優化》,《人民論壇》,2024年第23期。
⑩楊力:《論公共數據流通技術標準及法治化》,《社會科學輯刊》,2023年第4期。
責編/靳佳 美編/楊玲玲
聲明:本文為人民論壇雜志社原創內容,任何單位或個人轉載請回復本微信號獲得授權,轉載時務必標明來源及作者,否則追究法律責任。
