六大數字經濟產業(計算機行業數據要素產業深度研究:數字經濟的核心主線)
(報告出品方:華泰證券)
綜述:數據要素——基礎逐步筑牢,產業變革在即
數據要素:2015 vs 2022,關注三大差異點
數據特性:從資源到要素,逐步成為核心。數據從原始數據到成為生產要素需要經歷數據 資源化、數據資產化、數據要素化三大過程,首先是通過整理從無序變為有序,成為具備 潛在利用價值的資源,其次是通過確權等環節成為能夠流通的資產,最后是運用于生產, 直接產生價值,成為生產要素。這一過程與 DIKW 模型描述的數據與智慧之間的關系相對 應,在 DKIW 模型中,數據僅是基于對客觀事實的記錄,數據被組織后形成可被理解的信 息,人類通過理解信息獲得知識,基于知識推演出因果并進行判斷,形成智慧。從數據產 生價值的過程中可以看出,將數據運用于生產是數據從信息變為知識和智慧的重要過程, 通過這一過程產生的價值是數據產業價值的核心來源,確權、定價、數據產品化則是價值 變現的重要途徑。我們認為當前推動數據從資源變為要素的核心條件正逐步完善。
信息化建設:步入大數據應用階段,為數據要素發展打下良好基礎。信息化建設是數據產 生的來源、數據資源積累、應用的基礎。從當前各個行業信息化建設的歷程看,我們認為 我國各個行業信息化建設逐步深入,重點行業經歷了 21 世紀初的電子化、初步信息化,到 2015 年以來的大數據等技術逐步應用,信息化程度不斷深入。從數據資源的豐富度看,我 國產生的數據量從 2012 年的 0.4ZB 增長至 2021 年的 6.6ZB,數據量快速累積,數據要素 利用的基礎已經基本具備。
政策關注:從“互聯網+”、“數字經濟”到“數據要素”。政策從互聯網+逐步向數據要素推 進。“互聯網+”政策在推動構建互聯網自主技術體系和產業生態的同時推動了數字經濟的 發展。通過“互聯網+”的建設,網絡、應用、產業、安全基礎逐步夯實,為數據資源的積 累和利用打下良好的基礎,互聯網+與數字經濟、數據要素政策一脈相承。從政策側重點看, “互聯網+”相關政策側重互聯網與傳統產業的深入融合,數字經濟政策在早期以信息化建 設和鼓勵電子商務發展為主。隨著我國數字經濟建設的逐步深入,政策對統籌打造全國數 據要素市場體系,促進數據要素市場化配置等主題的關注度逐步提升。我們認為當前隨著 基礎設施逐步完善,政策進一步關注核心要素數據的價值,聚焦數據的產業政策有望加速 落地。
數據范疇:從政務數據到更廣泛的公共數據,應用逐步豐富。數據類型可以劃分為公共數 據、商業數據、個人數據。《國務院關于積極推進“互聯網+”行動的指導意見》中,在創 新政府網絡化管理和服務中提及推動公共數據資源開放。而近兩年的數據條例則從主體、 目的、行為角度對公共數據進行了界定。如《上海市數據條例》中將政務、公共事業等組 織在履行公共管理和服務職責中產生的數據界定為公共數據;《重慶市數據條例》則將政務 數據、公共服務數據納入公共數據的范疇。從數據范疇看,數據資源的開發范疇正從政務 數據的領域進一步拓展。如《上海市數據條例》中提出鼓勵各類企業開展數據融合應用, 加快生產制造、科技研發、金融服務、商貿流通、航運物流、農業等領域的數據賦能,推 動產業互聯網和消費互聯網貫通發展。《重慶市數據條例》中提出鼓勵自然人、法人和非法 人組織將數據依法匯聚到公共數據資源體系。
法律法規逐步完善,護航數據要素市場發展
法律法規逐步完善,護航數據要素市場發展。在政策逐步加強對數據要素關注的過程中, 數據相關的法律逐步完善。2017 年頒布的《網絡安全法》和 2021 年頒布的《數據安全法》 等基礎法律法規明確了數據跨境流動應當進行安全評估。2021 年 8 月,全國人大通過的《個 人信息保護法》立足于數據產業發展和個人信息保護的需求,建立了個人信息合法處理的 規則。2022 年頒布的《數據出境安全評估辦法》則進一步明確了數據出境的具體流程和要 求,提出應對數據跨境流動采用分層分類管理的治理規則。相關法律法規體系框架的日益 完善,保障了數據安全,使得數據可以安全、有序、自由地流動。
各重點應用行業在數據合規基礎法律框架基礎上,提出針對性規范及指導性文件。在工業 領域,2020 年 3 月,工業和信息化部印發《工業數據分類分級指南(試行)》,規定了工業 企業對工業數據進行分類梳理和標識并形成企業工業數據分類清單的要求。在政務數據領 域,2022 年國務院辦公廳發布《全國一體化政務大數據體系建設指南》,提出“2023 年底 前,全國一體化政務大數據體系初步形成,基本具備數據目錄管理、數據歸集、數據治理、 大數據分析、安全防護等能力。”在金融領域,2017 年 7 月 9 日,中國保監會《保險業務 要素數據規范》,明確了保險業務數據要素流通的基本規范。2020 年 2 月,中國人民銀行 發布《個人金融信息保護技術規范》,對個人金融信息保護提出了明確的需求。2021 年, 人民銀行發布《金融業數據能力建設指引》,明確提出要提升金融機構數據安全能力建設。
政策明確數據要素會計處理方式,數據要素市場化發展有望提速。2022 年 12 月 9 日,財 政部印發《企業數據資源相關會計處理暫行規定(征求意見稿)》,明確了數據要素會計處 理方式。具體來看,根據數據資源的持有目的、形成方式、業務模式,以及與數據資源有 關的經濟利益的預期消耗方式等,企業應當對數據資源相關交易和事項進行會計確認、計 量和報告: 1)企業內部使用的數據資源:符合《企業會計準則第 6 號——無形資產》規定的定義和確 認條件的,應當確認為無形資產,并對數據資源進行初始計量、后續計量、處置和報廢等 相關會計處理。企業在持有確認為無形資產的數據資源期間,利用數據資源對客戶提供服 務的,無形資產的攤銷金額一般應當計入當期損益。 2)企業對外交易的數據資源:企業日常活動中持有、最終目的用于出售的數據資源,符合 《企業會計準則第 1 號——存貨》規定的定義和確認條件的,應當確認為存貨,并對確認 為存貨的數據資源進行初始計量、后續計量等相關會計處理。企業出售確認為存貨的數據 資源,應當按照存貨準則將其成本結轉為當期損益;同時,企業應當根據收入準則等規定 確認相關收入。對于不符合企業會計準則相關資產定義和確認條件的數據資源,企業利用 此類數據資源對客戶提供服務的,應當根據收入準則等規定確認相關收入。 3)信息披露等其他要求細則:企業應當按照外購無形資產、自行開發無形資產等類別,對 確認為無形資產的數據資源相關會計信息進行披露。企業應當按照外購存貨、自行加工存 貨等類別,對確認為存貨的數據資源相關會計信息進行披露。企業對數據資源進行評估的, 應當披露評估依據的信息來源,評估結論成立的假設前提和限制條件,評估方法的選擇, 各重要參數的來源、分析、比較與測算過程等信息,包括數據類型、規模、應用場景、轉 讓限制等。
標準持續豐富,涵蓋流通、交易等多個環節
標準持續豐富,覆蓋多個環節。從標準的豐富看,形成了覆蓋多個環節的標準、規范。各 地在制定各環節的數據要素標準之前一般會先制定標準體系框架,規定整個標準體系的總 體結構與要求,以及基礎、數據、技術方法、產品及服務、行業應用、管理、安全和質量 與評價等標準分體系的構成與要求。
數據流通環節標準:國家標準側重提升數據要素流通效率,覆蓋多個細分環節。數據要素 流通環節包括數據登記、數據定價、數據交易共享和數據服務運營等,建設涵蓋各方面的 數據要素流通標準可以加快數據要素流通,充分發揮數據要素價值。同時,各省市積極開 展數據要素流通環節的標準研制工作,如 2019 年 12 月貴州省市場監管局發布《基于區塊 鏈的數據資產交易實施指南》,規定了基于區塊鏈的數據資產交易規范,適用于對數據資產 交易方記錄,對數據資產交易流程記錄,對數據資產交易溯源,構建區塊鏈分布式、多方 可信促進資產流通。 安全標準較為豐富,涉及數據安全、技術安全、平臺安全。除去以上針對細分環節的標準, 還有涉及數據要素全生命周期的環節,如數據基礎設施、數據安全、數據咨詢服務和數據 人才培訓等,其中我國圍繞數據安全、技術安全、平臺安全等方面的標準規范較為豐富。
重點行業標準:政務標準較豐富,重點行業持續更新。數據行業應用標準從大數據為各行 業能提供的服務出發,是各領域根據其特性研制的專用數據標準,包括政務、金融、工業 等領域。政務行業標準較豐富,如 2019 年 12 月,山西省電子政務信息標準化技術委員針 對政務信息資源數據共享交換平臺發布了涉及總體框架、目錄編制規范、部門接入規范、 交換規范、資源中心設計規范、共享網站功能指南、安全技術規范的多個標準。2018 年 12 月杭州市數據資源管理局發布《政務數據共享安全管理規范》,規定了政務數據共享的總則、 基本要求、數據歸集安全、數據傳輸安全、數據存儲安全、數據處理安全、數據共享安全 和數據銷毀安全,適用于非涉密政務數據共享安全管理。
數據+流通+安全,全生命周期技術體系逐步形成
數據要素技術可按照作用分為 4 類,分別為維護數據安全、提升數據質量、加強數據標準 化、提高交易效率。維護數據安全技術包括隱私計算、區塊鏈、密碼技術。
1)隱私計算:包含三大主流方向
在處理與分析計算數據的過程中,隱私計算能夠保持數據不透明、不泄露、無法被計算方 以及其他非授權方獲取。與傳統數據使用方式相比,隱私計算的加密機制能夠增強對于數 據的保護、降低數據泄露風險,并保證在安全的前提下盡可能使數據價值最大化。隱私計 算是涉及密碼學、智能科學、硬件技術的交叉融合技術,當前主流的隱私計算技術有三大 方向:一是多方安全計算;二是聯邦學習技術;三是可信執行環境技術。不同技術往往組 合使用。
2)區塊鏈
區塊鏈是一種分布式的數據結構,利用塊鏈式數據結構驗證與存儲數據、同時使用分布式 節點共識算法生成和更新數據,并且區塊鏈技術具備了去中心化的特性,使得區塊鏈技術 不會被第三方中心所控制,不可篡改,保證區塊鏈數據較強的公信力,滿足數據流通過程 中保證數據安全、增強透明度的需求。 在數據確權方面,數據確權是數據交易的前提,可以使用區塊鏈技術進行數據登記,實現 數據資產的唯一性確權。2021 年,北京國際大數據交易所上線了數據交易平臺 IDeX 系統, 該系統功能之一為使用區塊鏈技術,對上架的數據產品進行登記。在數據交易溯源方面, 數據資源在鏈上交易的完善信息記錄實現了數據唯一化,以此為基礎可以對數據進行跟蹤。 當用戶對數據交易有疑問的時候,便可通過區塊鏈方便的查詢某個用戶、某個數據或某個 時刻的交易記錄。在數據交易記錄方面,區塊鏈為去中心化的分布式數據庫,可以利用區 塊鏈的不可篡改性改善交易過程的記錄問題。由于區塊鏈中每一個節點都有一份相同的副 本,并且副本的任何改變都要通過所有節點的共識,修改區塊鏈中記錄的內容非常困難, 因此區塊鏈可以幫助記錄數據交易過程中的關鍵性數據或者證據。
3)密碼技術
采用密碼技術對信息加密,是最常用和有效的安全保護手段。目前廣泛應用的加密技術主 要包括:對稱算法加密和非對稱算法加密。對稱算法加密的主要特點是通過相同的密鑰對 信息進行加密和解密,最常用的是 DES 算法。非對稱算法加密避免了對稱加密的密鑰配送 問題,其通過公布出去的公鑰加密,自己保有的私鑰解密。最常用的是 RSA 系統。密碼技 術可用于數據脫敏,對敏感信息進行數據的變形,實現敏感隱私數據的可靠保護。數據脫 敏規則包括使用隨機值、數據替換、對稱加密、平均值、偏移和取整等,常常多規則配合 使用。
4)機器學習:提升數據質量
機器學習使用計算機模擬或實現人類學習活動,從數據中自動分析獲得模型,并利用模型 對未知數據進行預測。基于學習方式可以分為監督學習、無監督學習、強化學習等。在數 據標注中,使用基于機器學習的半自動標注方法,主要用于提升訓練精度、減少整體標注 成本、加快模型開發效率。半自動標注方法包括預訓練模型和主動學習等。預訓練模型, 先對小批量數據進行標注學習訓練,得到一個預訓練模型,然后以學習結果去標注剩下的 數據集,往復循環,逐步提高精度。主動學習,即網絡具有一定自主決策能力,可主動地 提出一些標注請求,將經過篩選的數據提交給人類專家進行標注,節約標注成本,提升效 率。
數據:覆蓋多環節的產業鏈逐步清晰
涵蓋供給、流通、應用的全方位的數據要素產業鏈逐步清晰
數據要素可分為供給、流通、應用環節。數據要素從產生到發揮價值,涉及眾多細分環節, 從《“十四五”數字經濟發展規劃》中提出“充分發揮數據要素作用”的具體要求看,包括 強化高質量數據要素供給、加快數據要素市場化流通、創新數據要素開發利用機制。我們 將數據要素的全價值鏈總體劃分為供給、流通、應用三大環節。不同環節所涉及的具體能 力要求有所不同,在《“十四五”數字經濟發展規劃》中,針對數據要素供給環節,提出數 據質量提升工程,側重從數據資源、主體、標準化三大維度切入提升數據質量;在數據要 素流通環節,提出數據要素市場培育試點工程,聚焦于確權及定價、數據交易平臺的試驗 與培育。
數據要素供給:形成數據資源,為數據從資源向資產轉化打下基礎。數據要素供給,包含 采集、整理(數據標注、數據清洗、脫敏脫密、標準化)、聚合(數據傳輸、存儲、集合匯 聚等)、分析幾大環節,從原始的數據為起點,以形成可流通、利用的數據資源為終點,為 數據向資產轉化打下重要的基礎。在這一環節內,通過建設標準化體系、發展數據處理技 術,加強數據分類分級管理有助于增強數據處理能力,提升數據質量,是數據全產業鏈的 基礎環節。我們認為,有效提升數據質量的廠商,有望在供給環節形成競爭優勢。
數據要素流通:數據成為生產要素的關鍵。數據資源本身具備利用的價值潛力,而要素流 通則是其從數據資源變為生產要素,實現價值的關鍵。數據要素流通涉及的環節包括確權 登記、定價交易、交付清算,其中涉及的產業機遇不僅包括交易鏈條本身的各個環節,還 涉及到與之相關的配套服務,如咨詢評估、經紀、交付等服務。一方面,數據要素流通需 要市場主體的積極參與,提供交易產品,確權及交易的支持技術、服務;另一方面,也需 要監管主體不斷完善交易管理、規則制定、爭議仲裁等機制,為數據要素流通創造良好的 市場環境。我們認為,有效提升交易效率的廠商,有望在流通環節形成競爭優勢。
涵蓋供給、流通、應用的全方位的數據要素產業鏈逐步清晰。圍繞提供高質量數據的主題, 數據采集、整理(數據標注、數據清洗、脫敏脫密、標準化)、聚合(數據傳輸、存儲、集 合匯聚等)、分析等廠商構成了數據要素產業鏈中的供給環節;圍繞提升數據要素交易效率 的主題,確權登記、定價交易、交付清算及相應的服務廠商構成了數據要素產業鏈中的流 通環節;圍繞數據價值挖掘的主題,各個細分行業的數據應用逐步深入。我們認為當前涵 蓋供給、流通、應用的全方位的數據要素產業鏈逐步清晰。
參與主體:涉及供應商、監管方、需求方等多方
數據供給:數據產出行業集中度高,2021 年五大行業占比 65%左右。數據供給可拆分為采 集、整理、聚合、分析四個環節,分別對應了數據產品供應商(負責提供原始數據)、數據 加工處理服務商(負責數據預處理,將非結構化數據處理成結構化數據)、數據資源集成商 (負責數據集合)和數據分析技術服務商(負責數據分析)四大參與主體。根據中國網絡 空間研究院發布的《國家數據資源調查報告(2021)》,2021 年,我國數據產量高達 6.6ZB, 同比增長 29.4%。在行業分布上,個人持有的各類設備共產生 1.4ZB 數據,全國各類行業 機構共產生 5.2ZB 數據,其中,主要分布在政府、互聯網、媒體、公眾服務及專業服務、 交通等行業,上述五大行業數據產量占全國行業機構數量總產量的 65%左右。
數據流通:廠商集中在數據產品供應商,數據交易經紀服務商廠商較少。數據流通可以拆 分為三階段。第一階段:需要完成數據登記確權,參與主體為數據質量評估商。第二階段: 包括數據產品、掛牌上市、撮合交易三階段,涉及到數據產品供應商(提供數據產品)和 數據交易經紀服務商(負責交易撮合、交易經紀,起到中介的作用)。第三階段:包括合約 交付和交易結算,參與主體仍為數據交易經紀服務商。其中從交易場所來看,數據交易可 分為場外交易和場內交易,因此經紀服務商也可以分為場內經紀服務商和場外經紀服務商。 由于場內交易體系建設較晚,因此目前仍以場外交易為主,場內交易在迅速發展。
市場規模:2021 年達到數百億元級別
數據供給:當前中國數商行業企業數量為 192 萬家,數據產品和服務供給不足。從市場規 模來看,2021 年,數據供給環節(采集、存儲、加工)的市場規模達到 385 億元。根據國 家工信安全發展研究中心,2021 年中國數據要素市場規模約為 815 億元(不含數據應用), 其中,數據供給環節占比 47.2%。從數商企業數量來看,存在明顯的供需不匹配問題,缺 少標準化和規劃化產品。高質量數據產品的背后是高質量數商。根據上海數據交易所官網, 截至 2022 年 11 月,上海數據交易所累計掛牌數商僅 89 個。根據《全國數商產業發展報告》, 截至 2022 年 11 月,中國數商行業企業數量達到 192 萬家。其中,中國數商產業主要集中 在長三角、珠三角、京津翼、川渝地區,四大區域合計占比達到 56.8%。
數據流通:目前仍以場外交易為主,場內交易持續發力。從市場規模來看,根據國家工信 安全發展研究中心,2021 年中國數據流通(交易、分析、數據服務)市場規模約為 380 億 元,占中國數據要素市場規模的 46.6%。從市場占比來看,根據上海數據交易所研究院, 2022年,場外交易占全部交易的比重約為2%。預計到2025年,場內交易占比將達到1/4~1/3。 場外交易平臺集中度低,場內交易以省市級交易所為主。2014 年 1 月,中關村數海大數據 交易中心平臺成立,拉開了場內交易的序幕;2015 年 4 月,全國首家大數據交易所貴陽大 數據交易所獲批成立;2022 年 11 月,深圳數據交易所正式揭牌成立,至此,北上廣深四 大一線城市均開啟了新的數據流通探索。截至 2022 年 11 月,全國數據交易所已超 40 家。
數據供給:以“數據資源化”構筑數據要素產業鏈起點
以“數據資源化”構筑數據要素產業鏈的起點。數據要素供給是整個數據產業鏈的基座和 起點,即通過“數據資源化”使無序、混亂、海量的原始數據成為有序、有使用價值、標 準化的數據資源,主要包括數據采集、數據整理、數據聚合、數據分析四大環節。
1)數據采集:是數據資源化的首要環節,也是整個數據要素產業鏈的源頭,旨在以合法合 規的方式實現原始數據收集;根據數據來源的不同可分為政府數據采集、企業數據采集、 個人數據采集三類,產業鏈公司主要包括富士康、海康威視等采集硬件廠商以及萬達信息、 探碼科技、神策數據等大數據廠商;
2)數據整理:是數據資源化的核心環節,包括數據標注、清洗、脫敏脫密、標準化治理等 細分環節;數據整理環節的核心功能是實現數據資源的標準化,以提升數據資源的可用性, 主要包括美林數據、神策數據等數據治理廠商以及百度眾測、阿里眾包等互聯網公司;
3)數據聚合:是數據資源化的樞紐環節,包括數據存儲、聚合等細分環節,是連通數據采 集、整理與數據分析、應用的中樞;數據聚合環節的核心功能是實現數據資源的互聯互通、 開放共享,以增強數據資源的規模效應與產業價值,在實際應用中聚合對象既包含原始數 據又包含標準化數據,產業鏈公司主要包括達夢數據、人大金倉、PingCAP 等數據庫廠商, 阿里云、華為云等云廠商以及星環科技、思邁特、友盟等大數據平臺廠商;
4)數據分析:是數據資源化的應用環節,旨在通過對數據資源的詳細研究、概括總結實現 數據功能的最大化開發,包括商業智能(Bussiness Intelligence,BI)分析、知識圖譜、邊 緣計算、智能決策等服務,產業鏈公司主要包括星環科技、帆軟軟件、第四范式、明略科 技等企業。
我國數據要素供給環節發展較為成熟,數據要素產業基礎已基本夯實。據國家工信部統計, 2021 年我國數據采集、整理、聚合、分析的產業規模分別為 45、160、180、174 億元, 2022 年 11 月,我國數據采集、整理、聚合、分析四個環節的數商企業數量占比分別 49.9%、 7.5%、25.5%、17.1%,是數據要素市場中發展較為成熟的產業環節。
數據采集:數據資源化首要環節,關注采集合法化與標準化
數據采集是數據要素供給的首要環節。數據采集是數據整理、數據聚合、數據分析的業務 基礎,決定了數據要素供給的范圍和質量,一般可分為線下采集與線上采集兩種方式。1) 線下采集:多通過問卷調查、用戶訪談、實地調研等方式進行人工數據采集;2)線上采集: 多利用 API 接口、傳感器、智能設備、爬蟲技術等方式實現自動數據采集,包括數據庫采 集、系統日志采集、網絡數據采集、感知設備數據采集四大類。伴隨信息化程度不斷深入 與數據采集范疇的不斷擴大,數據采集呈現自動化、智能化、網絡化的三大發展趨勢。
公共數據:逐步進入要素市場,逐步擴大開放范疇
公共數據逐步進入要素市場,高價值數據集安全有序開放。2021 年 3 月發布的國家“十四 五”規劃明確提出,要“擴大基礎公共信息數據安全有序開放,優先推動企業登記監管、 衛生、交通、氣象等高價值數據集向社會開放,開展政府數據授權運營試點,鼓勵第三方 深化對公共數據的挖掘利用”,2022 年 3 月,全國首部以公共數據為主題的地方性法規《浙 江省公共數據條例》正式實施,率先開啟了公共數據進入要素市場的的區域性探索。我們 認為,伴隨公共數據的安全有序開放,未來公共數據采集將呈現合法化、共享化、價值化 三大特征,公共數據有望加快進入要素市場。
1)合法化:收集公共數據應當遵守網絡安全、數據安全、個人信息保護等法律、法規以及 國家標準的強制性要求;可以通過共享獲取數據的,不得重復收集;共享數據無法滿足履 行職責需求的,可以向公共數據主管部門提交數據需求清單,由公共數據主管部門與相關 公共管理和服務機構協商解決。 2)共享化:公共數據按照共享屬性分為無條件共享、受限共享和不共享數據;公共管理和 服務機構應當對其收集、產生的公共數據進行評估,科學合理確定共享屬性,并定期更新; 需要通過共享獲取數據的,應當向數據提供單位的同級公共數據主管部門提出申請,明確 應用場景,通過統一的公共數據共享通道以接口調用、批量數據使用等方式獲取數據。 3)價值化:公共數據的數據要素屬性有望通過數據授權運營凸顯,探索由公共數據管理機 構統一授權運營,通過建立公共數據成本核算機制,參照行政管理類、資源補償類收費標 準和流程,指導對市場化主體進行收費。
企業數據:數據鏈反哺產業鏈,第三方采集商價值凸顯
企業數據采集是數據要素市場的重點。企業數據采集主要包括內部數據采集、外部數據采 集和定制化數據采集等三種類型:1)內部數據采集:主要通過數據采集系統、日志收集系 統、基于數據庫和表的采集技術等方式,實現企業內部業務數據的離線采集;2)外部數據 采集:主要通過開放 API 接口、爬蟲技術、傳感器應用等方式,實現競品數據、行業數據 等外部數據的收集;3)定制化數據采集:主要通過專業的第三方數據采集廠商,針對企業 的定制化需求提供數據采集服務,并形成高價值密度的數據集產品。作為數字經濟主體, 企業數據鏈有望反哺產業鏈加速發展,企業數據采集是數據要素市場的核心重點。
個人數據:關注隱私保護,鼓勵個人數據流通應用
個人數據采集遵循五大原則,隱私保護是采集的關注重點。2021 年 11 月《中華人民共和 國個人信息保護法》正式實施,強調“個人信息保護原則是收集、使用個人信息的基本遵 循”,并將生物識別、宗教信仰、特定身份、醫療健康、金融賬戶、行蹤軌跡等信息列為敏 感個人信息。個人數據采集應嚴格遵循合法公開、目的限制、最小數據、數據安全、限期 存儲五大原則。隨著隱私保護意識提升與個人信息保護相關法律法規的健全,我們認為, 個人數據采集和使用將更加規范,在國家鼓勵個人數據參與流通應用的背景下,“個人數據 信托”機制,有望成為保護個人數據安全,提升個人數據收益分配的有效途徑。
市場格局:數字化轉型建設商與大數據基礎服務商各具優勢
數字化轉型建設商具備業務一體化優勢,大數據廠商數據理解深厚。數據采集的市場主體 包括采集設備提供商、數字化轉型建設商、數據采集解決方案供應商(即大數據廠商)三 類。1)采集設備提供商:主要為數據采集提供傳感器、采集器等專用采集設備和智能設備, 主要包括富士康、海康威視、新大陸等硬件廠商;2)數字化轉型建設商:主要為企業提供 數字化轉型建設方案,同步建設企業數據采集系統,主要包括太極股份、中軟國際、萬達 信息、軟通動力等綜合數據服務商;3)數據采集解決方案供應商:專門針對數據采集需求 提供數據采集產品及服務,主要包括探碼科技、點通數據、倍賽等大數據基礎服務廠商。
數據整理:數據資源化核心環節,搭建數據要素標準體系
產業概覽:以數據標準化為核心落腳點,強化數據要素資源管理
數據整理是實現數據到數據資源轉變的核心環節。數據整理是指對采集、存儲的數據進行 篩選和處理,提升數據的可用性,為數據資源聚合、挖掘、分析奠定基礎,主要包括數據 清洗、標注、脫敏、標準化治理四大細分環節。數據整理作為數據資源化的核心環節,其 根本目的在于提供高價值密度、高可用性的數據要素資源,以標準化治理為核心的數據要 素標準體系構建有望成為該階段的建設重點。
1)數據清洗:是指利用相關技術將“臟”數據(數據庫中殘缺、錯誤、重復的數據)轉換 為滿足質量要求的數據,是數據資源化過程中提升數據質量的重要手段;數據清洗大致可 分為去除/補全缺失數據、去除/修改格式和內容錯誤數據、去除/修改邏輯錯誤數據、去除重 復多余數據、關聯性驗證五個環節;得益于大數據產業的高速發展,2016 年起以貴陽大數 據清洗基地為代表的多家數據清洗基地相繼落成,我們認為,伴隨數據要素市場化進程加 速,數據質量管理的重要性將更加凸顯,數據清洗需求也將加速增長。
2)數據標注:是指通過分類、畫框、描點、區域、注釋等方式,對圖片、語音、文本等數 據進行處理的過程,是數據資源化過程中提升數據利用效率的重要步驟;根據數據類型的 不同,數據標注可分為圖像標注、語音標注、文本標注、視頻標注四大類,其中圖像標注 多應用于車輛車牌、人臉識別、醫療影像、機械影響等領域,語音標注多用于語音輸入、 語音合成、聲紋識別等場景,文本標注多用于新零售、客服、廣告營銷、金融等行業數據, 視頻標注多用于智能駕駛、智能安防、智能家居等業務場景。
3)數據脫敏:是指對某些敏感信息通過脫敏規則進行數據的變形,實現敏感隱私數據的可 靠保護,是深化數據要素安全應用的重要前提;數據脫敏可分為靜態數據脫敏和動態數據 脫敏兩大類,靜態數據脫敏是指對完整數據集進行大批量、一次性的整體脫敏,多采用 ETL 技術進行脫敏處理;動態數據脫敏是指對外部申請訪問的敏感數據進行實時脫敏處理,多 采用中間件技術對外部的訪問申請和返回結果進行即時變形轉換處理。
4)數據標準化治理:是指在數據驅動的業務與生產環境中,圍繞具備更高可用性的數據標 準與數據模型構建的完整數據系統工程,是數據整理環節的最終落腳點;根據 2018 年發布 的首個數據管理領域國家標準 GB-36073,數據標準化治理已成為 DCMM 數據管理能力成 熟度評估模型的重要組成部分;DCMM 自低到高分為初始級、受管理級、穩健級、量化管 理級、優先級五個層級,截至 2022 年 6 月,DCMM 貫標已覆蓋全國電力、通信、金融、 政務、IT、工業制造等領域的 252 家企業,其中二級企業共 124 家(占比 49%),三級企 業共 94 家(占比 38%),四級企業共 28 家(占比 11%),五級企業共 3 家,數據標準化治 理水平仍有較大的提升空間。
市場格局:數據加工服務商占主導,數據治理服務商有望加速成長
數據加工服務商占主導,數據治理服務商有望加速成長。1)數據加工服務商:專注于數據 的清洗、標注、脫敏等加工服務,為數據分析應用提供高質量數據基礎;2)數據治理服務 商:主要從數據全生命周期的視角,為企業提供數據的標準化治理服務,提升企業自身的 數據管理能力。根據上海數據交易所發布的《2022 全國數商產業發展報告》,截至 2022 年 10 月國內數據加工服務商數量(121,598 家)遠超數據治理服務商(13 家),我們認為, 隨著數據要素在經濟活動中逐漸發揮重要作用,企業對數據管理能力的要求將進一步提升, 數據治理服務商有望加速成長。從具體細分環節來看,參與廠商構成具有一定差異:
1)數據清洗:主要參與廠商包括九次方大數據、數據寶、吉佳通達、三維天地等大數據企 業,其中九次方大數據、數據寶分別成立了貴陽大數據清洗基地、滿天星數據清洗加工標 注基地,吉佳通達、三維天地等公司主要為用戶提供數據清洗平臺產品。
)數據標注:主要參與廠商包括 Testin 云測、倍賽、京東眾智、百度眾測、阿里眾包等企 業,其中 Testin 云測、倍賽采用自建模式,通過自建工廠或基地提供數據標注服務;螞蟻 眾包、阿里眾包采用眾包模式,通過搭建眾包平臺匯聚標注兼職人員力量;京東眾智、百 度眾測、龍貓數據、數據堂則采用自建+眾包的組合模式,比如百度在山西建立了人工智能 基礎數據產業基地,同時擁有數據標注開放平臺,兼具兩類業務模式優勢。
3)數據脫敏:主要參與廠商包括安華金和、比特信安、神州數碼、海量云圖、啟明星辰、 天融信等企業,其中安華金和、啟明星辰、天融信等信息安全服務商,通常以整體安全服 務解決方案的形式提供數據服務,安華金和是 Gartner 2020 年《數據脫敏市場指南》中唯 一入圍的中國安全廠商;比特信安、神州數碼、數博智云等數據服務商,通常以提供數據 脫敏產品、服務為主要業務形態。
4)數據治理:主要參與廠商包括億信華辰、美林數據、四方偉業、云坤科技、普元信息、 神策數據、華傲數據等企業,其中億信華辰、美林數據、四方偉業等企業是數據要素供給 的全鏈廠商,業務布局涵蓋數據采集、數據聚合、數據整理、數據分析等全業務環節;普 元信息、云坤科技主要關注數據采集、數據聚合、數據整理等環節;神策數據、華傲數據 主要關注數據整理、數據分析等環節。
數據聚合:數據資源化樞紐環節,強調數據要素互通共享
數據聚合是數據要素互通共享的樞紐環節。根據聚合范疇的不同,數據聚合可分為數據庫、 數據湖、數據倉庫、數據平臺等多種業務形態:1)數據庫:按照數據結構不同可分為關系 型數據庫、NoSQL 數據庫、NewSQL 數據庫;2)數據倉庫:是指用于存儲、分析、報告 的數據系統,與數據庫相比數據倉庫中的數據按照一定主題域進行組織;3)數據湖:是指 集中式數據存儲庫,允許以任意規模存儲所有結構化和非結構化數據,解決了數據分散、 存儲散亂、數據孤島眾多等問題;4)數據平臺:是指通過內容共享、資源共用、渠道共建、 數據共通等形式來進行服務的網絡平臺。我們認為,數據要素互通共享將成為數據分析利 用的重要支撐,云數據庫、湖倉一體平臺、大數據平臺等產業形態有望加速發展。
數據庫:數據上云成為重要趨勢,非關系型數據庫快速發展
數據庫上云成為重要趨勢,非關系型數據庫加速發展。數據要素化持續帶動數據規模高速 增長與數據類型不斷豐富,同時數據計算也將朝高并發、低時延的趨勢深度發展。綜合考 量數據要素化帶來的數據與計算變化,我們認為,面向數據要素的數據庫存儲將呈現顯著 的云化趨勢,云數據庫能夠按需分配計算、存儲和帶寬等資源,具有按需付費、按需擴展、 高可用性、存儲整合等靈活性優勢;同時大量圖像、視頻、社交信息等非結構化數據高速 增長,帶動非關系型數據庫占比快速提升。據沙利文預測,2025 年我國數據庫產業規模將 達到 682.3 億元,2021-2025 年復合增長率約為 21.1%,云數據庫將成為重要增量。
湖倉一體:數據湖、數據倉庫呈現湖倉一體發展趨勢
湖倉一體成為數據湖、數據倉庫的重要發展趨勢。普通的數據湖(Data Lakes)在數據質 量、一致性/隔離性、混合處理追加讀取等方面不如數據倉庫,普通的數據倉庫(Data Warehouses)在多源、異構數據融合方面劣勢較為明顯。湖倉一體(Lakehouse)兼容了 數據倉庫和數據湖的優勢,在數據湖的低成本存儲上實現數據倉庫的數據結構和管理功能, 包括事務支持、模式執行和治理、商務智能 BI(Business Intelligence)支持、存儲與計算 分離、多種數據類型支持、各種工作負載支持等。
國內湖倉一體廠商主要包括云廠商和大數據廠商兩大類。1)云廠商:以華為云、阿里云、 金山云、騰訊云、移動云、百度智能云為代表的云廠商,憑借基礎資源優勢打造云原生的 湖倉一體平臺,兼具云數據庫與湖倉一體平臺的產品優勢;2)大數據廠商:以火山引擎、 星環科技、偶數科技、滴普科技、億信華辰為代表的大數據廠商,也基于自身在大數據聚 合、分析方面的業務理解,推出湖倉一體產品,為下游用戶提供高效的數據聚合方案。
數據平臺:一體化平臺或將加速數據要素市場化進展
大數據平臺打通各數據環節,推動多源異構數據互聯共通。大數據平臺采用流、批、湖、 倉一體化方案,實現多源異構數據的大規模聚合。以星環科技的 TDH 大數據平臺為例,TDH 平臺內置 8 款獨立的存儲引擎,實時流處理采用實時流計算引擎 Slipstream,結構化數據 的批處理、數據湖、數據倉庫采用關系型分析引擎 Inceptor,寬表存儲、文本存儲、對象存 儲等非結構化數據采用寬表數據庫引擎 Hyperbase。我們認為,一體化大數據平臺在多源 異構數據聚合方面具有突出的技術優勢,或將成為多類型數據要素聚合的重要載體。國內 大數據平臺廠商包括:思邁特、星環科技、友盟、網易猛犸、神策數據等多家企業。
數據分析:數據資源化應用環節,實現數據價值深度挖掘
2025 年數據分析市場規模有望突破 1300 億。數據分析是指通過對數據資源的詳細研究、 概括總結以實現數據功能的最大化開發,包括商業智能(Bussiness Intelligence,BI)分析、 知識圖譜、邊緣計算、智能決策等細分市場。參考沙利文、艾瑞咨詢、億歐智庫、IDC 對 數據分析細分市場的市場規模預測,2025 年 BI 分析、知識圖譜、邊緣計算、智能決策的市 場規模分別為 94、246、629、353 億元,合計市場規模有望達到 1322 億元。
BI 分析進入智能 BI 時代,參與者包括 BI 解決方案商和大數據廠商兩大類。BI 分析平臺的 架構自下而上包括基礎服務、數據接入、數據處理、數據可視化、內容呈現五個層級;市 場參與者包括 BI 整體解決方案廠商、具備 BI 功能的大數據廠商兩大類:1)BI 整體解決方 案廠商:分為傳統 BI 廠商和敏捷 BI 廠商,主要包括帆軟軟件、遠觀數據、思邁特、網易數 帆、奧威軟件等企業;2)具備 BI 功能的大數據廠商:包括以億信華辰、火山引擎、友盟 為代表的數據存儲與處理廠商,以美林數據、優易數據為代表的數據管理廠商,以及以全 天智能、明略科技、易觀數科為代表的數據分析與可視化廠商。
邊緣計算高速發展,產業生態日益完善。邊緣計算是指在數據源附近的網絡邊緣執行數據 分析處理以優化云計算系統的方法,產業鏈上游為服務器、邊緣網關、邊緣計算終端、邊 緣計算平臺等基礎軟硬件設施提供商;產業鏈中游為云服務廠商、電信運營商等邊緣云建 設服務商;產業鏈下游為行業垂直系統集成商、產業鏈綜合服務商、邊緣計算專家等系統 集成商。據億歐智庫統計,2021 年我國邊緣計算市場規模為 427.9 億元,其中邊緣硬件市 場規模為 281.7 億元,軟件與服務市場規模為 146.2 億元,據億歐智庫預計,2025 年我國 邊緣計算市場規模有望達 1,988 億元,其中硬件市場規模 1,359 億元,軟件與服務市場規 模 629 億元。
2025 年智能決策應用滲透有望超 60%,智能決策時代或將加速到來。智能決策是指利用機 器學習、深度學習、聯邦學習、運籌學等技術,實現精準營銷、銷量預測、供應鏈管理、 風險控制等業務環節的智能決策,已實現在金融、零售、制造、能源等行業的初步應用。 根據 IDC 發布的《2021 年中國智能決策解決方案市場份額》報告,2021 年中國智能決策 解決方案市場規模達 8.9 億美元,同比增長 66.4%,據 IDC 預測,到 2025 年,超過 60% 的中國企業將實現智能決策技術的應用,員工的工作效率和生產力較 2021 年將提升 25%。 目前國內主要參與廠商包括第四范式、同盾科技、邦盛科技、杉樹科技等企業。
數據流通:“5+5”構建流通框架與市場環節
數據要素流通市場建設包括政策與法律法規、流通制度、模式、技術和標準五方面。其中, 政策與法律法規是培育數據要素市場、促進數據要素安全流通的重要保障;流通制度是支 撐數據要素流通宏觀政策主張走向具體落地實踐的主要途徑和載體,有助于實現“數據可 用不可見,數據不動價值動”;流通模式是融合政策、法律法規、制度、技術、標準和實 現數據要素市場化配置的關鍵環節;流通技術為培育高質量的數據要素市場提供基礎性技 術支撐;流通標準是銜接政策法律法規、制度和技術的重要治理工具。
數據要素流通市場化發展涉及數據權利、登記、定價、交易、監管五個環節。基于數據要 素流通框架,站在市場化整體發展路徑角度,數據要素流通市場化發展涉及數據權利、數 據登記、數據定價(收益分配)、數據交易、數據監管五個環節。其中,數據資產登記是數 據要素流通的必要前提,解決權屬鏈識別、市場準入和數據資產盤點等問題;數據評價和 數據資產評估是實現數據價值流通的必經之路,解決數據要素全生命期質量和價值度量等 問題;數據交易是推動數據要素流通、釋放數據價值,培育數據要素市場的關鍵環節;數 據監管在數據要素流通全過程制定數據安全合規監管監測體系,是保障數據要素安全流通 流轉的關鍵。
數據權利與確權:數據要素流通交易的基礎
數據權屬確定(確權)是數據要素的流通交易基礎。數據權屬界定不明確,將導致數據在 流通、交易、使用過程中的可解釋空間大,甚至出現大量數據集在黑市進行交易情況,造 成數據隱私泄漏,市場規范性遭到破壞。因此,數據確權是整個數據要素流通交易的基礎。 數據權利主要包括數據持有權、加工使用權、經營權及其相關權利事項。數據往往由自然 人和企業共創,是社會網絡的共同產出,其權利呈現相對化趨勢,加上數據可復制、易共 享的特征,數據權利的確定與傳統物權、決定權都不相同。1)數據持有權:根據國家發展 和改革委員會《數據基礎制度觀點》,數據持有權的權能至少涵括自主管理權,具有私益性; 2)加工使用權:是指企業自我使用、處理加工數據的權利;3)經營權:是指企業對數據 的開發、交易和處分的權利。其中,數據使用權和經營權須具有一定的排他性才能夠確認 為資產,即企業控制的資產必須帶來其它企業不能獲得的經濟收益。
國內外在數據權屬問題上均進行了充分的法律制度探索。歐盟最早進行體系性構建,確立 了“個人數據”和“非個人數據”的二元架構;美國未針對數據的綜合立法,而是將個人 數據置于傳統隱私權的架構下,利用“信息隱私權”來解決互聯網對私人信息的威脅;日 本嚴格界定數據保護范圍,不對數據另行設置私權限制,尊重數據交易契約自由;俄羅斯 規定數據主體為“處理人”,具有數據知情權,更正、中止、刪除權,可攜帶權等權利; 印度將數據視為“信托”問題,由“數據受托人”承擔主要責任。 國內數據確權尚處于起步階段。目前,中央及部分地區陸續出臺相關文件,建立相關平臺, 籌劃數據確權發展。例如,深圳創設數據權,明確數據權的財產權屬性與數據權的內容; 廣州要求重點在數據確權先行先試,全面開展對數據確權相關法律法規的預研;北京籌建 北京國際大數據交易所,明晰數據權利取得方式及權利范圍等。
基于“三分原則”,根據由易到難和效益更大化兩條標準得到數據確權路徑。基于“三分 原則”,可以得到數據產權內容矩陣。在產權矩陣的基礎上,根據“由易到難、層層推進”, 以及“對有助于實現社會和個人效益更大化的數據優先確權”兩條原則,得到確權的順序 路徑。例如,企業數據構成最復雜,且準公共品的企業數據產權束內容最多(包含公有、 基礎數據、衍生數據產權),因此確權順序排在最后。最終得到數據確權的順序為圖中 A→ B→C→D→E→F。此環節主要由區塊鏈(存證、追溯)、現代密碼、數據水印等技術支持。
2026 年,全球數據量預計達 175ZB,數據確權市場前景廣闊。目前,國內數據確權暫未形 成明確的商業模式。但是從數據量上看,據 IDC 數據,2025 年,全球數據量總和預計高達 175ZB(1 澤字節相當于 1 萬億 GB)。2017 年,中國的數據產生量約占全球數據產生量的 23%,按照該占比計算,2025 年,中國數據量約為 40.3ZB,數據確權市場前景廣闊。
數據登記:確認數據合法性的保障
數據登記指的是將數據相關信息及權利在數據登記系統上予以記載和公示。登記的目的在 于合法性確認,申請所持有數據成為資產的企業自愿在登記平臺上備案形成存證,為潛在 的數據權益糾紛和數據來源爭議留存證據,并發揮唯一標識數據的作用。 數據資產登記體系有登記目的、依據、機構、登記者、對象、載體、審查、效力八個要素。 從流程上理解,數據登記是登記者基于特定登記目的的需求,就某一登記對象,向登記機 構提出登記申請,登記機構根據登記制度,開展登記審查后將登記對象記載于登記載體中, 取得數據資產登記證書,并最終產生登記效力。其中,登記目的是保護參與主體的合法權 益和資產流通的安全與效率;登記者是數據資產的合法持有者;登記機構接受登記者的申 請,按制度完成登記和管理載體;登記依據是登記行為的規范和操作標準;登記對象是登 記者擁有和控制的、經過加工處理以后可以作為可流通可交易的數據產品及其權屬和交易 記錄;登記載體是登記者、登記機構、相關第三方的電子化信息溝通交流平臺;登記審查 指對登記者提供的登記材料進行審核,包括形式審查與實質審查兩類;登記效力是對主體 與關系的設立、變更、終止事實作出法律確認,包括創設效力和確認效力。
國外尚未明確數據登記概念,國內率先確立數據資源與數據產品兩種數據要素。雖然歐盟、 美國對于數據確權相關制度規范探索深入,但并未明確提出數據登記核心概念。相對而言, 國內認為數據資產登記是解決數據要素流通“確權難”問題的重要基礎,也是完善數據要 素流通制度的重要一環,而對數據要素的深入理解是制定數據登記模式的前提。目前,我 國將數據要素分為數據資源和數據產品兩個類型。1)數據資源:指經過初步加工處理后、 可以再次開發利用并創造價值的數據要素;2)數據產品:指再加工后的、可直接交易產生 收益的數據要素。
數據登記時重點關注數據基本信息、來源、收益途徑、權屬關系等內容。1)數據基本信息: 包括名稱、所屬行業類別、數據類型、哈希值等;2)數據來源:若外購或授權得到,可提 供交易憑證或許可文件,若爬取得到,需提供爬取對象的基本信息,包括但不限于網址或 數據庫地址、授權許可關系等;若由企業自生,簡要描述產生于生產流程中的哪一環節等; 3)數據實現收益途徑:包括數據用途、稀缺性、開發可行性等;4)數據權屬關系:是否 享有使用權或經營權;5)法律情況:說明數據是否涉密及是否存在法律爭議;6)審計: 登記機構通過線上隨機采樣或現場核驗等方式進行審計,核驗通過后頒發數據資產證書, 完成資產登記。整個環節涉及技術主要包括區塊鏈、哈希技術、知識圖譜等,保證了數據 登記權力鏈和流通鏈安全可追溯。
上海數據交易所已實踐了數據產品合規登記流程。以上海數據交易所數據產品合規登記流 程為例:1)掛牌單位填寫《掛牌數據產品詳單》進行數據產品準備;2)律師事務所進行 數據產品的合規性評估;3)掛牌單位在上海數據交易所系統進行數據產品注冊并提交相關 材料,包含《數據產品交易協議》、質量評估文件、律所法律意見書等;4)上海數據交易 所對所提供材料進行審查;5)審查無異議則完成數據產品的掛牌,之后該數據產品才能流 入市場、準許交易。
數據定價&收益分配:量化數據估值,確定數據收益
我國基本確立了由數據評價與價值評估兩個環節組成的數據資產定價模式。數據定價指的 是依據數據質量、成本、應用評價結果,使用相應方法對被評估數據進行量化估值。依據 《數據資產評估指導意見(征求意見稿)》《信息技術大數據數據資產評估》團體、國家標 準征求意見稿,我國已通過全面分析數據的技術屬性和財務屬性,初步形成了包含數據評 價與價值評估兩個環節的數據資產定價基本模式:1)數據評價環節:包括質量要素、成本 要素、應用要素三部分的技術評價;2)價值評估環節:由于數據資產無實物形態且具有非 貨幣性,可類比無形資產,采用成本法、收益法、市場法對數據資產價值進行評估。
靜態定價策略與動態定價策略相結合的方法,更適合不完全市場下的數據定價實踐。事實 上,由于數據資產具有重置成本難確定、價值可持續挖掘、數據使用壽命不易估計、交易 市場規模小等特點,并不能完全等同無形資產定價。在目前的不完全市場下,數據價格受 數據量、數據種類、數據深度、數據完整性和數據實時性等多因素影響。因此,采用靜態 定價策略與動態定價策略相結合的方式或更為科學。靜態定價策略包括固定定價、差別定 價、拉姆齊價格;動態定價策略包括自動計價、協商定價、拍賣式定價。
完善理論框架和實現動態定價或是數據定價模式的研究重點。目前,對于數據定價的研究 主要依賴于特定假設,許多實際問題仍缺乏有效的解決途徑。完善理論框架和實現動態定 價或是數據定價的研究重點。1)完善理論框架:單一模型在數據定價中存在不足,應充分 考慮利潤、市場供求、數據產品特征和成本結構等的多指標體系,以成本導向的定價為價 格下限、顧客導向的定價為價格上限、市場導向的定價為價格參照、利潤和消費者福利最 大化為目標。此外,也可結合大數據的價值特點,建立大數據定價的理論體系,實現多種 定價手段聯合定價;2)實現動態定價:數據要素的價值具有波動性,而目前市面上大多數 定價方法為靜態定價。因此,在實際進行數據定價時,需要充分結合市場情況、數據類型、 預測模型進行數據要素的動態定價。
在數據確權、定價的基礎上,交易平臺和數據賣方按照收益分配機制實現數據價值。收益 分配機制包含兩部分。一部分是數據交易平臺收益分配機制,包括:1)交易分成收益分配 機制:在數據交易完成后大數據交易平臺與數據賣方按約定好的比例分成相應的中介費用; 2)保留數據增值收益權分配機制:大數據交易平臺對數據保留增值收益權并以此為基礎收 費的方式。另一部分是大數據交易賣方收益分配機制,包括:1)一次性交易所有權收益分 配機制:在數據交易中一次性轉移數據占有權、使用權、處分權、收益權;2)多次交易使 用權收益分配機制:即只針對數據使用權進行反復多次的交易,帶來更多收益;3)保留數 據增值收益權分配機制:數據賣方決定是否需要保留對收益權的占有,并決定按多少比例 進行合同約定。
數據交易:培養數據要素市場的關鍵
數據交易對象包括“大數據&衍生品”和“傳統數據&衍生品”兩種數據商品。數據交易是 數據供應方和需求方之間以數據商品作為交易對象,進行的以貨幣或貨幣等價物交換數據 商品的行為。其中,數據交易的對象是數據商品,包括用于交易的原始數據或加工處理后 的數據衍生產品。按照交易對象的不同,數據交易可分為兩種:1)以大數據或其衍生品作 為數據商品的數據交易;2)以傳統數據或其衍生品作為數據商品的數據交易。基于參與數 據交易市場的主體和行為,可構造出如下數據交易市場的基本框架圖。
數據交易制度包括交易所制度、數據經紀人制度和數據空間制度。1)交易所制度:數據交 易所類似于股票市場的場內交易,是數據交易雙方集中交易的市場化場所,能夠有效的促 成買賣雙方的公平交易,降低交易風險,同時,具備不可替代的高效性和規范性。2)數據 經紀人制度:數據經紀人指的是通過匹配、溝通和撮合,促成買賣雙方的數據交易并賺取 傭金的中介機構或個人。該制度有利于盤活閑置數據資源,匹配市場供給需求,促進數字 經濟的快速流通。3)數據空間制度:數據空間是一個虛擬空間,促進受信任的商業生態系 統中安全和標準化的數據交換和數據鏈接。數據空間目前仍處于倡議階段,提供研究活動、 制定標準、構建生態等功能。
不同的交易市場催生不同的服務運營模式與之相適應。在不同的交易市場中,服務運營模 式也不盡相同,具體可分為數據直供服務、數據加工服務、數據銀行模式和數據信托模式。 1)數據直供服務:數據要素流通市場早期形成的服務模式,隨著數據服務形態逐步智能化 和高效化,這種服務將逐漸退出歷史舞臺;2)數據加工服務:隨著算法技術的持續發展, 逐步衍生出智能、全面、獨具中國特色的數據加工服務,能夠對數據進行脫敏、去標識化, 確保敏感數據交易的安全性;3)數據銀行模式:需要定義數據標準化流程,將不同來源的 數據進行結構化和標準化處理之后,再封裝成為數據資產產品或服務,以便后續流通;4) 數據信托服務:可以橫跨貨幣市場、資本市場、實業產業,有著廣闊的發展空間。
數據交易過程涉及技術包括數據元件技術、數據空間技術、數據隱私技術等。在數據交易 和提供數據增值服務的過程中,始終存在著數據流通和數據安全的矛盾。而上述四種技術 能有效緩解這一矛盾。1)數據元件:具備安全屬性和價值屬性,能夠實現數據的風險隔離、 安全管控和提升數據價值密度;2)數據空間技術:從本質上而言是建立數據生產者、處理 者和消費者之間的信任,保護數據主權,促進數據流通,消除數據孤島;3)數據隱私技術: 能夠在處理與分析計算數據的過程中保持數據不透明、不泄露、無法被其他非授權方獲取。
上海數據交易所已實踐了完整的數據交易流程。1)交易準備階段:掛牌前要求數據產品完 成合規、數據質量等一系列評估,在上海數據交易所的全數字化系統完成線上掛牌;2)交 易合約階段:交易主體根據交易規則,采用“供方定價、供需議價”等市場化定價方式, 達成數據交易合約,依照合約約定,供需雙方完成交付及清結算過程,數據交易完成后, 上海數據交易所為交易方提供交易憑證;3)數據交付階段:根據敏感級別,將數據分為 S1~S4 級,不同的數據產品,根據其所屬分級等級,對應不同的交付方式和交付技術,交 付不受時空限制,可由交易主體雙方進行協商,同時可選擇第三方交付服務商,實現交付 安全、合規、成本、效率等方面的最佳平衡。
數據監管:保障數據要素安全流通流轉
數據監管是在數據要素流通全過程制定相關的數據安全合規監管監測體系。數據監管的目 的是保障數據要素安全流通流轉。在數據監管環節,主要采用爬蟲技術、應用日志流量分 析技術、數據水印、區塊鏈技術等。為保障各方數據權益和促進數據流通,各國正在逐步 構建數據相關立法模式和探索數據分級分類方案。 歐盟采用統一監管模式,致力于保護數據主體的人格權和隱私權。歐盟是世界上起步最早 的數據治理組織,其數據監管模式具有參考價值。通過明確權利義務、統一立法標準、設 立專門機構、設置數據保護官等手段,調動歐盟、成員國、數據控制者等多方力量保障數 字時代公民的隱私權利,形成了歐盟與成員國二級共建、具有統一性和獨立性的監管模式。 2018 年,《通用數據保護條例》出臺,強調了監管機構的獨立性和權威性,細化了數據控 制者和處理者的權利義務,要求企業設置數據保護官加強內部監管。2022 年 2 月,公布《數 據法案》草案,明確提出搭建全面監管框架,強化用戶獲取和使用數據的權利,并要求成 員國依靠獨立監管機構審查行為者獲取數據的權利和義務,深化了對數據的二級監管機制。
美國數據立法遵從分散立法模式,尋求數據權利保護與數據自由流通之間的平衡。美國從 較為自由的數據監管模式逐步收緊。國家安全層面,美國先后頒布《美國外國投資風險審 查現代化法》、《美國澄清海外合法使用數據法》,以嚴控關鍵技術和敏感個人數據領域的外 商投資;數據開放層面,美國頒布《美國信息自由法》《美國開放政府數據法》等促進非敏 感數據的流通;個人數據保護方面,美國在多個領域均有立法保護,如金融行業的《美國 金融消費者保護法》,電信行業的《美國計算機欺詐和濫用法》;數據跨境流動方面,美國 先后頒布《信息安全港框架協議》《隱私盾協議》,以規范存儲在國外的數據。
早期,我國主要通過制定規范性文件,將個人數據作為網絡空間安全的一部分進行規制。 我國陸續出臺了《關于維護互聯網安全的決定》《關于加強網絡信息保護的決定》《信息安 全技術公共及商用服務信息系統個人信息保護指南》等規定和指南,分別從個人數據資料 處理監管范圍,打擊網絡信息違法犯罪行為,個人數據測評監督機制等方面進行了規定。
目前,設立數據流通相關監管法律是數據監管的重點。隨著數字經濟的發展,規范性文件 的效力與可操作性受到局限。為此,我國出臺了《網絡安全法》《數據安全法》《個人信息 保護法》三大數據監管相關基礎法,從不同角度明確了各方的權利義務,規定了主要監督 部門,細致劃分違法行為的處罰標準及范圍,構建起我國數據監管的基本法律框架。框架 一方面加強了數據人權保護,另一方面增強了對關系國家安全、公共利益等重要數據的監 管,形成了較為全面的數據監管體系。在三大基礎法的框架之下,2022 年 6 月,國家互聯 網信息辦公室起草了《個人信息出境標準合同規定(征求意見稿)》。此外,在數據合規基 礎法律框架基礎上,各重點行業相關法規和司法解釋也陸續出臺。
(本文僅供參考,不代表我們的任何投資建議。如需使用相關信息,請參閱報告原文。)
精選報告來源:【未來智庫】。「鏈接」