黄色毛片子-黄色美女免费网站-黄色美女网站-黄色美女网站免费-亚洲 国产 图片-亚洲 [12p]

網站首頁 | 網站地圖

人民論壇網·國家治理網> 前沿理論> 正文

加強大數據治理,防范“大數據自大”

摘 要:依托大數據、互聯網和信息技術的發展,數字經濟已經成為我國高質量發展的新引擎,對經濟發展、社會治理、人民生活等方方面面都產生了重要影響。但是,對大數據這一數字經濟的關鍵要素,目前在治理方面仍存在不少挑戰。為此,要著力防范“大數據自大”陷阱,加強大數據治理,為充分發揮大數據在國家治理現代化中的作用打下堅實基礎。

關鍵詞:大數據治理 大數據自大 政策建議

【中圖分類號】D63 【文獻標識碼】A

由于大數據具備“海量、實時、多類型”等特征, 依托大數據、互聯網和信息技術的發展,我國數字經濟蓬勃發展,已經成為高質量發展的新引擎。但是,對大數據這一數字經濟的關鍵要素而言,目前在治理方面仍存在不少挑戰,尤其是存在過于強調大數據發展優勢而忽略其中可能存在問題的傾向。為此,本文旨在著重探討大數據治理中需要防范的“大數據自大”陷阱。

“大數據”和“傳統數據”收集過程的差異

大數據在收集和分析方式上與傳統數據存在較大差異。傳統統計數據的收集主體是國家統計部門(“統計”在英文中與“國家”同一詞根)和特定研究機構。無論是人口普查還是抽樣調查,在收集數據前往往需要經過確定收集數據的目標、根據該目標設計問卷或者確定收集方法、組織數據采集團隊、對數據收集做好質量控制等步驟。對于抽樣調查,還需要詳細的確定抽樣框的步驟。尤其重要的是,傳統數據的統計必須遵守相關法律法規,如《中華人民共和國統計法》《中華人民共和國統計法實施條例》等。因此,傳統數據的收集主體相對清晰,數據收集目標相對明確,存在規范的收集流程;一旦統計數據出現質量問題,也有明確責任人。

與傳統數據的收集相比,大數據往往不是為了特定目標收集,而是企業運營過程中產生的副產品。例如,谷歌作為搜索引擎,最初只是為用戶提供便捷的搜索工具,但隨著用戶搜索量的增加,用戶搜索的信息本身沉淀為搜索大數據。又如淘寶最初只是讓消費者和廠商可以在線上達成交易的平臺,但雙方的交易形成了交易大數據。簡而言之,大數據的收集不再是某一主體為了特定目標而主動展開的統計項目,收集過程往往由數據采集平臺和機構自行決定,因此對外界來說是“黑箱”。由于目前我國還沒有相應法律法規來規范大數據收集過程中的責、權、利問題,大數據的質量以及基于大數據的分析如果出現問題也存在難以追責的現象。

“大數據自大”的提出

“大數據自大(Big Data Hubris)”問題最早由Lazer等學者在2014年發文討論谷歌公司預測美國流感發病率項目時提出。2008年11月,谷歌公司啟動了GFT(谷歌流感趨勢)項目以預測美國疾控中心報告的流感發病率。2009年,GFT團隊在《自然》發文稱,只需分析數十億搜索中45個與流感相關的關鍵詞,GFT就能比美國疾控中心提前兩周預報2007—2008季流感的發病率。2014年, Lazer等學者在《科學》發文指出,2009年GFT沒有能預測到非季節性流感A-H1N1;從2011年8月開始的108周里,GFT有100周高估了美國疾控中心報告的流感發病率,高估程度達1.5倍—2倍多。

Lazer等學者認為,“大數據自大”是這一預測錯誤的主要原因之一。這里,它是指一家機構認為自己擁有的“海量數據”就是“全量數據”,因此在分析定位上認為大數據比科學抽樣基礎上形成的傳統數據更優越。雖然近年來大數據與各類傳統數據相結合的分析受到了一定程度的重視,但是在實踐中卻仍然存在“大數據自大”現象。

“大數據自大”的現實表現

忽略大數據可能存在的結構變化

由于大數據相關技術在我國運用的時間還比較短,在對經濟和金融相關的預測中,尚不存在可以跨越較長經濟周期的大數據。而大數據分析所依據的機器學習或者深度學習模型,都假定了訓練數據的生成機制和真實數據的生成機制是相似的,即不存在結構性變化。這一假定在較短時間內可能成立,但是如果經濟出現結構性變化,就會產生過去運行良好的模型忽然預測不準的現象。例如,在經濟繁榮時期訓練出的判斷個人是否會逾期或者形成不良貸款的風控模型,在經濟下行時期就可能低估實際不良率的發生,導致對風險的預備不足。

忽略大數據可能不具備代表性

第一,不同平臺或者機構有其特定的消費人群。因此分析結論可能僅適用于該平臺或機構、未必可以代表全國或某一地區的狀況。然而一個常見現象是,網絡新聞平臺采用該平臺的瀏覽大數據來分析各省人群的閱讀習慣差異,餐飲行業平臺采用在這個平臺上產生的大數據來分析不同城市的夜間經濟,報告結果往往直接闡述為“XX省的讀者更偏好娛樂類新聞”“XX市夜間經濟特征”等。當相關企業將這類報告報送有關部門時,解讀這類報告中的趨勢和特征就需要注意,這類報告的分析包含了兩部分因素:一是全國或者某一地區人民閱讀或者餐飲的真實特征和趨勢;二是該平臺自身需求所帶來的結構性變化。如果忽略了第二種因素,就可能會導致對一些行業發展狀況產生誤判。

第二,在大數據供給層面存在算法調整問題。以谷歌公司為例,其商業模式的主要目標是更快速地為使用者提供準確信息。為了實現這一目標,數據科學家與工程師不斷更新谷歌搜索的算法,讓使用者可以通過后續谷歌推薦的相關詞快捷地獲得有用信息。這一模式在商業上非常必要,但在數據生成機制方面卻導致不同時期的數據之間可能不可比。如果數據分析團隊和算法演化團隊沒有充分溝通,數據分析團隊不清楚知曉算法調整對數據生成機制的影響,就會誤將數據變動解讀為市場真實變動而帶來誤判。

第三,數據生成動機可能會隨時間推移而發生變化。前文已述,大數據不再是由政府特定部門或者特定機構主持收集,而是經濟社會主體運營中產生的副產品,因此大數據的采集就和該主體自身的利益訴求密切相關。以社交媒體大數據為例,對這類數據的分析常常建立在一個假定之上,即人們在社交媒體分享的信息都是真實的、自發的、不會被自己發言的平臺所操縱。如果說過去社交媒體企業記錄保存客戶信息的動機僅僅是本公司發展業務需要,算法演化也單純是為了更好地服務消費者,那么隨著大數據時代的推進,“數據為王”的特征就會越來越明顯,社交媒體會看到除了可以給使用者植入廣告以增加收入之外,還可以操縱數據的生成與報告以增加自身的影響力。

技術唯上,忽略大數據分析的現實環境

大數據為我國發展新業態提供了嶄新機遇,但也存在一味強調大數據的技術優勢,而忽略大數據技術和各地區經濟社會發展實際狀況相結合時可能產生問題的現象。例如,金融科技發展過程中,大數據征信獲得了長足進展。基于大數據技術,車抵貸有了新的執行方式。相較于過去抵押車之后車就要放到固定地點不能移動的安排,現在由于車輛都安裝了GPS,貸款平臺可以實時監控車輛去向,因此抵押人辦完抵押手續之后仍然可以將車開走,一旦無法還款,平臺公司上門拖車即可。但是,在2018年以來開展的掃黑除惡專項整治活動中,借款人不還款、而出借方平臺因為擔心被當作惡意催收,也不能按照GPS上門收車的現象開始出現。又如,大數據分析技術的發展讓網約車成為人們日常出行的新選擇。但2019年12月Uber的首份安全報告顯示,2018年共發生超過3000起性侵案件,而紐約警察局記錄的數據顯示,2018年交通系統發生的這類案件為533起。上述兩例說明,如果沒有尊重金融規律(風險較高的人即便可以抵押車也不見得是好的借款人)、沒有相應的司法保障而單純依靠大數據分析的技術力量,那么在開發新業態的同時也可能帶來新風險。

防范“大數據自大”的政策建議

第一,加快訂立大數據采集和分析方面的法律法規。雖然有《網絡安全法》、《統計法》等法律法規,但目前我國在專門針對大數據采集、使用、分享等方面的法律法規還十分欠缺。例如,一些APP存在在使用者不知情的情況下,采集和使用與該APP無關的個人信息的做法,而這些行為目前并沒有明確的法律層面的懲戒措施。而歐盟的《通用數據保護條例(General Data Protection Regulations)》、荷蘭的《個人數據保護法》(Personal Data Protection Act,“DPA”)都指出,在沒有法律依據的情況下處理個人數據是不被允許的。

第二,提高大數據使用的透明度,加強對大數據質量的評估。由于大數據體量大、分析難度高等問題,不僅大數據的收集過程可能是“黑箱”,大數據分析也可能存在過程不透明的現象。在GFT案例中,Lazer等人指出,谷歌公司從未明確用于搜索的45個關鍵詞是哪些;雖然谷歌工程師在2013年調整了數據算法,但是谷歌并沒有公開相應數據,也沒有解釋這類數據是如何搜集的。同時,與透明度相關的是大數據分析結果的可復制性問題。由于谷歌以外的研究人員難以獲得GFT使用的數據,因此就難以復制、評估采用該數據分析結果的可靠性。這種數據生成和分析的“黑箱”特征,容易成為企業或者機構操縱數據生成過程和研究報告結果的溫床。唯有通過推動大數據分析的透明化,才能在大數據產業發展之初,建立健康的數據文化。

第三,在保護隱私和數據安全的基礎上,加大傳統數據和大數據的開放共享力度。大數據分析中,單個企業具有顆粒度較高但是代表性不足的數據 “信息孤島”問題,需要通過不同行業、不同類型大數據和傳統數據之間加強開放和共享來解決。目前,一些大數據企業已經開始著手推動數據開放平臺方面的工作,這是該方向可喜的變化。同時要看到,在傳統數據的收集和開放運用方面,我國還有很大提升空間。只有在對涉及我國基本國情的傳統數據進行充分學習研究之后,我國學界和業界才能對經濟政治社會文化等領域的基本狀況有較清晰的把握。而這類的把握,是評估大數據質量、大數據可研究問題的關鍵,對推進大數據產業健康發展有舉足輕重的作用。

結語

我國經濟已由高速增長階段轉向高質量發展階段,大數據已經成為數字經濟發展的關鍵要素。如果忽略數據生成機構可能存在的行為動機、大數據相關技術使用的現實國情、大數據和傳統數據的互相配合和交叉驗證,那么大數據分析就有可能落入存在嚴重偏差的陷阱。因此在政策導向上,需要盡快推動對大數據采集和使用的法律法規建設,同時推動大數據開放共享、大數據和傳統數據的研究與合作,使大數據與傳統數據互為補充、相得益彰,共同助力我國經濟的高質量發展。

【本文作者為北京大學國家發展研究院教授】

參考文獻

[1]胥愛歡: 《互聯網金融創新挑戰:大數據、跨界經營與權利異化》,《西南金融》,2016年第6期。

責編:司文君 / 周素麗

聲明:本文為《國家治理》周刊原創內容,任何單位或個人轉載請回復國家治理周刊微信號獲得授權,轉載時務必標明來源及作者,否則追究法律責任。

責任編輯:賀勝蘭
主站蜘蛛池模板: 国产女人伦码一区二区三区不卡 | 国产欧美精品一区二区色综合 | 久久久久久夜精品精品免费啦 | 一二三四视频社区5在线高清视频 | 一级做a爰片性色毛片新版的 | 亚洲精品视频免费 | 一二三四视频社区在线中文1 | 视频一区视频二区在线观看 | 国产一区二区三区鲁婷婷 | 国产一二三区视频 | 在线观看国产91 | 欧美播播 | 欧美高清强视频 | 国产v2ba最新在线观看 | 欧美videos在线观看 | 免费精品国产福利片 | 免费视频一区二区 | 久久久久国产视频 | 亚洲精品在线播放视频 | 国产极品嫩模在线观看91精品 | 亚洲第一免费视频 | 亚洲大片免费看 | 91原创视频| 四虎国产精品永久地址99新强 | 在线精品福利 | 99国产小视频| 四虎在线最新永久免费播放 | 欧美特级视频 | 日韩免费视频一区二区 | 日韩欧美精品一区二区三区 | 五月婷婷导航 | 欧美一级欧美一级高清 | 精品国产麻豆免费网站 | 98视频在线观看 | 国产这里有精品 | 91精品国产自产在线观看高清 | 免费观看91视频 | 中文字幕一区二区三区四区 | 国模青青丰满人体大尺度展示 | 国产精品久久久香蕉 | 精品国产美女福利在线 |