在數字景氣的浪潮中,資料已經成為推動社會與景氣運行的新型石油。差異于石油的有限性,資料似乎可以無限生成、無限利用。開放資料的價值不容置疑,它不只是公共信息的重要消息來源,更是創新技術的燃料。但同時,它也伴隨著隱私泄露、商務秘密暴露甚至算法歧視等危險。
本文將結合邱志剛和王子悅的最新分析績效,解讀開放資料的雙重角色、潛在危險,以及如何劃定其利用邊界。 它既或許來自政府或城市級的開放資料平臺,如美國政府的 data.gov、紐約市的 NYC Open Data,以及中國廣東省的開放資料目錄;
也或許通過網絡爬蟲技術,從公開網頁中抓取,比方說企業注冊信息、新聞報導報道、交通工具情況等。 開放資料具有三大中心特點:開放獲取、非競爭性利用與多樣性。所謂非競爭性利用,意味著一個人利用資料并不會減少他人利用同樣資料的機會,這與礦產等稀缺資源徹底差異,更像空氣和陽光:你用,我也能用。
圖1:美國政府和紐約市供給的開放資料平臺 圖2:廣東省開放資料平臺示例 在現實應用中,資料發揮著兩大重要作用。 比方說,衛星圖像可用于監測商場泊車場車流量,從而預測零售業績額;港口貨物吞吐量研究有助于判斷進出口關稅走勢;夜間燈光亮度能夠反映某地區的工業產出水平。
金融範圍中,對沖共同基金使用氣象、消費、物流等開放資料尋找理財機會,危險理財機構則跟蹤初創公司的技術專利申請、招聘動態和社交新聞界熱度來評估其增長潛力。在宏觀景氣預測方面,電力負荷、貨運量、網絡搜索指數等高頻開放資料,能夠彌補官方統計資料更新滯后的不足,使決策者更快把握景氣全貌。
比方說,人工智 能範圍的 ChatGPT,其練習資料中包括了很多開放的互聯網文本,使其具備寫作、翻譯、問答等多種能力。更多可獲取的開放互聯網資料擴充了練習資料集。另外,有分析呈現局部我國人工智慧公司使用政府開放的合規、脫敏監控資料練習算法,取得了全球領先的識別精度。
比方說,在自動開車範圍,其演變依賴開放的交通工具流量、路況與事故資料不斷改善算法。在智慧農業範圍,通過融合開放的氣象和土壤資料,協助農民科學 施肥與灌溉。在治療分析中,開放的基因團隊和治療影像資料加快了新藥開發與病症預測。可以說,沒有開放資料,許多如今看似理所自然的技術突 破將難以實現。
第一是個人隱私暴露。即便資料經過脫敏解決,也或許通過技術手段被反向推導出個人身份。 比方說,通過多源資料的交叉匹配,一個原本匿名的治療記錄,也有或許被關聯到具體的個人信息,導致隱私泄漏。第二是商務秘密泄露。開放資料中有時包括公司的運營細節,比方說製造節奏、產業鏈布局、庫存周轉狀況等。
一旦這些信息被對手獲取并使用,或許會給公司帶來嚴重的競爭劣勢甚至直接的景氣虧損。第三是算法歧視。假如開放資料本身存在結構性偏見,人工智能模型在練習歷程中往往會放大這種偏見,進而造成對某些群體的不公平待遇,甚至在招聘、治療等範圍引發社會難題。 最后是生成式人工智慧的推演能力。
大型語言模型等生成式人工智慧工具能夠在長期研究開放資料的歷程中,推導出敏感信息,即便這些信息并未直接出現在原始資料中,也或許被模型推斷出來。正因如此,該開放多少資料、開放哪些資料成為一個必須謹慎 權衡的問題。只有技術手段與法規框架協同配合,才能在資料使用與隱私保護之間找到穩妥的平衡點。
模型設定了三類中心參與者:首先類是資料供給者,負責決定開放資料的提供規模與內容;其次類是金融業界投機者,他們使用開放資料與自身掌握的私有資料,對景氣基本面執行預測,并通過買賣行為衝擊財產價錢形成;第三類是資本供給者,他們會結合價錢信號、開放資料以及私有資料,判斷是否向全新的成長機會執行理財。
在這種狀況下,出于降低隱私危險和減少不必要資料暴露的考慮,政府可以適度減少開放資料提供,將更多精力放在資料安全與隱私保護上。 所以,假如只把開放資料當做一個信息源來用,算法的提升和私營部門對資料的積累會對開放資料提到一種替代作用。
換句話說,假如有足夠高級的算法和足夠多的私有資料,政府沒必要供給大量的開放資料。而這也是當前開放資料的首要爭議之一! 但是,邱志剛與王子悅指出開放資料不只具有信息作用,也是一種關鍵的生成數據,具備創新作用。在考慮創新作用時,情形就徹底差異。
在這種狀況下,即便私有資料資源已經非常豐富,繼續維持甚至提高開放資料的提供,依然有助于推動新技術的開發和新產業的演變。 在金融業界層面,私有資料和資料研究技能的提升存在雙重效應:另一層面,兩種效應的凈後果,取決于業界的不確定性程度、資料技能水平的高低以及資料利用歷程中隱私開銷的大小。
總體來說,私有資料的提高有或許減弱政府供給開放資料的動力,所以會降低業界有效性 而在高不確定性環境中,信息作用的權重會大幅上升,這時假如私有資料過多,或許會擠壓開放資料的應用空間,反而削弱整體景氣運行的效能。這解釋, 開放資料是一把雙刃劍。
一方面,它是現代景氣的重要加速器,推動信息透明化、技術創新和產業升級;另一層面,其開放特性也讓隱私泄露、商務秘密暴露以及算法歧視等危險不容忽視。 簡而言之,假如私有資料已經很豐富、隱私危險又較高,且開放資料的機能首要集中在信息供給方面,那么可以適當收緊開放范圍;
差異類型的資料具有差異的敏感度和利用危險,政府與平臺應創建科學的分類分級制度,對低危險且具有高創新潛力的資料優先開放,而對涉及敏感信息的高危險資料設置更嚴格 的訪問與利用門檻。 應推廣差分隱私、聯邦研習等先進技術手段,在提升資料可用性的與此同時,最大程度降低個體信息被反向推斷的或許性;
并且應針對生成式 人工智慧 等新技術對開放資料的訪問執行有針對性的限制和監管。 通過制定稅收折扣、資金扶持等激勵政策,引導公司在保護商務秘密的前提下,將私有資料與開放資料結合利用,研發出更多新技術與新應用,從而形成創新合力。
應當根據業界反饋和技術演變水平,定期評估開放資料對創新能力、業界效能以及隱私安全的綜合衝擊,并據此適時增減資料開放的范圍與力度,使政策具有靈活性和前瞻性。
加強資料知識普及,協助公眾了解開放資料、隱私保護和資料權益的重要性,增強個人在數字化時代的自我保護能力與參與意識,讓整個社會更好地應對數字化進程中的機遇與挑戰。
參考文獻:1. The Boundary of Open Data Implications for the Financial Market and Real Efficiency, (ith Ziyue Wang), 2025, forthing in Management Science.
