清華教授陳松蹊:統計學為數據治理與AI發展筑基
中國經濟網貴陽8月30日訊(記者宋雅靜)“面對超維數據激增、跨領域應用需求擴大及AI深度融合的趨勢,統計學是破解數據難題、保障AI決策科學性的核心支撐。”2025數博會上,清華大學教授陳松蹊接受中國經濟網記者采訪時,結合自身在大氣環境、醫療健康等領域的研究實踐,闡述了統計學的創新應用與協同路徑。
清華大學教授陳松蹊。中國經濟網宋雅靜/攝
超維數據處理:突破關聯與多模態挑戰
談及超維大數據的處理難點,陳松蹊指出,自 2000 年人類基因組計劃推動超高維數據研究以來,統計學已解決獨立超維數據的信號識別、稀疏性分析等問題。但當前數據分布、異質性愈發復雜,新挑戰集中在兩方面:一是數據存在時空相關性,比如大氣觀測數據并非完全獨立,傳統處理方法不再適用;二是多模態混合數據增多,數據來源涉及多個“母體”,難以用單一模型適配。
“以大氣科學為例,一公里分辨率的地球系統數據維度可達幾千萬,即便有每小時的觀測數據,樣本量仍遠低于維度。” 陳松蹊提到,針對關聯數據、多模態數據的處理,仍是當前統計學的前沿探索方向。
跨領域應用:統計學方法可跨場景遷移
在探討環境統計方法向醫療、金融領域遷移的可能性時,陳松蹊強調 “數據共性” 是關鍵紐帶。
他分享研究發現:北方地區沙塵暴溯源需通過密集空氣質量監測站數據追蹤傳播路徑,癲癇發作檢測需依托腦電圖數據判斷狀態,二者均需高維數據的異常識別與動態追蹤,統計學中的信號提取、方差分析等方法可有效適配。
“傳統方差分析從農業領域起步,如今已用于醫療效果評估、互聯網企業營銷策略優化。” 陳松蹊表示,只要核心問題是 “數據特征提取、異常識別、相關性分析”,統計學方法調整參數后,就能為醫療診斷、金融風險預警提供支撐,即便不同領域數據有特性差異(如海洋數據比大氣數據更穩定、觀測難度更高),也不影響方法遷移。
互補共生:統計學填補AI“不確定性”短板
針對“統計學與 AI 協同發展”的話題,陳松蹊提出“互補共生”的觀點。他認為,AI模型(如卷積神經網絡)雖有強大的表示能力,但存在不確定性難度量、可解釋性不足的問題;而統計學的核心優勢在于“量化誤差、給出不確定性邊界”,能為AI決策提供科學支撐。
“并非所有問題都需要大模型。” 陳松蹊建議,模型訓練應優先嘗試簡單統計模型,若能以低算力、少數據解決問題,無需盲目追求復雜 AI 模型;若場景需要AI模型,也需用統計學方法度量其誤差范圍、置信區間,確保決策可信。目前,清華大學統計數據科學系已將“人工智能的統計學基礎”列為核心研究方向,重點探索 AI 模型的不確定性度量方法。
此外,陳松蹊透露,本次數博會重點關注兩大議題:一是數據分析人才培養,去年成立的清華統計與數據科學系正推進相關本科專業與數據分析師專碩項目建設,以填補人才缺口;二是隱私計算,他將在貴州財經大學的論壇中,深入探討如何在差分隱私框架下平衡數據隱私保護與統計推斷準確性。
相關文章
最新評論