作為2025世界人工智能大會(huì)(WAIC)的重要組成部分,青年菁英交流會(huì)之"下一代大模型架構(gòu)演進(jìn)"于7月27日下午在上海世博中心607會(huì)議室隆重舉行。本次活動(dòng)由上海人工智能行業(yè)協(xié)會(huì)主辦,是WAIC青年菁英交流會(huì)系列活動(dòng)的核心環(huán)節(jié)之一,旨在匯聚人工智能領(lǐng)域的青年學(xué)者,深入探討大模型架構(gòu)演進(jìn)的前沿理論與技術(shù)突破。活動(dòng)遵循"學(xué)術(shù)引領(lǐng)、前沿思辨、范式創(chuàng)新"理念,聚焦大模型發(fā)展的理論根基與未來方向,構(gòu)建兼具理論深度與實(shí)踐價(jià)值的學(xué)術(shù)對(duì)話平臺(tái)。
會(huì)議由上海交通大學(xué)嚴(yán)峻池教授主持,西安電子科技大學(xué)徐偲副教授、上海交通大學(xué)林洲漢副教授、復(fù)旦大學(xué)熊昊助理教授作為特邀嘉賓進(jìn)行了專題分享,并與現(xiàn)場(chǎng)觀眾進(jìn)行了深度交流。
模型不確定性量化
從傳統(tǒng)模型到大模型的跨越
從貝葉斯統(tǒng)計(jì)到深度學(xué)習(xí),不確定性量化始終是機(jī)器學(xué)習(xí)領(lǐng)域的核心挑戰(zhàn)。傳統(tǒng)機(jī)器學(xué)習(xí)模型通過概率分布、置信區(qū)間等方法量化預(yù)測(cè)不確定性,但在大模型時(shí)代,亟需量化大模型輸出的置信度,避免過度自信的回答產(chǎn)生嚴(yán)重后果。
西安電子科技大學(xué)徐偲副教授深入探討了這一轉(zhuǎn)變的核心矛盾:如何在保持大模型性能的同時(shí),準(zhǔn)確評(píng)估其預(yù)測(cè)的置信度?隨著大模型在自動(dòng)駕駛、醫(yī)療診斷等零容錯(cuò)率場(chǎng)景的應(yīng)用,不確定性量化已從學(xué)術(shù)問題轉(zhuǎn)變?yōu)榘踩拙€。徐教授分享了其在可信多模態(tài)深度學(xué)習(xí)方面的最新研究成果,探討如何通過證據(jù)理論、動(dòng)態(tài)證據(jù)融合等技術(shù),在大模型規(guī)模下實(shí)現(xiàn)可靠的不確定性估計(jì)。
“如何讓智能系統(tǒng)具備一定的自知能力”這句看似簡(jiǎn)單的話語,道出了徐教授對(duì)可信人工智能的終極追求。在人工智能日益滲透人類生活的今天,"自知能力"承載著比技術(shù)指標(biāo)更為深層的價(jià)值內(nèi)涵——它關(guān)乎智能系統(tǒng)的自我認(rèn)知、決策透明,以及人機(jī)協(xié)作的和諧共生。
徐教授的這句金句,實(shí)際上是對(duì)其開創(chuàng)性研究成果《Reliable Conflictive Multi-view Learning》的哲學(xué)升華。當(dāng)傳統(tǒng)多視圖學(xué)習(xí)假設(shè)不同視圖嚴(yán)格對(duì)齊時(shí),現(xiàn)實(shí)世界中的沖突數(shù)據(jù)往往被簡(jiǎn)單消除或替換。徐教授敏銳地意識(shí)到,真正的"自知能力"不是回避沖突,而是直面沖突并給出可靠的決策結(jié)果和不確定性度量。
在醫(yī)療診斷場(chǎng)景中,當(dāng)MRI模態(tài)與指標(biāo)模態(tài)出現(xiàn)沖突時(shí),傳統(tǒng)方法可能直接刪除沖突數(shù)據(jù),但徐教授提出的證據(jù)沖突多視圖學(xué)習(xí)(ECML)方法卻能夠?yàn)闆_突數(shù)據(jù)提供決策結(jié)果和附加可靠性。這種方法通過狄利克雷分布建模視圖特定的不確定性,通過沖突意見聚合策略精確模擬多視圖的公共和特定可靠性關(guān)系,讓智能系統(tǒng)具備了"自知能力"——不僅能夠給出預(yù)測(cè)結(jié)果,更能量化表達(dá)自己的置信程度。
徐教授深入研究了不確定性產(chǎn)生的三個(gè)階段:在數(shù)據(jù)標(biāo)注階段,多模態(tài)數(shù)據(jù)本身存在內(nèi)在隨機(jī)性,收集與表示過程中可能出現(xiàn)信息丟失;在模型的構(gòu)建與訓(xùn)練階段,模型本身存在缺陷,對(duì)某些輸入或情況缺乏充分的知識(shí)與信息;在模型應(yīng)用階段,訓(xùn)練數(shù)據(jù)分布與實(shí)際應(yīng)用分布之間存在差異。這種系統(tǒng)性的不確定性分析為構(gòu)建真正可信的人工智能系統(tǒng)提供了理論基礎(chǔ)。
徐教授的研究涵蓋了可信多模態(tài)深度學(xué)習(xí)的多個(gè)關(guān)鍵方面:從《Trusted Multi-View Classification with Dynamic Evidential Fusion》到《Uncertainty-aware Multi-view Deep Learning for Internet of Things Applications》,再到《Dynamic Evidence Decoupling for Trusted Multi-view Learning》,他系統(tǒng)地解決了多模態(tài)學(xué)習(xí)中模態(tài)區(qū)分能力不同、證據(jù)融合復(fù)雜、沖突數(shù)據(jù)處理等核心問題。這些工作為構(gòu)建真正可信的人工智能系統(tǒng)提供了理論基礎(chǔ)和技術(shù)路徑,讓AI從"黑盒"走向"透明盒",從"盲目自信"走向"理性謙遜"。
自注意力機(jī)制及其衍生方法
突破計(jì)算瓶頸的探索
自注意力機(jī)制自2017年提出以來,已成為大模型成功的關(guān)鍵技術(shù)。然而,其O(n²)的計(jì)算復(fù)雜度成為制約模型規(guī)模擴(kuò)展的瓶頸。當(dāng)序列長(zhǎng)度達(dá)到數(shù)萬甚至數(shù)十萬時(shí),傳統(tǒng)注意力機(jī)制的內(nèi)存需求呈平方級(jí)增長(zhǎng),這直接限制了模型處理長(zhǎng)文本的能力。
上海交通大學(xué)林洲漢副教授聚焦這一技術(shù)難題:如何在保持注意力機(jī)制核心優(yōu)勢(shì)的同時(shí),顯著降低計(jì)算復(fù)雜度?林教授享其在關(guān)系感知的自注意力機(jī)制、用于圖的核化自注意力機(jī)制、用于檢索重排的自注意力機(jī)制等方面的突破性進(jìn)展。這些方法從不同角度擴(kuò)展了自注意力機(jī)制的應(yīng)用邊界,為處理復(fù)雜結(jié)構(gòu)化數(shù)據(jù)、圖數(shù)據(jù)、檢索任務(wù)等應(yīng)用場(chǎng)景開辟新路徑。
如何讓大模型既懂圖的結(jié)構(gòu),又保持生成能力?道出了林教授對(duì)AI技術(shù)融合創(chuàng)新的深刻洞察。在自然語言到SQL轉(zhuǎn)換等關(guān)鍵任務(wù)中,傳統(tǒng)方法面臨著根本性挑戰(zhàn):基于圖神經(jīng)網(wǎng)絡(luò)的方法對(duì)數(shù)據(jù)庫結(jié)構(gòu)化信息建模好但代碼生成能力弱,基于大語言模型微調(diào)的方法代碼生成能力強(qiáng)但丟失數(shù)據(jù)庫結(jié)構(gòu)信息。林教授敏銳地意識(shí)到,真正的突破不是選擇其中一條路徑,而是通過RASAT技術(shù)實(shí)現(xiàn)"怎樣把兩條路線的好處都利用上?"的目標(biāo)。林教授的這句金句,實(shí)際上是對(duì)其開創(chuàng)性研究成果RASAT(Relation-Aware Self-Attention)的哲學(xué)升華。從在Mila實(shí)驗(yàn)室?guī)煆腨oshua Bengio教授,到如今在上海交通大學(xué)John Hopcroft中心擔(dān)任副教授,林教授始終保持著對(duì)前沿技術(shù)的敏銳嗅覺。他長(zhǎng)期從事機(jī)器學(xué)習(xí)與自然語言處理領(lǐng)域的研究,專注于自監(jiān)督學(xué)習(xí)、大語言模型預(yù)訓(xùn)練方法、模型記憶能力等方面,目前累計(jì)發(fā)表論文70余篇,Google Scholar引用量過萬。
林教授提出的解決方案,體現(xiàn)了其深厚的理論基礎(chǔ)和工程實(shí)踐能力。通過關(guān)系感知的自注意力機(jī)制(RASAT),他解決了自然語言到SQL轉(zhuǎn)換中數(shù)據(jù)庫結(jié)構(gòu)信息丟失的問題,通過向自注意力機(jī)制的key和value中引入關(guān)系向量,涵蓋schema encoding、schema linking、question dependency structure、coreference between questions、database content mentions五大類關(guān)系,顯著提升了SQL代碼與實(shí)際數(shù)據(jù)庫的貼合度。
通過Cluster-wise Graph Transformer,他提出了Node-to-Cluster注意力機(jī)制,解決了圖分類任務(wù)中傳統(tǒng)Graph Coarsening過程導(dǎo)致的節(jié)點(diǎn)信息丟失和聚類表征同質(zhì)化問題。通過保留原始節(jié)點(diǎn)參與運(yùn)算而保護(hù)節(jié)點(diǎn)信息,并通過核化方法保持線性復(fù)雜度,實(shí)現(xiàn)了更高效的圖結(jié)構(gòu)處理。
通過Gumbel Reranking,他實(shí)現(xiàn)了可微的檢索重排過程,解決了RAG系統(tǒng)中檢索器和LLM分立導(dǎo)致中間步驟不可微的問題。通過將reranking過程看做hard attention(0/1分類),使用Gumbel Softmax使不可微操作變得可微,實(shí)現(xiàn)了端到端優(yōu)化reranker,在BGE、RankT5等標(biāo)準(zhǔn)設(shè)定下顯著超越傳統(tǒng)方法。
這種"關(guān)系向量"的創(chuàng)新理念,實(shí)際上是對(duì)AI技術(shù)融合本質(zhì)的深刻踐行。它超越了簡(jiǎn)單的技術(shù)優(yōu)化,觸及了智能系統(tǒng)設(shè)計(jì)的根本問題——如何在保持大模型強(qiáng)大生成能力的同時(shí),增強(qiáng)其對(duì)結(jié)構(gòu)化信息的理解?如何通過架構(gòu)創(chuàng)新實(shí)現(xiàn)不同技術(shù)范式的優(yōu)勢(shì)互補(bǔ)?林教授的研究為構(gòu)建更高效、更可擴(kuò)展的大模型架構(gòu)提供了理論基礎(chǔ)和技術(shù)路徑,讓AI從"單一能力"走向"融合智能",從"技術(shù)割裂"走向"優(yōu)勢(shì)互補(bǔ)"。
物理啟發(fā)的大模型
從經(jīng)驗(yàn)主義到理論驅(qū)動(dòng)的范式轉(zhuǎn)換
無人機(jī)從地點(diǎn)A到地點(diǎn)B的最優(yōu)控制問題,涉及控制量、飛行時(shí)間、耗電量等多個(gè)維度的復(fù)雜約束,如何做到最優(yōu)控制?
當(dāng)前大模型的發(fā)展主要依賴經(jīng)驗(yàn)主義和工程優(yōu)化,但隨著技術(shù)發(fā)展進(jìn)入深水區(qū),這種方法的邊際效益急劇下降。與此同時(shí),物理學(xué)中的對(duì)稱性原理、守恒定律、變分原理等深刻洞察,為構(gòu)建更高效、更可解釋的智能系統(tǒng)提供了理論指導(dǎo)。
復(fù)旦大學(xué)熊昊助理教授探討了這一前沿方向:如何將物理學(xué)原理有效融入大模型架構(gòu)設(shè)計(jì)?物理啟發(fā)的方法有望解決當(dāng)前大模型在泛化能力、計(jì)算效率、可解釋性等方面的根本挑戰(zhàn)。熊教授分享了其在智能科學(xué)計(jì)算方面的創(chuàng)新成果,展示如何通過物理先驗(yàn)知識(shí)指導(dǎo)模型設(shè)計(jì),實(shí)現(xiàn)從數(shù)據(jù)驅(qū)動(dòng)到理論驅(qū)動(dòng)的范式轉(zhuǎn)換。
熊教授的這個(gè)設(shè)問,道出了他對(duì)物理啟發(fā)AI方法本質(zhì)的深刻洞察。在傳統(tǒng)最優(yōu)控制理論面臨根本性挑戰(zhàn)的今天,物理啟發(fā)的AI方法為求解復(fù)雜動(dòng)態(tài)系統(tǒng)提供了全新的思路。當(dāng)傳統(tǒng)最優(yōu)控制方法面臨三個(gè)根本性挑戰(zhàn)時(shí)——動(dòng)力系統(tǒng)的不確定性、迭代式求解復(fù)雜度高、求解器只能解決一類問題且隨環(huán)境變化會(huì)出現(xiàn)覆蓋不到的問題,熊教授敏銳地意識(shí)到,真正的突破不是回避這些挑戰(zhàn),而是直面它們并給出基于物理啟發(fā)的AI求解方案。
在"AI for Science"方面,熊教授專注于高維PDE演化算子學(xué)習(xí)和最優(yōu)控制問題算子學(xué)習(xí)。他提出的SINGER方法通過神經(jīng)網(wǎng)絡(luò)代理解滿足三個(gè)關(guān)鍵性質(zhì),在熱方程和HJB方程等8組5-20維方程仿真數(shù)據(jù)上實(shí)現(xiàn)了精度提升約1個(gè)數(shù)量級(jí)的突破性成果。
在最優(yōu)控制問題算子學(xué)習(xí)方面,熊教授提出了基于自適應(yīng)譜方法+神經(jīng)算子的AI求解器。該方法通過NASM架構(gòu),在7組仿真數(shù)據(jù)和1組真實(shí)數(shù)據(jù)上實(shí)現(xiàn)了求解速度相對(duì)傳統(tǒng)算法加快1000倍的突破性進(jìn)展,同時(shí)保持了優(yōu)異的泛化性能。
在"Science for AI"方面,熊教授探索了分子動(dòng)理學(xué)啟發(fā)的網(wǎng)絡(luò)架構(gòu)、優(yōu)化器,以及量子啟發(fā)的高階算子等前沿方向。這些物理啟發(fā)的方法不僅能夠提升模型的泛化能力和計(jì)算效率,更重要的是為AI系統(tǒng)提供了可解釋的理論基礎(chǔ)。
在分子動(dòng)理學(xué)啟發(fā)的網(wǎng)絡(luò)架構(gòu)方面,熊教授提出了KITINet方法。與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中簡(jiǎn)單的加法操作不同,KITINet引入了基于碰撞理論的交互機(jī)制,通過碰撞機(jī)制產(chǎn)生新的速度和位置,這種基于PDE仿真方法的網(wǎng)絡(luò)架構(gòu)顯著提升了模型的表達(dá)能力。
在分子動(dòng)理學(xué)啟發(fā)的優(yōu)化器方面,熊教授提出了KO優(yōu)化器。該優(yōu)化器通過"碰撞(熵增)抵消凝聚"的機(jī)制,有效防止了模型訓(xùn)練過程中的模式崩塌問題。在ImageNet-1K數(shù)據(jù)集上,ResNet50+KO相比傳統(tǒng)優(yōu)化器在Top-1準(zhǔn)確率上實(shí)現(xiàn)了顯著提升。
在量子啟發(fā)的高階算子方面,熊教授提出了HOLinear高階線性映射算子。該方法通過構(gòu)建高階嵌入表征,將傳統(tǒng)的1階表示擴(kuò)展為包含0階、1階、2階直至K階的完整表示體系。在LLaMA2 7B模型的微調(diào)實(shí)驗(yàn)中,C2Q-SFT方法在多個(gè)下游任務(wù)上均實(shí)現(xiàn)了相對(duì)于標(biāo)準(zhǔn)SFT的正向改進(jìn),特別是在數(shù)學(xué)推理任務(wù)GSM8k上實(shí)現(xiàn)了+5.61%的顯著提升。
這種從具體問題到通用求解器的發(fā)展路徑,實(shí)際上是對(duì)AI技術(shù)演進(jìn)規(guī)律的深刻洞察。正如熊教授所探索的無人機(jī)最優(yōu)控制問題,通過將具體的工程問題抽象為數(shù)學(xué)優(yōu)化問題,再通過物理啟發(fā)的AI方法求解,可以構(gòu)建出在特定任務(wù)上表現(xiàn)卓越的"特長(zhǎng)生"系統(tǒng)。
這種物理啟發(fā)的研究范式,實(shí)際上是對(duì)科學(xué)交叉融合的深刻踐行。它超越了簡(jiǎn)單的技術(shù)優(yōu)化,觸及了智能計(jì)算的本質(zhì)問題——如何從具體的工程問題中抽象出數(shù)學(xué)本質(zhì)?如何構(gòu)建能夠適應(yīng)環(huán)境變化的智能求解器?熊教授的研究為構(gòu)建更高效、更可持續(xù)的智能系統(tǒng)提供了理論基礎(chǔ)和技術(shù)路徑,讓AI從"經(jīng)驗(yàn)主義"走向"理論驅(qū)動(dòng)",從"暴力堆參"走向"精妙設(shè)計(jì)"。
圓桌思辨
大模型架構(gòu)演進(jìn)的未來路徑
在三個(gè)專題分享后,嚴(yán)峻池教授主持了圓桌思辨環(huán)節(jié),四位教授與現(xiàn)場(chǎng)青年菁英進(jìn)行了深度交流。嚴(yán)峻池教授拋磚引玉,圍繞大模型架構(gòu)演進(jìn)的核心議題提出了系列問題,帶動(dòng)與會(huì)嘉賓積極討論。
與會(huì)專家首先深入探討了強(qiáng)化學(xué)習(xí)思維鏈的改進(jìn)與泛化能力提升問題。專家們認(rèn)為強(qiáng)化學(xué)習(xí)本身在泛化性方面比注意力機(jī)制更具優(yōu)勢(shì),通過模型自我認(rèn)知、自我反省機(jī)制,結(jié)合檢索知識(shí)對(duì)問題進(jìn)行補(bǔ)充,能夠有效提升模型性能。針對(duì)如何克服模型高幻覺、低泛化的問題,專家們分享了各自的實(shí)踐經(jīng)驗(yàn),檢索器在針對(duì)不同模型時(shí)的重要性也得到了充分討論。
針對(duì)SFT存在的兩重約束——非真實(shí)環(huán)境交互和標(biāo)注數(shù)據(jù)限制,專家們分享了通過交互形式學(xué)習(xí)提高模型準(zhǔn)確性的實(shí)踐經(jīng)驗(yàn)?;谒季S鏈的冷啟動(dòng)學(xué)習(xí)能夠?qū)崿F(xiàn)更好的泛化性,利用較少的標(biāo)注數(shù)據(jù)改進(jìn)強(qiáng)化學(xué)習(xí)算法成為討論焦點(diǎn)。與會(huì)專家一致認(rèn)為,交互式學(xué)習(xí)與數(shù)據(jù)效率的平衡是當(dāng)前大模型發(fā)展面臨的重要挑戰(zhàn)。
在多模態(tài)融合的架構(gòu)挑戰(zhàn)方面,與會(huì)專家探討了視覺數(shù)據(jù)和人造眼技術(shù)對(duì)改進(jìn)多模態(tài)能力的貢獻(xiàn)。專家們強(qiáng)調(diào)訓(xùn)練方法的改進(jìn)比技術(shù)本身更為重要,多模態(tài)在訓(xùn)練困難、對(duì)齊困難等方面的挑戰(zhàn)需要系統(tǒng)性解決方案。盡管應(yīng)用前景廣闊,但多模態(tài)技術(shù)面臨的根本性挑戰(zhàn)不容忽視,需要從架構(gòu)設(shè)計(jì)層面進(jìn)行根本性突破。
專家們還分析了多模態(tài)在本地端側(cè)云測(cè)異構(gòu)環(huán)境中的高效部署問題。多系統(tǒng)協(xié)同是大模型落地的現(xiàn)實(shí)情況,涉及分布式計(jì)算、西電東算等國家戰(zhàn)略。與會(huì)專家討論了異構(gòu)大模型的未來發(fā)展方向,以及如何設(shè)計(jì)適應(yīng)異構(gòu)環(huán)境的優(yōu)化算法,包括手機(jī)NPU等新型架構(gòu)的應(yīng)用前景。
隨著國產(chǎn)AI芯片的快速發(fā)展,與會(huì)專家討論了其在大型模型訓(xùn)練中的應(yīng)用潛力。專家們分析了國產(chǎn)芯片在算力、能效比、生態(tài)適配等方面面臨的挑戰(zhàn)和機(jī)遇,探討了如何通過架構(gòu)優(yōu)化和算法適配,充分發(fā)揮國產(chǎn)芯片在大模型訓(xùn)練中的優(yōu)勢(shì)。國產(chǎn)芯片生態(tài)的完善對(duì)大模型技術(shù)自主可控的重要意義得到了充分認(rèn)可。
在可解釋性方面,專家們深入討論了如何通過架構(gòu)設(shè)計(jì)提升模型的推理透明度和決策可追溯性。徐教授從不確定性量化的角度指出,可解釋性不僅需要模型能夠解釋其決策過程,更需要量化表達(dá)決策的置信度。物理啟發(fā)的方法為構(gòu)建可解釋的AI系統(tǒng)提供了新的思路,與會(huì)專家探討了如何平衡模型性能與可解釋性之間的關(guān)系,評(píng)估了可解釋性技術(shù)在實(shí)際應(yīng)用中的價(jià)值和局限性。
后記
當(dāng)前,大模型技術(shù)正處于從"工程化應(yīng)用"向"理論根基重構(gòu)"的關(guān)鍵拐點(diǎn)。傳統(tǒng)基于經(jīng)驗(yàn)的調(diào)參方法已接近極限,理論突破成為推動(dòng)技術(shù)發(fā)展的核心動(dòng)力。在這一歷史性時(shí)刻,青年專家的創(chuàng)新思維和理論突破將決定AI技術(shù)的未來走向。
青年菁英交流會(huì)作為WAIC的重要組成部分,由上海人工智能行業(yè)協(xié)會(huì)承辦,致力于構(gòu)建"人才-成果-產(chǎn)業(yè)"的良性循環(huán)生態(tài)。通過學(xué)術(shù)資源整合、國際合作對(duì)接、成果轉(zhuǎn)化支持等多維舉措,為青年專家提供持續(xù)發(fā)展的學(xué)術(shù)平臺(tái)。優(yōu)秀成果將編入《青年菁英交流會(huì)論文精粹集》,并有機(jī)會(huì)通過大會(huì)與Nature正刊及人工智能子刊等國際頂級(jí)期刊建立的合作通道快速發(fā)表。
從不確定性量化到注意力機(jī)制優(yōu)化,從物理啟發(fā)方法到跨學(xué)科融合,這場(chǎng)匯聚青年智慧的學(xué)術(shù)盛宴,成為了觀察大模型架構(gòu)演進(jìn)方向的重要窗口。7月27日下午,與會(huì)嘉賓共同見證了這場(chǎng)聚焦未來的思辨之約,見證了大模型技術(shù)從理論根基到架構(gòu)創(chuàng)新的歷史性跨越。青年專家們用他們的創(chuàng)新思維和理論突破,正在為AI技術(shù)的未來發(fā)展開辟新的道路,引領(lǐng)著人工智能技術(shù)邁向更加輝煌的新紀(jì)元。
(來源:世界人工智能大會(huì))