百強AI論文出爐:清華緊隨谷歌排名第二,寧波工程學院成最大黑馬

新智元 發佈 2024-04-04T12:34:06.435232+00:00

最近外媒Zeta Alpha用經典的引用次數作為評估指標,收集整理了在2022年最高引的100篇論文,並分析了不同國家、機構在過去三年裡發表的高引論文數量。

編輯:LRS

【新智元導讀】谷歌仍然全球領先,OpenAI每兩篇論文就有一篇進百大!


人工智慧領域的創新步伐越來越快,論文數量也呈爆炸式增長,甚至達到了人力無法閱讀的程度。

在2022年發表的海量論文中,哪些機構的影響力最大?哪些論文更值得讀?

最近外媒Zeta Alpha用經典的引用次數作為評估指標,收集整理了在2022年最高引的100篇論文,並分析了不同國家、機構在過去三年裡發表的高引論文數量。

美國仍然領先,中國第二


按國家來劃分的話,美國仍然占據領先地位,不過在Top-100論文中所占的比例相比2020年來說大幅下降。

中國排行第二,數據相比去年略有上漲;第三位是英國,DeepMind去年產出占英國總數的69%,超過了前幾年的60%;新加坡和澳大利亞在AI領域的影響力也超出分析師的預期。

按照組織來劃分的話,可以看到谷歌始終是AI領域的最強者,緊隨其後的是 Meta、微軟、加州大學伯克利分校、DeepMind和史丹福大學,國內排行第一的是清華大學。

作為Meta AI的帶頭人,Yann LeCun也自豪地宣布Meta在行業內的影響力,並表示Meta AI更重視出版質量,而不是出版數量。

至於同屬於Alphabet的谷歌和DeepMind在列表中單獨計算的問題,LeCun表示DeepMind一直堅稱它們獨立於谷歌運營,這很奇怪,谷歌員工無法訪問 DeepMind的代碼庫。

儘管如今人工智慧研究大多由工業界引領,單個學術機構產生的影響不大,但由於長尾效應,學術界整體來說還是和工業界持平的,當按照組織類型對數據進行聚合時,可以看到二者的影響力大體是相等的。

如果回顧過去三年,統計各個機構總的研究成果數量,可以看到谷歌仍處於領先地位,但與其他機構相比差距要小得多,值得一提的是,清華大學緊隨谷歌排行第二。

OpenAI和DeepMind甚至沒有進入前20名,當然,這些機構發表的文章數量較少,但每篇文章的影響力都很大。

如果按照出版量進入Top-100的比例來看,OpenAI獨樹一幟,在轉化率上遠超其他機構,基本上兩篇論文中就有一篇成為「年度百大論文」。

當然,從ChatGPT的火爆來看,OpenAI確實很擅長營銷,一定程度上促進了引用量的提升,不可否認的是,他們的研究成果質量非常高。

論文收集方法

首先在Zeta Alpha平台上收集每年被引用最多的論文,然後手動檢查第一個發表日期(通常是arXiv預印本) 歸類到對應的年份中。

通過挖掘Semantic Scholar上高引的人工智慧論文來補充這個列表,其覆蓋面更廣,而且能夠按引用次數進行排序,主要是從影響力很大的封閉來源出版商(例如《自然》、《愛思唯爾》、《施普林格》和其他雜誌)那裡獲得額外的論文。

然後將每篇論文在 Google Scholar 上的引用次數作為代表性指標,並根據這個數字對論文進行排序,得出一年內排名前100位的論文。

對於這些論文,使用GPT-3提取作者、他們的附屬機構和國家,並手動檢查這些結果(如果國家在出版物中沒有體現的話,採用該組織總部所在的國家)。

擁有多個機構的作者的論文對每個附屬機構各計數一次。

2022年五強論文


1. AlphaFold Protein Structure Database: massively expanding the structural coverage of protein-sequence space with high-accuracy models

論文連結:https://academic.oup.com/nar/article/50/D1/D439/6430488

發表機構:歐洲分子生物學實驗室,DeepMind

AlphaFold DB:https://alphafold.ebi.ac.uk

引用量:1331

AlphaFold蛋白質結構資料庫AlphaFold DB是一個可公開訪問的、廣泛的、高準確度的蛋白質結構預測的資料庫。

在DeepMind的AlphaFold v2.0的支持下,該資料庫使已知蛋白質序列空間的結構覆蓋面得到了空前的擴展。

AlphaFold DB提供了對預測的原子坐標、每個殘基和成對的模型置信度估計以及預測的對齊誤差的程序化訪問和互動式可視化。

AlphaFold DB的初始版本包含了超過36萬個預測結構,涵蓋了21種模式生物的蛋白質組,未來將擴展到UniRef90數據集的大部分(超過1億)代表性序列。

2. ColabFold: making protein folding accessible to all

論文連結:https://www.nature.com/articles/s41592-022-01488-1

代碼連結:https://github.com/sokrypton/colabfold

環境連結:https://colabfold.mmseqs.com

引用量:1138

ColabFold通過將MMSEQS2的快速同源搜索與AlphaFold2或Rosettafold相結合,從而加速了對蛋白質結構和複合物的預測。

ColabFold在模型利用率上可以實現40-60倍加速的搜索和優化,能夠在僅具有一個圖形處理單元的伺服器上預測近1000個結構。

ColabFold在Google Colaboratory的基礎上,成為了一個蛋白質摺疊的免費且可訪問的平台,也是一個可用的開源軟體。

3. A ConvNet for the 2020s

論文連結:https://arxiv.org/pdf/2201.03545.pdf

引用量:835

視覺識別的「Roaring 20s」(咆哮的20年代)始於視覺Transformer(ViTs)的引入,它迅速取代了ConvNets成為最先進的圖像分類模型。

另一方面,一個最簡單的ViT在應用於通用計算機視覺任務時仍然面臨著一些難題,如物體檢測和語義分割。

層次化Transformer(如Swin Transformers)重新引入了幾個ConvNet先驗,使得Transformer作為通用視覺模型骨幹實際上是可行的,並在各種視覺任務中表現出顯著的性能。

然而,這種混合方法的有效性仍然主要歸功於Transformers的內在優勢,而不是Convolutions的內在歸納偏見。

在這項工作中,研究人員重新審視了設計空間,並測試了純ConvNet所能實現的極限。

逐步將一個標準的ResNet「現代化」成ViT的設計,並在這一過程中發現了幾個促成性能差異的關鍵組件,探索後發現了一個稱為ConvNeXt的純ConvNet模型系列。

ConvNeXt完全由標準的ConvNet模塊構成,在準確性和可擴展性方面與Transformer不相上下,在COCO檢測和ADE20K分割方面取得了87.8%的ImageNet top-1準確性,並超過了Swin Transformers,同時保持了標準ConvNets的簡單性和效率。

4. Hierarchical Text-Conditional Image Generation with CLIP Latents

論文連結:https://arxiv.org/abs/2204.06125

引用量:718

像CLIP這樣的對比式模型(Contrastive models)已經被證明可以學習到穩健的圖像表徵,能夠捕捉到語義和風格。

為了利用這些表徵來生成圖像,研究人員提出了一個兩階段的模型:一個給定文本標題生成CLIP圖像embedding的先驗,以及一個以圖像embedding為條件生成圖像的解碼器。

實驗證明可以顯式地生成圖像表徵能夠提高圖像的多樣性,在逼真度和標題的相似性方面損失最小,並且以圖像表徵為條件的解碼器也能產生圖像的變化,保留其語義和風格,同時改變圖像表徵中不存在的非必要細節。

此外,CLIP的聯合embedding空間使language-guided下的圖像操作能夠以zero-shot的方式進行。

對解碼器使用擴散模型,並對先驗的自回歸和擴散模型進行實驗,發現後者在計算上更有效率,能夠生成質量更高的樣本。

5. PaLM: Scaling Language Modeling with Pathways

論文連結:https://arxiv.org/pdf/2204.02311.pdf

引用量:426

大型語言模型已被證明在各種自然語言任務中使用few-shot學習即可達到更高的性能,極大地減少了使模型適應特定應用所需的特定任務訓練實例的數量。

為了進一步了解scale對few-shot學習的影響,研究人員訓練了一個5400億參數、密集激活的Transformer語言模型Pathways Language Model(PaLM)。

使用Pathways(一個新的ML系統,能夠在多個TPU Pods上進行高效的訓練)在6144個TPU v4晶片上訓練得到PaLM,通過在數百個語言理解和生成基準上取得最先進的few-shot學習結果證明了scaling的好處。

在其中一些任務上,PaLM 540B實現了突破性的性能,在一套多步驟推理任務上超過了微調的最先進水平,並在最近發布的BIG-bench基準上超過了人類的平均性能。

大量的BIG-bench任務顯示了模型規模的不連續改進,也意味著當規模擴大到最大的模型時,性能陡然提高。

PaLM在多語言任務和原始碼生成方面也有很強的能力,這一點也在一系列基準測試中得到了證明。

此外,研究人員還對偏見和毒性進行了全面的分析,並研究了與模型規模有關的訓練數據記憶程度,最後討論了與大型語言模型有關的倫理考慮,並討論了潛在的緩解策略。

2022年國內五強論文

1. Swin Transformer V2: Scaling Up Capacity and Resolution

論文連結:https://arxiv.org/pdf/2111.09883.pdf

代碼連結:https://github.com/microsoft/Swin-Transformer

引用量:266

大規模的NLP模型已經被證明可以顯著提高語言任務的性能,而且沒有飽和的跡象,同時還展示了像人類一樣的驚人的few-shot能力。

這篇論文旨在探索計算機視覺中的大規模模型,解決了大型視覺模型訓練和應用中的三個主要問題,包括訓練的不穩定性,預訓練和微調之間的解析度差距,以及對有標籤數據的需求。

研究人員提出了三種主要技術:

1)一種與餘弦注意相結合的殘差-後規範方法,以提高訓練的穩定性;

2)一種對數間隔的連續位置偏差方法,以有效地將使用低解析度圖像預訓練的模型轉移到具有高解析度輸入的下游任務中;

3)一種自監督的預訓練方法SimMIM,以減少對大量標記圖像的需求。

通過這些技術,成功地訓練了一個30億參數的Swin Transformer V2模型,這是迄今為止最大的稠密視覺模型,並使其能夠用高達1,536×1,536解析度的圖像進行訓練。

在4個代表性的視覺任務上創造了新的性能記錄,包括ImageNet-V2圖像分類、COCO物體檢測、ADE20K語義分割和Kinetics-400視頻動作分類。

同時可以注意到該訓練比谷歌的十億級視覺模型中的訓練效率要高得多,所消耗的有標籤數據和訓練時間要少40倍。

2. Ensemble unsupervised autoencoders and Gaussian mixture model for cyberattack detection

之前的研究採用了具有降維功能的無監督機器學習來進行網絡攻擊檢測,僅限於對高維和稀疏數據進行魯棒的異常檢測。

大多數方法通常假設每個領域的參數是同質的,具有特定的高斯分布,忽視了數據偏度的魯棒性測試。

論文連結:https://www.sciencedirect.com/science/article/pii/S0306457321003162

引用量:145

這篇論文提出使用連接到高斯混合模型(GMM)的無監督集合自編碼器來適應多個領域,無需考慮每個領域的偏度(skewness)。

在集成自編碼器的隱藏空間中,利用了基於注意力的潛在表徵和重建的最小誤差的特徵,使用期望最大化(EM)算法來估計GMM中的樣本密度,當估計的樣本密度超過訓練階段獲得的學習閾值時,該樣本被識別為與攻擊異常有關的離群點。

最後,對集成自編碼器和GMM進行聯合優化,將目標函數的優化轉化為拉格朗日對偶問題,在三個公共數據集上進行的實驗驗證了所提出的模型的性能與所選擇的異常檢測基線相比有明顯競爭力。

論文共同一作為來自寧波工程學院的安鵬教授和同濟大學的Zhiyuan Wang。

安鵬教授目前是寧波工程學院電子與信息工程學院副院長,2000年至2009年就讀於清華大學工程物理系,獲工學學士學位、工學博士學位;歐洲核子研究中心、義大利國家帕多瓦大學、德國海德堡大學訪問學者,中國自動化學會認知計算與系統專業委員會委員、中國人工智慧學會認知系統與信息處理專業委員會委員、中國指揮與控制學會青年工作委員會委員;主持並參與國家重點基礎研究發展計劃(973計劃)、國家自然科學基金、國家星火計劃項目等多項科研項目。

3. Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs

論文連結:https://arxiv.org/abs/2203.06717

代碼連結:https://github.com/megvii-research/RepLKNet

引用量:127

文中回顧了現代卷積神經網絡(CNN)中的大核設計。

受視覺Transformer(ViTs)最新進展的啟發,該論文證明了使用幾個大的卷積內核代替一堆小的內核可能是一個更強大的範例。

研究人員提出了五個指導方針,例如,應用重新參數化的大深度卷積,來設計高效的高性能大內核 CNN。

根據這些指導方針提出了RepLKNet,一個純粹的 CNN 架構,其內核大小為31x31,與通常使用的3x3形成對比,RepLKNet 極大地縮小了 CNN 和 ViTs 之間的性能差距,例如在 ImageNet 和一些典型的下游任務上,以較低的延遲實現了與 Swin Transformer 相當或更好的結果。

RepLKNet 對大數據和大模型也表現出很好的可擴展性,在 ImageNet 上獲得了87.8% 的最高準確率,在 ADE20K 上獲得了56.0% 的 mIoU,在具有類似模型大小的最先進技術中是非常有競爭力的。

該研究進一步表明,與小核 CNN 相比,大核 CNN 具有更大的有效接收場(receptive fields)和更高的形狀偏差,而不是紋理偏差。

4. TensoRF: Tensorial Radiance Fields

論文連結:https://arxiv.org/abs/2203.09517

引用量:110

文中提出了TensoRF,一種對輻射場(radiance fields)進行建模和重構的新方法。

與純粹使用MLP的NeRF不同,研究人員將場景的輻射場建模為一個4D張量,代表了一個具有每體素多通道特徵(per-voxel multi-channel features)的三維體素網格,其中心思想是將4D場景張量分解為多個緊湊的低秩張量成分。

證明了在該框架中應用傳統的CP分解,將張量分解為具有緊湊向量的rank-one components會獲得比普通的NeRF更好的性能。

為了進一步提高性能,文中還引入了一種新的矢量-矩陣(VM)分解,放鬆了張量的兩種模式的低秩約束,並將張量分解為緊湊的矢量和矩陣因子。

除了更好的渲染質量,該模型與CP和VM分解相比,直接優化每象素特徵的先前和同時進行的工作導致了顯著的內存占用。

實驗證明,與NeRF相比,採用CP分解的TensoRF實現了快速重建(<30分鐘),具有更好的渲染質量,甚至更小的模型尺寸(<4MB)。

此外,採用VM分解的TensoRF進一步提高了渲染質量,並超過了以前最先進的方法,同時減少了重建時間(<10分鐘)並保留了緊湊的模型大小(<75 MB)。

5. VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training

論文連結:https://arxiv.org/abs/2203.12602

代碼連結:https://github.com/MCG-NJU/VideoMAE

引用量:100

為了在相對較小的數據集上實現更高的性能,通常需要在額外的大規模數據集上預訓練視頻Transformer。

這篇論文表明視頻掩碼自動編碼器(VideoMAE)是用於自監督視頻預訓練(SSVP)的數據高效學習器。

受到最近的ImageMAE的啟發,研究人員提出了具有極高掩碼比例的定製視頻管(video tube),這種簡單的設計使視頻重建成為一項更具挑戰性的自監督任務,從而鼓勵在這個預訓練過程中提取更有效的視頻表徵。

在SSVP上獲得了三個重要的發現:

(1)極高比例的掩碼率(即90%到95%)仍然能產生VideoMAE的有利表現。時間上冗餘的視頻內容使得掩蔽率比圖像更高。

(2) VideoMAE在非常小的數據集(即大約3k-4k的視頻)上取得了非常高的性能,而沒有使用任何額外的數據。

(3) VideoMAE表明,對於SSVP來說,數據質量比數據數量更重要。

預訓練和目標數據集之間的領域遷移是一個重要問題。

值得注意的是,VideoMAE與普通的ViT可以在Kinetics-400上達到87.4%,在Something-Something V2上達到75.4%,在UCF101上達到91.3%,在HMDB51上達到62.6%,而無需使用任何額外的數據。

完整百強論文列表

參考資料:

https://www.zeta-alpha.com/post/must-read-the-100-most-cited-ai-papers-in-2022

https://twitter.com/ylecun/status/1631793362767577088

關鍵字: