一年一總結(jié)的NLP年度進(jìn)展，2021年有哪些研究熱點？

情感導(dǎo)師 2023-05-27 6927

添加導(dǎo)師微信MurieL0304

獲取更多愛情挽回攻略婚姻修復(fù)技巧戀愛脫單干貨

選自ruder.io

作者：Sebastian Ruder

機(jī)器之心編譯

機(jī)器之心編輯部

2021 年已經(jīng)過去，這一年里，機(jī)器學(xué)習(xí)（ML）和自然語言處理（NLP）又出現(xiàn)了哪些研究熱點呢？谷歌研究科學(xué)家 Sebastian Ruder 的年度總結(jié)如約而至。

2021 年，ML 和 NLP 領(lǐng)域取得了很多激動人心的進(jìn)展。在 Sebastian Ruder 的最新博客《ML and NLP Research Highlights of 2021》中，他介紹了自己認(rèn)為最具有啟發(fā)意義的論文和研究領(lǐng)域。

文章涵蓋了 15 個研究熱點，具體如下：

通用預(yù)訓(xùn)練模型

大規(guī)模多任務(wù)學(xué)習(xí)

Transformer 架構(gòu)替代方案

提示（ prompting）

高效的方法

基準(zhǔn)測試

條件圖像生成

與自然科學(xué)結(jié)合的機(jī)器學(xué)習(xí)

程序合成

偏見

檢索增廣

Token-free 模型

時序自適應(yīng)

數(shù)據(jù)的重要性

元學(xué)習(xí)

通用預(yù)訓(xùn)練模型

2021 年研究者開發(fā)了更大的預(yù)訓(xùn)練模型。預(yù)訓(xùn)練模型可以應(yīng)用于不同的領(lǐng)域，對 ML 研究至關(guān)重要。在計算機(jī)視覺中，有監(jiān)督預(yù)訓(xùn)練模型如 Vision Transformer 繼續(xù)被擴(kuò)展，而自監(jiān)督預(yù)訓(xùn)練模型性能也在不斷提高。在語音方面，基于 wav2vec 2.0 模型（如 W2v-BERT），以及更強(qiáng)大的多語言模型（如 XLS-R）已經(jīng)被構(gòu)建出來。與此同時，新的統(tǒng)一預(yù)訓(xùn)練模型可用于不同的模態(tài)（例如視頻和語言等）。在視覺和語言方面，對照研究揭示了這種多模態(tài)模型的重要組成部分。此外，預(yù)訓(xùn)練模型在強(qiáng)化學(xué)習(xí)和蛋白質(zhì)結(jié)構(gòu)預(yù)測等其他領(lǐng)域也取得了巨大進(jìn)展。

為什么預(yù)訓(xùn)練模型如此重要？預(yù)訓(xùn)練模型已被證明可以很好地泛化到給定領(lǐng)域或不同模態(tài)中。它們表現(xiàn)出較強(qiáng)的小樣本學(xué)習(xí)行為和良好的學(xué)習(xí)能力。因此，預(yù)訓(xùn)練模型是進(jìn)行科學(xué)研究和實際應(yīng)用的重要組成部分。

下一步是什么？我們無疑將在未來看到更多甚至更大的預(yù)訓(xùn)練模型。同時，我們應(yīng)該期望單個模型同時執(zhí)行多個任務(wù)。在語言任務(wù)中，模型以通用的文本到文本格式構(gòu)建執(zhí)行不同的任務(wù)。同樣，我們可能會看到在單個模型中執(zhí)行圖像和語音任務(wù)的模型。最后，我們將看到更多的、針對多模態(tài)進(jìn)行訓(xùn)練的模型。

大規(guī)模多任務(wù)學(xué)習(xí)

上一節(jié)中的大多數(shù)預(yù)訓(xùn)練模型都是自監(jiān)督的，它們從大量未標(biāo)記的數(shù)據(jù)中學(xué)習(xí)。然而，對于許多領(lǐng)域，已經(jīng)有大量標(biāo)記數(shù)據(jù)可用，可用于學(xué)習(xí)更好的表示。到目前為止，T0、FLAN 和 ExT5 等多任務(wù)模型已經(jīng)在大約 100 個任務(wù)上進(jìn)行了預(yù)訓(xùn)練，可用于語言任務(wù)。如此大規(guī)模的多任務(wù)學(xué)習(xí)與元學(xué)習(xí)密切相關(guān)。通過訪問不同的任務(wù)分配，模型可以學(xué)習(xí)不同類型的行為，比如如何在上下文中學(xué)習(xí)。

為什么多任務(wù)模型很重要？T5 、 GPT-3 等許多模型可以使用文本到文本格式，因此可以進(jìn)行大規(guī)模多任務(wù)學(xué)習(xí)。因此，模型不再需要手工設(shè)計的、特定于任務(wù)的損失函數(shù)或特定于任務(wù)的層，以便有效地跨多個任務(wù)學(xué)習(xí)。這些方法突出了將自監(jiān)督預(yù)訓(xùn)練與監(jiān)督的多任務(wù)學(xué)習(xí)相結(jié)合的好處，并證明了兩者的結(jié)合會產(chǎn)生更通用的模型。

下一步是什么？鑒于數(shù)據(jù)集（統(tǒng)一格式）的可用性和開源性，我們可以想象一個良性循環(huán)，新創(chuàng)建的高質(zhì)量數(shù)據(jù)集可用于不同的任務(wù)，以訓(xùn)練更強(qiáng)大的模型，然后這些模型可以在循環(huán)中被用來創(chuàng)建更具挑戰(zhàn)性的數(shù)據(jù)集。

Transformer 架構(gòu)替代方案

前幾節(jié)中討論的大多數(shù)預(yù)訓(xùn)練模型都是基于 Transformer 架構(gòu)的。2021 年出現(xiàn)了替代的模型架構(gòu)，這些架構(gòu)是 transformer 的可行替代方案。Perceiver 是一種類似 transformer 的架構(gòu)，它通過使用固定維度的潛在數(shù)組作為其基本表示并通過交叉注意力在輸入上進(jìn)行調(diào)節(jié)，從而可以擴(kuò)展到非常高維的輸入。Perceiver IO 通過擴(kuò)展架構(gòu)，可以處理結(jié)構(gòu)化的輸出空間。還有一些模型試圖替換自注意力層，最著名的是使用多層感知器 (MLPs)，如 MLP-Mixer 和 gMLP。FNet 使用 1D Fourier Transforms 而不是 self-attention 在 token 級別混合信息。一般來說，將架構(gòu)與預(yù)訓(xùn)練策略解耦是很有用的。如果 CNN 以與 Transformer 模型相同的方式進(jìn)行預(yù)訓(xùn)練，它們將在許多 NLP 任務(wù)上實現(xiàn)具有競爭力的性能。同樣，使用可替代的預(yù)訓(xùn)練目標(biāo)（例如 ELECTRA-style 的預(yù)訓(xùn)練）可能會帶來更多收益。

為什么替代 Transformer 架構(gòu)很重要？如果大多數(shù)研究都集中在單一架構(gòu)上，這將不可避免地導(dǎo)致偏見、盲點等一系列錯誤。新模型可能會解決一些 Transformer 的限制，例如注意力的計算復(fù)雜性、黑盒性質(zhì)等。

下一步是什么？雖然預(yù)訓(xùn)練 transformer 會被繼續(xù)部署，作為許多任務(wù)的標(biāo)準(zhǔn)基線，我們應(yīng)該期待看到可替代的架構(gòu)被提出。

提示（Prompting）

由于 GPT-3 的普及，使得提示（ prompting）已成為 NLP 模型中一種可行的替代輸入格式。提示包括模式（即要求模型進(jìn)行特定預(yù)測）和將預(yù)測轉(zhuǎn)換為類標(biāo)簽的語言器（verbalizer）。PET、iPET 和 AdaPET 等幾種方法利用提示進(jìn)行小樣本學(xué)習(xí)，然而，提示并不是萬能的。模型的性能因提示而異，找到最佳提示仍然需要標(biāo)記示例。為了在少量設(shè)置中比較模型的可靠性，我們需要不斷的開發(fā)新的評估程序。

為什么提示很重要？提示可用于對特定任務(wù)信息進(jìn)行編碼，根據(jù)任務(wù)的不同，這些信息可能高達(dá) 3,500 個標(biāo)記示例。因此，提示是一種將專家信息納入模型訓(xùn)練的新方法，而不是手動標(biāo)記示例或定義標(biāo)記函數(shù)。

下一步是什么？目前，我們只是觸及了使用提示來改進(jìn)模型學(xué)習(xí)。在以后的研究中，提示將變得更加復(fù)雜，例如包括更長的指令、正例和負(fù)例、一般啟發(fā)式。提示也可能是將自然語言解釋納入模型訓(xùn)練的一種更自然的方式。

高效的方法

預(yù)訓(xùn)練模型的一個缺點是，它們通常非常大，而且在實踐中效率低下。2021 年研究者帶來了更高效的架構(gòu)和更高效的微調(diào)方法。在建模方面，我們可以看到幾個更有效的自注意力版本。當(dāng)前預(yù)訓(xùn)練模型非常強(qiáng)大，只需更新少量參數(shù)即可有效地調(diào)節(jié)模型，這促進(jìn)了基于連續(xù)提示和適配器（adapter）等更有效的微調(diào)方法的發(fā)展。高效的方法還可以通過學(xué)習(xí)適當(dāng)?shù)那熬Y（prefix）或適當(dāng)?shù)霓D(zhuǎn)換來適應(yīng)新的模式。

為什么高效的方法很重要？如果模型在標(biāo)準(zhǔn)硬件上運行不可行或過于昂貴，那么它們就沒有意義。效率的提高將確保模型在變得更大的同時，對實踐人員有益并易于使用。

下一步是什么？高效的模型和訓(xùn)練方法應(yīng)該變得更容易使用和更容易獲得。同時，社區(qū)應(yīng)該開發(fā)更有效的方式來與大模型交互，并有效地適應(yīng)、組合或修改它們，而無需從頭開始預(yù)訓(xùn)練新模型。

基準(zhǔn)測試

近來 ML 和 NLP 模型的快速改進(jìn)已經(jīng)超越了許多基準(zhǔn)度量的能力。與此同時，社區(qū)評估的基準(zhǔn)越來越少，這些基準(zhǔn)只來自少數(shù)精英機(jī)構(gòu)。因此，2021 年出現(xiàn)了很多能夠可靠評估此類模型的方法的實踐與討論，我在這篇博文中對此進(jìn)行了介紹。

2021 年在 NLP 社區(qū)中出現(xiàn)的重要排行榜形式包括動態(tài)對抗性評估、社區(qū)驅(qū)動型評估（社區(qū)成員合作創(chuàng)建評估數(shù)據(jù)集，例如 BIG-bench）、跨多種錯誤類型的交互式細(xì)粒度評估、超越單一性能指標(biāo)評估模型的多維評估。此外，領(lǐng)域內(nèi)針對有影響力的設(shè)置還提出了新的基準(zhǔn)，例如小樣本評估和跨域泛化。一些用于評估通用預(yù)訓(xùn)練模型的新基準(zhǔn)也應(yīng)運而生，包括用于語音、特定語言等特定模態(tài)的基準(zhǔn)和跨模態(tài)基準(zhǔn)。

另一方面，評估指標(biāo)也是應(yīng)該關(guān)注的重點。機(jī)器翻譯 (MT) 元評估顯示：盡管已經(jīng)提出了 108 個具有更好人類相關(guān)性的替代指標(biāo)，但在過去十年的 769 篇機(jī)器翻譯論文中，74.3% 的論文仍然僅使用了 BLEU。因此，一些研究（例如 GEM 和二維排行榜）提出聯(lián)合評估模型和方法。

基準(zhǔn)測試和評估是機(jī)器學(xué)習(xí)和 NLP 進(jìn)步的關(guān)鍵。如果沒有準(zhǔn)確可靠的基準(zhǔn)，就無法判斷我們是在取得真正的進(jìn)步還是對根深蒂固的數(shù)據(jù)集和指標(biāo)的過度擬合。

提高對基準(zhǔn)測試的認(rèn)識將使得新數(shù)據(jù)集的設(shè)計更具深思熟慮。對新模型的評估也應(yīng)減少對單一性能指標(biāo)的關(guān)注，而應(yīng)考慮多個維度，例如模型的公平性、效率和穩(wěn)健性。

條件圖像生成

條件圖像生成，即基于文本描述生成圖像，這一領(lǐng)域在 2021 年取得了令人矚目的成果。圍繞最新一代的生成模型涌現(xiàn)出一系列進(jìn)展。最新的方法不是直接基于 DALL-E 模型中的文本輸入生成圖像，而是使用聯(lián)合圖像文本嵌入模型（例如 CLIP）指導(dǎo)生成模型（例如 VQ-GAN）的輸出?；谒迫坏臄U(kuò)散模型逐漸消除了信號中的噪聲，已成為強(qiáng)大的新生成模型，其性能優(yōu)于 GAN。通過基于文本輸入指導(dǎo)其輸出，最近的模型已經(jīng)可以生成逼真的圖像。這類模型也特別擅長修復(fù)，可以根據(jù)描述修改圖像的區(qū)域。

自動生成由用戶指導(dǎo)的高質(zhì)量圖像具有廣泛的藝術(shù)和商業(yè)應(yīng)用前景，包括視覺產(chǎn)品的自動設(shè)計、模型輔助的設(shè)計、個性化等。

與基于 GAN 的模型相比，基于擴(kuò)散的模型的采樣速度要慢得多，因此這些模型需要提高效率才能具有實際作用。此外，該領(lǐng)域還需要對人機(jī)交互進(jìn)行更多研究，以確定此類模型幫助人類的最佳應(yīng)用方式。

與自然科學(xué)結(jié)合的機(jī)器學(xué)習(xí)

2021 年，機(jī)器學(xué)習(xí)在推動自然科學(xué)方面取得了多項突破。在氣象學(xué)方面，機(jī)器學(xué)習(xí)與降水預(yù)報的結(jié)合大大提高了預(yù)測的準(zhǔn)確性，使得模型優(yōu)于最先進(jìn)的物理預(yù)測模型。在生物學(xué)方面，AlphaFold 2.0 使得在不知道類似結(jié)構(gòu)的情況下，也能以前所未有的準(zhǔn)確率預(yù)測蛋白質(zhì)的結(jié)構(gòu)。在數(shù)學(xué)方面，ML 被證明能夠引導(dǎo)數(shù)學(xué)家的直覺，以發(fā)現(xiàn)新的聯(lián)系和算法。Transformer 模型也被證明經(jīng)過足量數(shù)據(jù)訓(xùn)練后可學(xué)習(xí)差分系統(tǒng)的數(shù)學(xué)特性，例如局部穩(wěn)定性。

使用 ML 促進(jìn)我們對自然科學(xué)的理解和應(yīng)用是其最具影響力的應(yīng)用方向之一，例如藥物設(shè)計。使用模型 in-the-loop 來幫助研究人員進(jìn)行科研的方向非常引人注目，這既需要開發(fā)強(qiáng)大的模型，也需要進(jìn)行交互式機(jī)器學(xué)習(xí)和人機(jī)交互的研究。

程序合成

今年大型語言模型最引人注目的應(yīng)用之一是代碼生成，Codex 被首次集成到一個 GitHub Copilot 中。預(yù)訓(xùn)練模型的其他進(jìn)展包括更好的預(yù)訓(xùn)練目標(biāo)、擴(kuò)展實驗等。然而，對于當(dāng)前模型來說，生成復(fù)雜程序仍是一個挑戰(zhàn)。一個有趣的相關(guān)方向是學(xué)習(xí)執(zhí)行或建模程序，通過執(zhí)行多步計算來改進(jìn)，其中中間計算步驟記錄在「暫存器（scratchpad）」中。

能夠自動合成復(fù)雜程序理論上對于支持軟件工程師的工作非常有用，但在實踐中代碼生成模型在多大程度上改善了軟件工程師的工作流程仍然是一個懸而未決的問題。為了真正發(fā)揮作用，此類模型需要能夠根據(jù)新信息更新其預(yù)測，并且需要考慮局部和全局語境。

偏見

鑒于大型預(yù)訓(xùn)練模型的潛在影響，至關(guān)重要的一點是：此類模型不能包含有害偏見，不被濫用以生成有害內(nèi)容，并以可持續(xù)的方式使用。很多業(yè)內(nèi)討論都強(qiáng)調(diào)了此類模型的潛在風(fēng)險，一些研究對性別、種族和政治傾向等受保護(hù)屬性的偏見進(jìn)行了調(diào)查。然而，從模型中消除偏見需要權(quán)衡取舍。

在實際應(yīng)用中使用的模型，不應(yīng)表現(xiàn)出任何有害偏見，也不應(yīng)歧視任何群體。因此，更好地理解當(dāng)前模型的偏見以及消除它們對于實現(xiàn) ML 模型的安全和負(fù)責(zé)任部署至關(guān)重要。

到目前為止，偏見主要見于預(yù)訓(xùn)練模型、特定文本生成程序和分類應(yīng)用程序。鑒于此類模型的預(yù)期用途和生命周期，我們還應(yīng)該致力于識別和減輕多語言環(huán)境中的偏見，并在預(yù)訓(xùn)練模型使用的各個階段（包括預(yù)訓(xùn)練之后，微調(diào)后，測試時）盡可能消除偏見。

檢索增廣

檢索增廣語言模型將檢索融合到預(yù)訓(xùn)練和下游使用中，在我 2020 年度研究熱點總結(jié)中就已經(jīng)提及。2021 年，檢索語料庫已經(jīng)擴(kuò)展到多達(dá)萬億 token，模型也有能力查詢網(wǎng)頁以回答問題。此外，我們還可以看到很多將檢索融合到預(yù)訓(xùn)練語言模型的新方法。

檢索增廣為何如此重要呢？由于模型需要在參數(shù)中存儲更多的知識并可以檢索它們，檢索增廣的應(yīng)用使得模型具備更高的參數(shù)效率。檢索增廣還能通過更新檢索數(shù)據(jù)來實現(xiàn)有效的域自適應(yīng)。

未來，我們可能會看到不同形式的檢索來利用不同種類的信息，如常識、事實關(guān)系、語言信息等。檢索增廣還可以與更多結(jié)構(gòu)化形式的知識檢索相結(jié)合，比如源于知識庫群體和開放信息提取的方法。

Token-free 模型

2021 年，新的 token-free 方法嶄露頭角，這些方法直接使用序列字符（character）。這些 token-free 模型已被證明優(yōu)于多語種模型，并在非標(biāo)準(zhǔn)語言上表現(xiàn)非常好。因此，它們是領(lǐng)域內(nèi)普遍使用的基于字詞的 transformer 模型的有潛力替代方案。

token-free 模型為何如此重要？自 BERT 等預(yù)訓(xùn)練語言模型出現(xiàn)以來，由 tokenized 字詞組成的文本已經(jīng)成為了 NLP 中的標(biāo)準(zhǔn)輸入格式。但是，字詞 tokenization 已被證明在噪聲輸入上表現(xiàn)糟糕，比如在社交媒體常見的拼寫錯誤或拼法差異，或者某些類型的詞法上。此外，強(qiáng)制依賴 tokenization 在將模型適應(yīng)新數(shù)據(jù)時表現(xiàn)出不匹配。

得益于更強(qiáng)的靈活性，token-free 模型能夠更好地建模詞法，在面對新詞和語言變化時也能泛化得很好。但是，依然不清楚的是：與基于字詞的方法相比，token-free 模型在不同類型的構(gòu)詞處理上的表現(xiàn)如何，以及它們在哪些方面做了權(quán)衡。

時序自適應(yīng)

模型根據(jù)其訓(xùn)練時使用的數(shù)據(jù)，會在很多方面表現(xiàn)出偏見。2021 年，受到了越來越多關(guān)注的一種偏見是對模型訓(xùn)練數(shù)據(jù)的時間框架（timeframe）的偏見?？紤]到語言持續(xù)演化，新的術(shù)語不斷出現(xiàn)，在過時數(shù)據(jù)上訓(xùn)練的模型已被證實泛化性能不佳。但是，時序自適應(yīng)是否有用，可能取決于下游任務(wù)。比如，對于那些語言使用中事件驅(qū)動變化與任務(wù)性能無關(guān)的任務(wù)而言，時序自適應(yīng)可能幫助不大。

在某些問答任務(wù)中，一個問題的答案根據(jù)問問題的時間而變化。時序自適應(yīng)對于這類問答任務(wù)極其重要。

開發(fā)可以適應(yīng)新時間框架的方法需要擺脫靜態(tài)的預(yù)訓(xùn)練微調(diào)（ pre-train–fine-tune）范式，并需要更高效的方法來更新預(yù)訓(xùn)練模型知識。在這方面，高效方法和檢索增廣都很有用。此外，我們還需要開發(fā)新的模型，使得輸入不存在于真空中，而是建立在非語言上下文和現(xiàn)實世界的基礎(chǔ)上。

數(shù)據(jù)的重要性

長期以來，數(shù)據(jù)都是 ML 至關(guān)重要的一環(huán)，但往往被建模方面的進(jìn)展所掩蓋。然而，考慮到數(shù)據(jù)在模型擴(kuò)展中的重要性，研究社區(qū)也慢慢從以模型為中心（model-centric）轉(zhuǎn)向以數(shù)據(jù)為中心（data-centric）的方法。重要的主題包括如何高效地構(gòu)建和維護(hù)新數(shù)據(jù)集，以及如何保證數(shù)據(jù)質(zhì)量。此外，預(yù)訓(xùn)練模型使用的大規(guī)模數(shù)據(jù)集在 2021 年受到了審查，包括多模態(tài)數(shù)據(jù)集、英語和多語種文本語料庫。

數(shù)據(jù)在訓(xùn)練大規(guī)模 ML 模型時至關(guān)重要，并且是模型獲取新信息的關(guān)鍵因素。隨著模型規(guī)模越來越大，保證大規(guī)模數(shù)據(jù)的質(zhì)量變得越來越具有挑戰(zhàn)性。

目前，對于如何高效構(gòu)建用于不同任務(wù)的數(shù)據(jù)集，以及如何可靠地保證數(shù)據(jù)質(zhì)量，我們在這些方面缺乏最佳實踐和原則性方法。此外，數(shù)據(jù)如何與模型學(xué)習(xí)交互以及數(shù)據(jù)如何形成模型偏見，在這些方面依然理解不深。

元學(xué)習(xí)

盡管元學(xué)習(xí)和遷移學(xué)習(xí)有著共同的目標(biāo)，但主要是在不同的社區(qū)中進(jìn)行研究。在一個新的基準(zhǔn)上，大規(guī)模遷移學(xué)習(xí)方法優(yōu)于元學(xué)習(xí)方法。一個有希望的發(fā)展方向是擴(kuò)展元學(xué)習(xí)方法，結(jié)合存儲效率更高的訓(xùn)練方法，提高元學(xué)習(xí)模型在現(xiàn)實世界基準(zhǔn)測試中的性能。元學(xué)習(xí)方法還可以與高效的自適應(yīng)方法（如 FiLM 層）相結(jié)合，使通用模型更高效地適應(yīng)新的數(shù)據(jù)集。

元學(xué)習(xí)是一種重要的范式，但在設(shè)計時未考慮到元學(xué)習(xí)系統(tǒng)的標(biāo)準(zhǔn)基準(zhǔn)上未能實現(xiàn) SOTA 結(jié)果。將元學(xué)習(xí)和遷移學(xué)習(xí)社區(qū)更緊密地聯(lián)系在一起，可能會產(chǎn)生在現(xiàn)實世界應(yīng)用中更有用的元學(xué)習(xí)方法。

當(dāng)與用于大規(guī)模多任務(wù)學(xué)習(xí)的大量自然任務(wù)相結(jié)合時，元學(xué)習(xí)特別有用。元學(xué)習(xí)還可以通過學(xué)習(xí)如何根據(jù)大量可用提示設(shè)計或使用提示，來提升提示（prompting）。

博客鏈接：https://ruder.io/ml-highlights-2021/