眺望新NLP模型：利用人類眼動來提升性能

情感導師 2022-09-19 8517

添加導師微信MurieL0304

獲取更多愛情挽回攻略婚姻修復技巧戀愛脫單干貨

（本文轉(zhuǎn)載自公眾號“腦極體”，未經(jīng)授權不允許二次轉(zhuǎn)載）

前不久，F(xiàn)acebook一口氣刪除783個“水軍”帳號，原因是存在虛假宣傳和輿論攻擊行為。其中356個Facebook帳戶和162個Instagram帳戶，早在2010年就開始在網(wǎng)絡任性活動了。但由于他們很容易偽裝自己，導致系統(tǒng)根本無法自動清理，最后還是靠手動審查才發(fā)現(xiàn)了蛛絲馬跡。

看來，想要讓機器像人一樣精準識別網(wǎng)絡行為背后的意圖，以當前NLP的閱讀理解能力，真的是想太多。

也因此，去年一篇利用人類眼動來提升NLP模型性能的論文，一經(jīng)問世，就迅速受到關注，為與網(wǎng)絡暴力斗智斗勇的程序員們打開了一扇新的技術之窗。

我們不妨就以這個最新研究成果為契機，來猜想一下，技術如何才能打贏這場爭奪網(wǎng)絡話語權的無聲戰(zhàn)爭。

機器之殤：遠不夠完美的RNN

在了解這個新的RNN模型做了哪些創(chuàng)新之前，我想有必要先簡單介紹一下，NLP的世界里一般是如何使用注意力機制來完成任務的。

以最為常用的序列對序列（sequence to sequence）模型為例，比如說我們要將中文翻譯成英文，如果我們擁有大量的雙語語料，就可以得到兩個知識豐富而結(jié)構相似的編碼和解碼網(wǎng)絡，從而訓練出很有效的模型，來實現(xiàn)很好的機器翻譯效果。

但序列模型對機器的記憶力提出了比較殘酷的要求，需要先背誦全文再翻譯，如果是長篇大論，機器就放飛自我了。

于是，注意力模型出現(xiàn)了。

試想一下，人類是如何翻譯的（此處致敬高考英語老師）：先完整地讀完整個句子，結(jié)合上下文理解大概含義，然后對關鍵單詞和短語重點思索，再著手進行翻譯。

而注意力模型試圖模仿的正是人類這種理解能力。它被設計成一個雙向的RNN網(wǎng)絡，每個單元由LSTM或GRU組成，能夠向前和向后獲取信息，通俗點說就是“聯(lián)系上下文”。

每次翻譯時，注意力模型會根據(jù)待翻譯部分以及上下文，給予不一樣的注意力（權重參數(shù)），接著循序漸進地翻譯出整段話。

注意力機制解決了傳統(tǒng)神經(jīng)機器翻譯中基于短語的生搬硬套，但并不意味著毫無缺陷。

它的不完美主要體現(xiàn)在三個方面：

1.需要大規(guī)模標注數(shù)據(jù)。

原始RNN在解碼過程中，機器的焦點是分散在整個序列當中的，需要先對序列上的每個元素進行標記，再進行對齊操作。里面就包含了詞性標注、CHUNK識別、句法分析、語義角色識別，甚至包括關鍵詞抽取等很多子任務，顯然不是一個小工程。

2.增加額外運算負擔。

人類在閱讀時，并不關注所有的字，往往會自動忽略掉不想關注或無意義的部分，只重點處理關注需要注意的那一部分。比如“Courage is like a muscle”中，“Courage”和“muscle”就會讓人多看兩眼。這樣做不僅能夠降低任務的復雜度，還能避免腦負荷過載。

而NLP的注意力機制雖然是在模仿人類行為，但機器必須對所有對象進行處理和計算，還要用一個矩陣去存儲不同字節(jié)的權重，這些都增加了額外的運算壓力和成本。

3.容易出現(xiàn)歸納偏置。

通俗點說，就是機器在遇到某種沒有見過的東西時，會傾向于給出一個簡單的預測或判斷，以此來決定輸出規(guī)則。

比如通過分析，它認為出現(xiàn)“but”“不”等單詞，就說明對方會開始釋放負面甚至攻擊性的語言了。但要是遇上“我跳起來反手就是一個么么噠”之類玩梗的騷操作，可能就會誤傷友軍。

了解了注意力機制的基本工作方式，我們就趕緊來看看這項新的研究成果，究竟是憑什么驚艷了整個學界吧。

NLP希望之鑰，還掌握在人類手中

一句話概括，就是論文作者Maria Barrett和她的同事們，將人類在閱讀時的眼部動作引入了RNN網(wǎng)絡的訓練中，使其能夠在標注型文本和人類注意力信息之間來回切換，以此獲得性能更好的循環(huán)神經(jīng)網(wǎng)絡。

具體是怎么實現(xiàn)的呢？

首先，研究人員利用兩個公開的眼動追蹤語料庫：Dundee Corpus和ZuCo Corpus來研究人類的注意力機制。

其中，Dundee Corpus包含了20篇報紙文章，共2368個句子，閱讀屏幕可以感知眼部動作。ZuCo Corpus則包含了1000個單獨的英語句子，有一部分來自斯坦福情感樹庫，通過紅外染色儀來記錄眼睛運動和面部情緒分析。

根據(jù)這些人類閱讀語料時的眼睛動作追蹤數(shù)據(jù)（比如注視持續(xù)時間MEAN FIX DUR），得到了一個“人類注意力”的數(shù)據(jù)集。

第二步，使用人類眼動數(shù)據(jù)集與標注好的序列數(shù)據(jù)集，來共同訓練RNN模型。

從兩個數(shù)據(jù)集中隨機選擇一個數(shù)據(jù)，讓機器判斷屬于哪一個數(shù)據(jù)集。

如果屬于序列數(shù)據(jù)集，則進一步判斷該句子的類別，計算并預測標簽blabla；如果屬于人類眼動數(shù)據(jù)集，則計算每個單詞的權重（即attention值），再進行歸一化（最小平方差）處理。

那么，經(jīng)受了人機雙重挑戰(zhàn)的新RNN網(wǎng)絡效果如何呢？接下來，研究人員通過三個任務對其性能進行了測試：

任務一：句子情感分析。使用新RNN來檢測機器是否能識別出數(shù)據(jù)集（SEMEVAL TWITTER POS | NEG）中的負面句子和非負面句子；

任務二：語法錯誤檢測。讓新的RNN閱讀經(jīng)專家注釋的英語論文（數(shù)據(jù)集FCF），并找出其中的語法錯誤，與正確的句子區(qū)分開；

任務三：暴力語言檢測。研究人員安排了20940條設計性別歧視和種族主義等辱罵型語言的推特（數(shù)據(jù)集Waseem和Hovy），來對新的RNN進行測試。

最終的實驗結(jié)果顯示，加入了人類注意力訓練之后的RNN，找重點的能力，以及預測的精準程度，要遠高于原本的序列模型。

這項研究成果很快就引起了反響，并獲得了NLP頂會CoNLL 2018年度最佳研究論文特別獎。

那么，接下來請回答一道送分題：這項成果有何特別之處？

RNN的一小步，NLP的一大步

將人類注意力引入機器學習算法的訓練，究竟有何意義？我來搶答一下：

首先，降低了對序列分類標注語料的依賴，讓NLP模型的訓練有了更多可能性。

讓機器學習注意力函數(shù)需要非常大規(guī)模的數(shù)據(jù)，結(jié)果就是讓開發(fā)者不得不陷入爭奪計算資源的“金錢戰(zhàn)爭”。該項研究為 NLP 中的許多注意力函數(shù)提供一個不錯的歸納偏置性能，同時還不要求目標任務數(shù)據(jù)帶有眼睛跟蹤信息，直接減少了數(shù)據(jù)需求量。

其次，是從語義到推理的性能跨越。

傳統(tǒng)的序列到序列模型和RNN網(wǎng)絡，只能解決語義理解問題，而該論文證明，使用人眼注意力來規(guī)范機器的注意力功能，可以讓一系列NLP任務實現(xiàn)顯著改善，甚至觸及了常識、推理等認知能力。

機器能從“凝視”信息中獲取對多重表達、情緒分析的精準判斷，某種程度上已經(jīng)學會了模擬人類的注意力。

以后機器也許就能夠輕松挑戰(zhàn)女朋友說“我沒有不高興”這樣雙重否定表否定的高難度閱讀理解了。是不是很期待呢？

而最重要也最接地氣的，則是新模型帶來的網(wǎng)絡沖浪體驗革命了。

研究團隊認為，該模型很快就能夠在一些比較關鍵的實際應用中，判斷網(wǎng)絡文本的犯罪意圖、評論信息和情感傾向。

比如通過帖子或推文的訓練，幫助微博/推特/臉書等社交媒體精準識別出惡意評論的杠精和廢話連篇的水軍，并予以精準過濾和清楚，營造一個更美好的社區(qū)氛圍；

再比如通過淘寶/亞馬遜/Yelp，以及各種應用商店中不同類別的反饋，對特殊屬性（衣服的尺寸、使用感受）和商品評價的不同反饋進行分類和提取，幫助商家優(yōu)化經(jīng)營，并精準打擊刷單等欺騙行為。

除此之外，該模型還能根據(jù)意圖對文本進行分類，比如在遇到緊急問題或檢測到請求幫助的需求（發(fā)出帶有自殺或發(fā)社會傾向的推文或聊天記錄）時，能夠及時通知執(zhí)法人員，從而避免災難性事件的發(fā)生。

這樣一對比，是不是感覺一個“機器懂我、天下無杠”的美麗新世界在向你招手呢？

再說一點

由此延展到整個AI領域，或許可以發(fā)現(xiàn)，人類和智能機器，本質(zhì)上在做著同樣的事情，只不過AI的功能是將其抽象化并用新的邏輯演繹出來，然后人類給它投喂數(shù)據(jù)，它消化之后返還給我們或理想或智障的結(jié)果……

而機器的內(nèi)化過程，一直遭遇著黑箱性的詬病，越來越龐大的神經(jīng)網(wǎng)絡層和數(shù)據(jù)需求量，也已經(jīng)讓研究者不堪重負。

前路在哪里？或許那張大家快看吐了的人類與機器人指尖對指尖的圖，正印證著機器學習的未來，那就是：人機協(xié)同。

越來越多的研究者開始將人類推理和決策行為引入到機器訓練之中，比如MIT和微軟在訓練無人駕駛汽車時，開始讓它們從人類反饋中找到認知盲點，以此應對那些模糊決策情境。

DeepMind和OpenAI讓沒有技術經(jīng)驗的人類控制員來選擇預期目標，并以此訓練激勵預期側(cè)，讓智能體根據(jù)人類的偏好改進自己的行為，最終完成復雜的任務目標，比如后空翻；基于人眼注意力的新RNN網(wǎng)絡也是如此。

這種改變，可以被歸結(jié)為深度學習的階段性技術瓶頸，只能靠向人類借力來攻破。

但從某種意義上來說，與人類攜手，將人類的抽象能力與計算機系統(tǒng)邏輯進行更高耦合度的融合，可能才是機器智能更現(xiàn)實也更有效的解決方案。

肯尼迪的那句話放在AI的世界里依然無比適合——不要問機器為你做了什么，要問你能為機器做些什么。相比于等待機器自我迭代到成熟的那一天來服務我們，參與“智能養(yǎng)成游戲”不是更令人期待嗎？