像人一樣自然流暢地說(shuō)話,下一代智能對(duì)話系統(tǒng)還有多長(zhǎng)的路要走?

情感導(dǎo)師 7771

 添加導(dǎo)師微信MurieL0304

獲取更多愛(ài)情挽回攻略 婚姻修復(fù)技巧 戀愛(ài)脫單干貨

機(jī)器之心報(bào)道

機(jī)器之心編輯部

為了推動(dòng) AI 技術(shù)的應(yīng)用創(chuàng)新,促進(jìn)人工智能領(lǐng)域的學(xué)術(shù)交流、人才培養(yǎng),打造人工智能的人才交流平臺(tái)與產(chǎn)業(yè)生態(tài)圈,中國(guó)人工智能學(xué)會(huì)聯(lián)合杭州市余杭區(qū)人民政府聯(lián)合發(fā)起了首屆全球人工智能技術(shù)創(chuàng)新大賽,并得到了阿里云、OPPO 等頭部科技企業(yè)的積極參與和支持。阿里云天池平臺(tái)為本次大賽提供平臺(tái)和算力支撐。AI青年說(shuō)是大賽主辦方為提升青年開發(fā)者對(duì) AI 的認(rèn)識(shí)而主辦的系列活動(dòng),該活動(dòng)邀請(qǐng)知名青年學(xué)者,探討理論研究與應(yīng)用實(shí)踐中的熱點(diǎn)話題。本文對(duì)AI青年說(shuō)系列活動(dòng)第二期「如何摘取 AI 皇冠上的 NLP 明珠」核心內(nèi)容進(jìn)行了總結(jié)回顧。

作為人工智能的一個(gè)子領(lǐng)域,自然語(yǔ)言處理(NLP)指的是機(jī)器理解并解釋人類書面語(yǔ)和口語(yǔ)的能力,目的在于使計(jì)算機(jī)像人類一樣智能地理解語(yǔ)言和用語(yǔ)言表達(dá),彌補(bǔ)人類交流(自然語(yǔ)言)和計(jì)算機(jī)理解(機(jī)器語(yǔ)言)之間的差距。目前,NLP 已經(jīng)具有了廣泛的應(yīng)用領(lǐng)域,如信息提取、文本生成、機(jī)器翻譯、情感分析、知識(shí)圖譜、智能問(wèn)答、對(duì)話系統(tǒng)等。

像人一樣自然流暢地說(shuō)話,下一代智能對(duì)話系統(tǒng)還有多長(zhǎng)的路要走?

其中,對(duì)話系統(tǒng)在最近幾年發(fā)展非常迅速,特別在 NLP 頂會(huì)上的論文數(shù)量逐步增多。如果說(shuō),自然語(yǔ)言處理是 AI 皇冠上的明珠,那么對(duì)話系統(tǒng)就是「NLP 皇冠上的明珠」,并且以蘋果 Siri 等為代表的的任務(wù)型對(duì)話和以微軟小冰為代表的非任務(wù)型(聊天型)對(duì)話尤為受到學(xué)界和業(yè)界關(guān)注。

所謂智能對(duì)話系統(tǒng),就是在各種智能算法的支撐下,使機(jī)器理解人類語(yǔ)言的意圖并通過(guò)有效的人機(jī)交互執(zhí)行特定任務(wù)或做出回答。隨著技術(shù)的不斷發(fā)展,任務(wù)型對(duì)話系統(tǒng)在虛擬個(gè)人助理、智能家居、智能汽車(車載語(yǔ)音)等領(lǐng)域有了廣泛應(yīng)用。聊天型對(duì)話系統(tǒng)也在娛樂(lè)和情感陪護(hù)領(lǐng)域找到了應(yīng)用場(chǎng)景。

但我們應(yīng)看到,這些傳統(tǒng)對(duì)話系統(tǒng)存在著一些問(wèn)題,如語(yǔ)義理解不準(zhǔn)確造成答非所問(wèn),對(duì)話中展示的身份與個(gè)性不一致而難以獲得用戶信任,以及對(duì)話交互中可能存在的道德倫理風(fēng)險(xiǎn)等。所以,如何規(guī)避解決這些問(wèn)題并開發(fā)交互效果更好的下一代對(duì)話系統(tǒng)逐漸成為了業(yè)內(nèi)的熱門研究課題。研究人員也基于各自不同的視角提出了對(duì)下一代對(duì)話系統(tǒng)的暢想。

在首屆全球人工智能技術(shù)創(chuàng)新大賽「AI 青年說(shuō)」系列活動(dòng)的第二期直播分享中,自然語(yǔ)言處理領(lǐng)域的兩位專家——清華大學(xué)計(jì)算機(jī)系長(zhǎng)聘副教授、博士生導(dǎo)師黃民烈和西湖大學(xué)終身副教授張?jiān)?,分別帶來(lái)了《下一代對(duì)話系統(tǒng)》和《關(guān)于開放域?qū)υ捥魬?zhàn)的思索》的主題分享,并以「關(guān)于讓機(jī)器說(shuō)人話這件事」 展開圓桌討論。

在本期分享中,清華大學(xué)副教授黃民烈為我們?cè)敿?xì)介紹了任務(wù)導(dǎo)向型和開放域兩種主要的對(duì)話系統(tǒng),并勾勒了下一代有知識(shí)、有個(gè)性和有情感的智能對(duì)話系統(tǒng)愿景。西湖大學(xué)副教授張?jiān)绖t向我們介紹了開放領(lǐng)域?qū)υ挼奶魬?zhàn)思索,并從三個(gè)方面進(jìn)行介紹,分別是跨領(lǐng)域可拓展性、社會(huì)常識(shí)推理和邏輯推理(又分為機(jī)器閱讀理解和文本蘊(yùn)含問(wèn)題)。

在下文中,機(jī)器之心在不改變?cè)獾幕A(chǔ)上對(duì)兩位專家的分享進(jìn)行了整理。

黃民烈:

有知識(shí)、有個(gè)性和有情感的下一代對(duì)話系統(tǒng)

大家好,我是來(lái)自清華大學(xué)的黃民烈,今天非常高興能跟各位老師和同學(xué)做這樣的一個(gè)交流和分享。我的分享主題是《下一代對(duì)話系統(tǒng)》。

我們知道,對(duì)話系統(tǒng)的歷史非常悠久,最早可以追溯到 1966 年 MIT 的 Eliza,這是一個(gè)以心理咨詢?yōu)榇淼膶?duì)話系統(tǒng),在過(guò)去幾十年以及今天都產(chǎn)生了非常廣泛的影響。2011 年,蘋果推出了語(yǔ)音助手 Siri,使得這一類的對(duì)話系統(tǒng)在工業(yè)界引起了廣泛關(guān)注。2014 年微軟推出了第一款社交機(jī)器人微軟小冰,使得用戶可以跟對(duì)話系統(tǒng)進(jìn)行聊天互動(dòng)。2020 年又出現(xiàn)了很多超大規(guī)模的預(yù)訓(xùn)練模型,包括 Google 的 Meena、 FAIR 的 Blender 和百度的 PLATO。這些預(yù)訓(xùn)練模型將對(duì)話系統(tǒng)的研究推向了一個(gè)新的高潮,也就是說(shuō)在開放域的聊天里,我們可以生成非常好的、自然的對(duì)話。

在對(duì)話系統(tǒng)的發(fā)展歷程中,我認(rèn)為有一些比較重要的事件,比如 Alexa 大獎(jiǎng)賽,2017 年第一屆、2018 年第二屆以及 2019 年第三屆。大獎(jiǎng)賽對(duì)于對(duì)話系統(tǒng)的技術(shù)研究和推動(dòng)具有非常顯著的作用。我們可以看到在這幾屆大獎(jiǎng)賽上,最好的對(duì)話系統(tǒng)能達(dá)到什么樣的水平呢?它們能夠通過(guò)人工評(píng)價(jià)的分?jǐn)?shù)大概是 3.1 分,能夠跟用戶持續(xù)地聊上十分鐘。應(yīng)該來(lái)說(shuō),這是一個(gè)非常了不起的成就。

剛才我們所說(shuō)的 Google Meena 對(duì)話系統(tǒng),它是一個(gè)超大規(guī)模的模型,使用了約 26 億的參數(shù),約 400 億詞的對(duì)話數(shù)據(jù)去訓(xùn)練,并且在 TPU 上訓(xùn)練了約 30 天的時(shí)間。Meena 對(duì)話系統(tǒng)的效果怎么樣呢?它可以生成非常自然的對(duì)話,比如說(shuō)在下面一個(gè)例子里,Meena 說(shuō)「牛很聰明,都去 Hayvard 了」。通過(guò) Harvard 和 Hayvard 這個(gè)諧音雙關(guān),現(xiàn)在的這種大規(guī)模對(duì)話模型可以產(chǎn)生比較自然,甚至讓用戶代入感很強(qiáng)的、類似笑話的對(duì)話。

我們?cè)賮?lái)看 2020 年 FAIR 推出的 Blender,它的參數(shù)規(guī)模最大的版本約是 94 億,使用的數(shù)據(jù)也相當(dāng)驚人。它用了約 8880 億個(gè)文本 token 訓(xùn)練這樣一個(gè)模型,同時(shí)綜合了各種技能,比方個(gè)性的嵌入、知識(shí)的賦值以及共情。所以,Blender 是一個(gè)具有混合技能的對(duì)話系統(tǒng),也可以產(chǎn)生非常自然的對(duì)話。

當(dāng)前兩種主要的對(duì)話系統(tǒng)

當(dāng)前對(duì)話系統(tǒng)可以總結(jié)為以下兩種類型,第一種叫任務(wù)導(dǎo)向型的對(duì)話系統(tǒng),也就是通常意義上所說(shuō)的手機(jī)助理;第二種叫開放域的對(duì)話系統(tǒng),也就是我們通常意義上所說(shuō)的聊天機(jī)器人。

在第一種任務(wù)型的對(duì)話系統(tǒng)中,我們通常會(huì)有一些流水線的處理方法。如上圖(左)所示,用戶講了一句話「你能不能幫我找一個(gè)中餐館」,這個(gè)時(shí)候我們就要經(jīng)過(guò)自然語(yǔ)言處理模塊,把這句話分析成一個(gè)結(jié)構(gòu)化的意圖,這里的意圖應(yīng)當(dāng)是為說(shuō)話人提供信息,這里需要一些語(yǔ)義理解能力。接下來(lái)要做的是對(duì)話狀態(tài)跟蹤和對(duì)話策略學(xué)習(xí),這個(gè)模塊是為了管理對(duì)話過(guò)程中的一些對(duì)話狀態(tài)和相應(yīng)的一些變量,使得我們這個(gè)系統(tǒng)能夠知道當(dāng)前所處的是什么狀態(tài),以及接下來(lái)應(yīng)該往哪個(gè)方向去走。在對(duì)話策略模塊,我們會(huì)預(yù)測(cè)出來(lái)它相應(yīng)的結(jié)構(gòu)化意圖,它會(huì)通過(guò)自然語(yǔ)言生成模塊轉(zhuǎn)換為一個(gè)自然語(yǔ)句,這里就是「Where do you want to eat?」這樣一句話,然后進(jìn)行用戶的交互。經(jīng)過(guò)反復(fù)的交互和迭代,我們的對(duì)話系統(tǒng)就能夠完成相應(yīng)的任務(wù)和功能。

另一種就是所謂的開放域?qū)υ捪到y(tǒng)。在這類對(duì)話系統(tǒng)中,我們通常采用一種端到端架構(gòu),就是說(shuō)我們開始是有對(duì)話的上文,如上圖(右)給了三句話,其中用戶說(shuō)了一句話,然后機(jī)器說(shuō)了一句話,用戶又說(shuō)了一句話,這個(gè)時(shí)候我們要決定機(jī)器到底該說(shuō)什么。經(jīng)過(guò)編碼器之后,我們會(huì)再經(jīng)過(guò)解碼器,它可以把機(jī)器生成的一句話,一個(gè)詞一個(gè)詞地解碼出來(lái)。我們可以采用一些常用的神經(jīng)網(wǎng)絡(luò)架構(gòu),比方說(shuō)循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)以及基于 Transformer 的神經(jīng)網(wǎng)絡(luò)架構(gòu),去做這種端到端的神經(jīng)模型。

挑戰(zhàn)和不足

從上文講述的 Google Meena 和 FAIR Blender 這種對(duì)話系統(tǒng)中,我們可以看到基于現(xiàn)代大模型的對(duì)話系統(tǒng)已經(jīng)取得了令人驚嘆的效果,但依然面臨很多的挑戰(zhàn)和不足。

首先是語(yǔ)義理解的問(wèn)題,比如用戶講了一句「How large is your house?你家多大?」微軟小冰系統(tǒng)卻把它理解為「你多大?」一字之差,意義就差得非常遠(yuǎn)。

其次是個(gè)性身份一致性的問(wèn)題,比如用戶問(wèn)「你幾歲了?」小冰回答說(shuō)「我是 90 后」。用戶再問(wèn)「你是哪一年出生的?」小冰回答說(shuō)「75 年出生的」。所以,90 后、75 年這種前后個(gè)性和身份不一致,會(huì)產(chǎn)生比較重大的問(wèn)題。

Google Meena 對(duì)話系統(tǒng)也存在類似的問(wèn)題,比如用戶問(wèn)「你最喜歡的樂(lè)隊(duì)是什么?」Meena 回答說(shuō)「Avenged Sevenfold,七級(jí)煉獄」。接著用戶又問(wèn)「你最不喜歡的樂(lè)隊(duì)是什么?」Meena 依然回答說(shuō)「Avenged Sevenfold」。這就會(huì)給用戶造成非常大的困擾。

再來(lái)看 Meena 的另外一個(gè)例子。Meena 先說(shuō)「新的一年想要學(xué)習(xí)廣東話和法語(yǔ)」,后面又說(shuō)「已經(jīng)基本熟悉廣東話并且已經(jīng)在學(xué)校學(xué)習(xí)法語(yǔ)了」。這種前后不一致很容易給用戶造成困擾,也很難贏得用戶信任。

因此,與對(duì)話系統(tǒng)進(jìn)行深入的交流和探討非常困難。

對(duì)話系統(tǒng)還可能會(huì)產(chǎn)生比較嚴(yán)重的社會(huì)倫理和道德問(wèn)題。以蘋果語(yǔ)音助手 Siri 為例,用戶跟 Siri 說(shuō)「I want to sleep and never wake up」,這大概是隱晦地表示自己想自殺。但 Siri 理解不了,它找到一些相應(yīng)的賓館,給出了距離,并回答說(shuō)「remind me to kill myself tomorrow」。Siri 以為是要給用戶設(shè)定一個(gè)提醒鬧鐘,那么這種情況就會(huì)產(chǎn)生非常嚴(yán)重的社會(huì)倫理問(wèn)題。

總的來(lái)說(shuō),當(dāng)前的對(duì)話系統(tǒng)面臨三個(gè)問(wèn)題,第一個(gè)是語(yǔ)義性的問(wèn)題,第二個(gè)是一致性的問(wèn)題,第三個(gè)是交互性的問(wèn)題。對(duì)于語(yǔ)義性問(wèn)題,我們希望對(duì)話系統(tǒng)能夠理解內(nèi)容(content)、文本(context)和場(chǎng)景(scene);對(duì)于一致性問(wèn)題,我們希望對(duì)話系統(tǒng)能夠產(chǎn)生與個(gè)性和身份一致的對(duì)話;對(duì)于交互性問(wèn)題,我們希望對(duì)話系統(tǒng)與用戶進(jìn)行情感、情緒上的交流,然后綜合運(yùn)用這種行為策略,實(shí)現(xiàn)交互性很強(qiáng)的對(duì)話。

下一代對(duì)話系統(tǒng)——社交機(jī)器人

聊完了當(dāng)前兩種主要的對(duì)話系統(tǒng)以及面臨的一些問(wèn)題和不足,那么下一代對(duì)話系統(tǒng)應(yīng)該具備什么樣的能力呢?我把它總結(jié)為社交機(jī)器人(social chatbot)。一方面要具有 IQ,即能夠幫助用戶做任務(wù)、做問(wèn)答和做推薦。另一方面希望它具有 EQ,即所謂情商,比如能夠理解情感情緒,能夠共情,能夠?qū)崿F(xiàn)深入的社交互動(dòng)。

我們先來(lái)看兩個(gè)維度:完成任務(wù)的能力和社交連接(social connection)能力。與任務(wù)導(dǎo)向型和聊天機(jī)器人相比,任務(wù)導(dǎo)向型對(duì)話系統(tǒng)具有很強(qiáng)的任務(wù)完成能力,但是社交能力比較低;而對(duì)于聊天機(jī)器人來(lái)講,它的主要目標(biāo)是社交,任務(wù)完成能力比較低。因此,下一代對(duì)話系統(tǒng)應(yīng)該是同時(shí)具備很強(qiáng)的任務(wù)完成能力和社交連接能力。

不同對(duì)話系統(tǒng)的技術(shù)處理和實(shí)現(xiàn)思路也是不一樣的。任務(wù)導(dǎo)向型對(duì)話系統(tǒng)具有很強(qiáng)的語(yǔ)義能力,所以需要去做實(shí)體識(shí)別、意圖理解、語(yǔ)義分析以及填槽等能力。對(duì)于開放性的聊天機(jī)器人,我們注重弱語(yǔ)義處理的能力,包括利用數(shù)據(jù)驅(qū)動(dòng)、端到端系統(tǒng),更多是用當(dāng)前的深度學(xué)習(xí)模型以及大規(guī)模神經(jīng)網(wǎng)絡(luò)模型去做。因此,在未來(lái)構(gòu)建下一代對(duì)話系統(tǒng)時(shí),我們希望能夠把強(qiáng)語(yǔ)義對(duì)話系統(tǒng)和弱語(yǔ)義對(duì)話系統(tǒng)的方法結(jié)合起來(lái)。

信息、社交、情感需求缺一不可

總的來(lái)說(shuō),下一代對(duì)話系統(tǒng)應(yīng)該具備兩方面的能力,其一滿足用戶的信息需求,其二滿足用戶的社交需求。我們需要綜合運(yùn)用多種技能,并且在多種場(chǎng)景和領(lǐng)域中都能夠發(fā)揮作用。

我們可以用三句話來(lái)概括,第一句話「有知識(shí),言之有物」,第二句「有個(gè)性,能夠?qū)崿F(xiàn)擬人化」,第三句話「在情感上有情感、有溫度,能夠做一些精細(xì)的情感類任務(wù)」。

首先來(lái)看第一個(gè)方面——知識(shí)賦值。比如在這個(gè)對(duì)話示例中,我們討論的是一個(gè)關(guān)于歌手汪峰的主題。在這個(gè)主題里,我們涉及到汪峰的歌《飛得更高》,這首歌入選了中歌榜中國(guó)年度最受華人歡迎十大金曲以及它所發(fā)布的日期和作者??梢钥吹?,在這樣的對(duì)話過(guò)程中,我們需要對(duì)應(yīng)到一個(gè)嚴(yán)格的知識(shí)圖譜。知識(shí)圖譜使得我們的對(duì)話過(guò)程言之有物,而不是在那里空聊和閑聊。這實(shí)際上就是這個(gè)方向的代表性工作。

又比如下圖示例中,用戶說(shuō)「I have asthma since three years old. 我從三歲起就得了哮喘」。如果我們能把 asthma 關(guān)聯(lián)到右邊的知識(shí)圖譜上,就可以把這個(gè)知識(shí)圖譜用圖嵌入(graph embedding)的方法,去做知識(shí)感知的編碼。接著在解碼階段,我們可以用圖注意力(graph attention),通過(guò)動(dòng)態(tài)注意力機(jī)制,去做知識(shí)感知的解碼。經(jīng)過(guò)這樣的處理,實(shí)現(xiàn)一定程度的理解,這樣我們生產(chǎn)的內(nèi)容就能夠更加言之有物,更加有信息量。

第二個(gè)方面則希望對(duì)話系統(tǒng)能夠有個(gè)性,要有固定的人設(shè)和身份。從心理學(xué)的研究可以知道,個(gè)性(personality)是一個(gè)研究得非常深入的概念,在游戲、客服以及虛擬智能體上都有非常重要的作用。如果一個(gè)智能系統(tǒng)能夠體現(xiàn)一致的個(gè)性,則這個(gè)系統(tǒng)更值得信任,能夠進(jìn)行有效的社交交互。

個(gè)性又可以分成兩種,一種叫外在的 persona,另一種叫內(nèi)在的 personality。上文的 90 后、75 年這樣的示例,就是在對(duì)話的過(guò)程中缺乏一致的身份和個(gè)性,使得對(duì)話系統(tǒng)在對(duì)話的過(guò)程中難以取得用戶的信任,因此也就難以進(jìn)行有效的社交互動(dòng)。

如下圖(左)的微博對(duì)話示例,涉及到 Speaker A 和 Speaker B,它們都被賦予了固定的身份。Speaker A 是男性,地址北京,他有一些個(gè)人的偏好;Speaker B 是女性,地址哈爾濱,她也有自己的個(gè)人興趣等特定的標(biāo)簽。我們可以看到在對(duì)話過(guò)程中,Speaker A 是會(huì)很自然地、隱式地把自己的個(gè)性身份帶出來(lái),比如「Beijing is really hot today. 北京今天很熱」,Speaker B 也說(shuō)了「come to Harbin. 來(lái)哈爾濱」這樣的一些描述。

不僅如此,個(gè)性身份還有更高級(jí)的,比如一個(gè)人說(shuō)話的風(fēng)格,這也是個(gè)性的一方面。在說(shuō)話風(fēng)格的研究中,我們發(fā)現(xiàn)對(duì)話可以實(shí)現(xiàn)正式與非正式互相之間的轉(zhuǎn)換,以及禮貌和非禮貌之間的轉(zhuǎn)換。更有趣的是,我們可以從現(xiàn)代文對(duì)話轉(zhuǎn)換到金庸風(fēng)格對(duì)話,比如輸入「好久沒(méi)吃火鍋了」,現(xiàn)代風(fēng)回答「我也想吃了」,金庸風(fēng)回答則是「不錯(cuò),大俠餓了一天,現(xiàn)下先吃飯吧」。所以,如果我們能夠做出來(lái)這種智能對(duì)話系統(tǒng)的話,在一些特定的應(yīng)用場(chǎng)景中是非常有趣的,而且非常有價(jià)值。

第三個(gè)方面是如何實(shí)現(xiàn)對(duì)話系統(tǒng)中的共情和情感支持。我們知道在人類的智能行為里,情緒智能是一個(gè)非常重要的特點(diǎn)。如果對(duì)話系統(tǒng)能夠很好地去理解情感和情緒,不僅能提升用戶表現(xiàn)和用戶滿意度,還能更少地使對(duì)話陷入了僵局。

1997 年,MIT 教授 Picard 提出了情感計(jì)算的概念,指出「情感感知和情緒表達(dá)是人類智能行為中的重要特征」。我們組在很早就開始了這方面的研究,希望能夠讓對(duì)話系統(tǒng)能夠表達(dá)喜怒哀樂(lè)。具體而言,我們做了一個(gè)所謂的情緒化聊天機(jī)器人(Emotional Chatting Machine, ECM)系統(tǒng)。這個(gè)系統(tǒng)希望解決的是,當(dāng)指定一個(gè)情緒類別時(shí),對(duì)話系統(tǒng)能不能生成對(duì)應(yīng)情緒類別的內(nèi)容。

但是這個(gè)工作還是比較簡(jiǎn)單,我們希望能夠做得更復(fù)雜一點(diǎn),比如用對(duì)話系統(tǒng)能不能夠幫助解決一些精神健康問(wèn)題。2019 年世界衛(wèi)生組織曾經(jīng)披露了一些數(shù)據(jù):「全球有 3.5 億抑郁癥患者,其中每年 80 萬(wàn)人因自殺死亡。中國(guó)有 9500 萬(wàn)抑郁癥患者?!惯@個(gè)數(shù)字非常驚人。2017 年,中國(guó)社科院發(fā)布了一份《中國(guó)國(guó)民心理健康發(fā)展報(bào)告(2018-2018)》,其中 11~15% 的國(guó)民心理健康狀況較差,35.2% 公務(wù)員處于中高等心理焦慮水平。我們可以看到,國(guó)人的心理健康問(wèn)題是非常嚴(yán)重的。

所以我們就想,對(duì)話系統(tǒng)到底能不能幫我們實(shí)現(xiàn)情緒的疏導(dǎo)或者心理的疏導(dǎo)呢?我們借鑒心理咨詢的共情對(duì)話系統(tǒng),研究出了一個(gè)三階段理論模型。第一階段先確認(rèn)用戶到底有怎樣的情緒問(wèn)題,第二階段我們希望給予用戶足夠的支持,第三個(gè)階段我們希望能夠提供一個(gè)解決方案。

在每一個(gè)階段我們都可以提供豐富的策略,比如第三個(gè)階段,我們可以提供信息,直接指導(dǎo),也可以挑戰(zhàn)他,給他解釋。通過(guò)這些策略,我們就能夠很好地去實(shí)現(xiàn)一定程度上的情緒疏導(dǎo)和心理疏導(dǎo),這樣才能幫助到更多的人。

我們今年做了一個(gè)工作,核心是試圖去回答用戶到底處于什么狀態(tài),以及使用哪一個(gè)策略去疏導(dǎo)和幫助用戶,這就是我們希望去解決的科學(xué)問(wèn)題。我們通過(guò)網(wǎng)絡(luò)眾包的方式收集了大量的數(shù)據(jù),并且建立了相應(yīng)的模型。最后我們驗(yàn)證表明,現(xiàn)有的對(duì)話系統(tǒng)能夠在一定程度上去做這種情緒支持和情緒疏導(dǎo)的工作。

比如下圖示例中,用戶有很強(qiáng)的壓力感,處于情緒(emotion)焦慮的狀態(tài)「他現(xiàn)在的學(xué)校關(guān)閉了,沒(méi)有辦法上學(xué)了」。在這個(gè)過(guò)程中,怎么樣幫用戶去疏導(dǎo)情緒緊張的狀態(tài)呢?我們會(huì)有不同的階段,然后在每一個(gè)階段有豐富的策略。

我們?cè)賮?lái)思考這樣一個(gè)問(wèn)題——emotional sophisticated,這個(gè)詞實(shí)際上是有很深的意義的。我的理解是,在外在上,我們需要對(duì)用戶和情感進(jìn)行精細(xì)和準(zhǔn)確的檢測(cè);在內(nèi)在上,我們需要對(duì)用戶情感的內(nèi)部狀態(tài)進(jìn)行建模。尤其是在第二點(diǎn),現(xiàn)在的研究還非常欠缺。

強(qiáng)語(yǔ)義方法和端到端方法的結(jié)合至關(guān)重要

最后,我們來(lái)看當(dāng)前預(yù)訓(xùn)練模型的發(fā)展趨勢(shì),這個(gè)趨勢(shì)對(duì)我們今天的對(duì)話系統(tǒng)的研究有非常深的啟示。從最早的 1.1 億參數(shù)量的 BERT 到 1750 億參數(shù)量的 GPT-3。從數(shù)據(jù)層面看,BERT 最早用了 33 億的詞來(lái)訓(xùn)練數(shù)據(jù),GPT-3 用了 5000 億的詞來(lái)訓(xùn)練模型。無(wú)論是模型和數(shù)據(jù),它們?cè)诖笮∩隙际菐缀伪稊?shù)的增長(zhǎng)。

Google Meena 和 FAIR Blender 也都是幾十億級(jí)別的參數(shù)規(guī)模。那么接下來(lái)對(duì)話系統(tǒng)的研究應(yīng)該往哪個(gè)方向走,這是值得我們深入思考的一個(gè)問(wèn)題。

總結(jié)來(lái)說(shuō),當(dāng)前的大模型和大數(shù)據(jù)肯定是一個(gè)無(wú)法逆轉(zhuǎn)的研究趨勢(shì)和潮流,但是僅僅有數(shù)據(jù)驅(qū)動(dòng)的方法還不夠,尤其是構(gòu)建有知識(shí)、有個(gè)性和有情感的下一代對(duì)話系統(tǒng),更是遠(yuǎn)遠(yuǎn)不夠。

所以,我的研究思想就是,要將強(qiáng)語(yǔ)義的方法和端到端對(duì)話系統(tǒng)和模型結(jié)合起來(lái),這是實(shí)現(xiàn)下一代對(duì)話系統(tǒng)的一條核心路徑,通過(guò)這樣方法,我們才能讓對(duì)話系統(tǒng)「理解」意圖、話題、情感和實(shí)體等等——這里的「理解」之所以打引號(hào),是因?yàn)槲覀冎览斫馐欠植煌瑢哟蔚?,同時(shí)也有不同的定義。

這就是我今天的演講內(nèi)容。最近我們也寫了一本新書《現(xiàn)代自然語(yǔ)言生成》,感興趣的老師和同學(xué)可以看一看。謝謝大家。

張?jiān)溃洪_放領(lǐng)域?qū)υ挼奶魬?zhàn)思索

大家好,我是西湖大學(xué)的張?jiān)?。在這期演講里,我會(huì)繼續(xù)黃民烈老師的話題,談?wù)撊藱C(jī)對(duì)話系統(tǒng)。

黃老師已經(jīng)討論了人機(jī)對(duì)話系統(tǒng)的發(fā)展歷史和光明的前景。那么在這一期我想給大家分享一些挑戰(zhàn)的思考,分享主題是《開放領(lǐng)域?qū)υ挼奶魬?zhàn)思索》。

大家都知道現(xiàn)在的對(duì)話系統(tǒng)雖然有很多應(yīng)用了,但是在許多場(chǎng)景下還有令人不滿意的地方,那這些令人不滿意的地方的原因是什么呢?具體的挑戰(zhàn)有哪些呢?

在本次演講中,我主要為大家梳理了以下三個(gè)方面的挑戰(zhàn),包括跨領(lǐng)域可拓展性、社會(huì)常識(shí)推理和邏輯推理。

我們也是通過(guò)西湖大學(xué)文本智能實(shí)驗(yàn)室的一些研究來(lái)給大家展現(xiàn)。

跨領(lǐng)域可拓展性

首先第一個(gè)挑戰(zhàn)在于開放領(lǐng)域任務(wù)型對(duì)話的一些挑戰(zhàn)。

大家請(qǐng)看下面這張幻燈片,對(duì)于任務(wù)型對(duì)話來(lái)說(shuō),我們首先需要理解用戶的意圖。比如說(shuō)用戶在訂餐的時(shí)候,我們用戶的意圖是預(yù)定某家餐館。它的具體意圖可能還有很多的選項(xiàng),比如說(shuō)我要預(yù)定的人數(shù)是多少?我要預(yù)定的時(shí)間是多少?

主要意圖和選項(xiàng)就構(gòu)成了一種結(jié)構(gòu),我們叫做對(duì)話狀態(tài)結(jié)構(gòu)。在人機(jī)自動(dòng)客服里面,這種對(duì)話狀態(tài)結(jié)構(gòu)的理解和追蹤,就成為了一個(gè)非常重要的任務(wù)。

現(xiàn)在大家可能有所了解,深度學(xué)習(xí)對(duì)人機(jī)對(duì)話系統(tǒng)是非常重要的手段。

如果我們要做用戶的意圖理解,就需要人工對(duì)可能用戶意圖先進(jìn)行標(biāo)注。就拿上面舉的例子來(lái)講,如果用戶說(shuō)我想定今晚 6 點(diǎn)三個(gè)人的晚餐的話,可能我們需要標(biāo)注人員首先在這句話上標(biāo)出來(lái):下午 6 點(diǎn)是時(shí)間,三個(gè)人的晚餐是人數(shù)。

對(duì)于訂餐我們需要這樣標(biāo)注,對(duì)于機(jī)票預(yù)定、家裝、建材和教育各個(gè)領(lǐng)域也需要這樣的標(biāo)注。

在我們學(xué)術(shù)界,已有的研究都是在這些標(biāo)注的數(shù)據(jù)集上進(jìn)行的。我們首先拿出一個(gè)對(duì)話記錄,人工進(jìn)行標(biāo)注,從人工標(biāo)注的基礎(chǔ)上去訓(xùn)練一個(gè)模型,然后再用這樣的模型去對(duì)新的類似任務(wù)的對(duì)話進(jìn)行預(yù)測(cè)。這樣做的好處是對(duì)于某一個(gè)任務(wù)的準(zhǔn)確率是非常高的。事實(shí)上對(duì)話系統(tǒng)已經(jīng)幫助人們?nèi)プ鰴C(jī)票預(yù)訂等這樣垂直領(lǐng)域的任務(wù)了。

但是我們也看到,這樣的操作模式還是存在一定的局限。

首先一個(gè)局限就是人工標(biāo)注成本昂貴,而且非常容易出錯(cuò)。事實(shí)上這個(gè)領(lǐng)域有一個(gè)非常重要的數(shù)據(jù)集叫 MultiWOZ,通過(guò)一種特定的方式讓人來(lái)標(biāo)注對(duì)話的狀態(tài)。在這個(gè)數(shù)據(jù)集的演變過(guò)程中,很多個(gè)版本都存在著大量的錯(cuò)誤。新的版本對(duì)舊的版本的迭代,也包含了對(duì)錯(cuò)誤的修正的過(guò)程。

事實(shí)上需要自動(dòng)人機(jī)對(duì)話的領(lǐng)域是非常多的,所以另外一個(gè)非常重要的局限就是我們很難對(duì)每一個(gè)領(lǐng)域都進(jìn)行人工標(biāo)注。除了大家能日常用到的網(wǎng)購(gòu)、預(yù)定、客服退換貨,還能想到很多其他的領(lǐng)域。那么這樣的領(lǐng)域可能成千上萬(wàn),如果手工標(biāo)注各個(gè)領(lǐng)域大量的這種數(shù)據(jù)是不現(xiàn)實(shí)的。

那么怎么做呢?我們實(shí)驗(yàn)室嘗試了一個(gè)非常簡(jiǎn)單的探索:看能不能從大量沒(méi)人工標(biāo)注的客服記錄里面,讓算法自動(dòng)探索常見(jiàn)的客戶問(wèn)題,讓系統(tǒng)自動(dòng)推理出特定領(lǐng)域的用戶需求。我們把這個(gè)任務(wù)叫對(duì)話狀態(tài)推理。

對(duì)話狀態(tài)推理和對(duì)話狀態(tài)跟蹤,這兩個(gè)任務(wù)是非常不一樣的。

在推理任務(wù)里,我們不需要人的參與。不需要人告訴你預(yù)定一個(gè)餐館需要確定人數(shù)與時(shí)間。而如果大量的客戶都問(wèn)了類似的問(wèn)題,也許我們的系統(tǒng)就可以知道預(yù)定餐館需要人數(shù)和時(shí)間了。

我們做這個(gè)算法的原理也非常簡(jiǎn)單,就是把用戶經(jīng)常提到的短語(yǔ)語(yǔ)義共性進(jìn)行簡(jiǎn)單的聚類,或者把它們變成某一個(gè)層次,歸結(jié)為一項(xiàng)具體的用戶意圖。

作為初步的探索,我們嘗試了一些深度隱變量模型,比如變分自編碼器。由于時(shí)間關(guān)系,在這次報(bào)告里,我沒(méi)有時(shí)間展開給大家講。但基本原理就是通過(guò)一個(gè)預(yù)訓(xùn)練語(yǔ)言模型,對(duì)可能存在的命名實(shí)體和可能跟用戶意圖相關(guān)的短語(yǔ)進(jìn)行表示,之后把這些表示放在一起,進(jìn)行變分自編碼器的訓(xùn)練。訓(xùn)練以后,對(duì)這些隱含變量的表示進(jìn)行適當(dāng)聚類,得到大概用戶意圖類別和層次化的用戶意圖。

下表是一些實(shí)驗(yàn)結(jié)果,這是兩個(gè)非常標(biāo)準(zhǔn)的數(shù)據(jù)集。

我們把這兩個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集里面的人工標(biāo)注給去掉,然后觀察我們的模型是不是能自動(dòng)的推斷出來(lái)用戶的意圖。

第一行是一些隨機(jī)的結(jié)果,數(shù)值比較差。第二行和第三行是深度隱變量模型的不同變體,其中 DSI-base 模型是基線 VAE 模型,DSI-GM 模型是高斯混合模型的延展。

大家可以看到,如果在開放領(lǐng)域?qū)τ脩粢鈭D進(jìn)行推斷的話,還是非常有挑戰(zhàn)的。每一步的推斷模型和多步聯(lián)合的 joint 模型,都比百分之八九十有監(jiān)督訓(xùn)練的結(jié)果差得很遠(yuǎn)。如果我們能從大量的客服記錄里推斷出用戶意圖,也許它能夠幫助我們更好地與用戶進(jìn)行對(duì)話。

下面這一張幻燈片就展示了加入推斷的用戶意圖以后,客服對(duì)話的回復(fù)質(zhì)量有明顯的提高。

其中假如我們的模型不加入推斷出來(lái)的用戶意圖,這些精度值可能是十幾,加入了黃金標(biāo)準(zhǔn)的推斷可能提高到二十一點(diǎn)幾。但是大家注意,經(jīng)過(guò)自動(dòng)的推斷,也可以達(dá)到 20 多,這就證明推斷對(duì)話狀態(tài)結(jié)構(gòu)比沒(méi)有對(duì)話狀態(tài)結(jié)構(gòu)產(chǎn)生的回復(fù)質(zhì)量更高。

這項(xiàng)工作我們實(shí)際上是探討了開放領(lǐng)域情境下算法如何理解用戶意圖以及具體的一些標(biāo)準(zhǔn)。下一步我們也在探索如何把有限的人工標(biāo)注或者用自然語(yǔ)言所產(chǎn)生的人工標(biāo)注,加到完全無(wú)監(jiān)督訓(xùn)練里,真正實(shí)現(xiàn)在任何領(lǐng)域里更好地理解客戶意圖。我們也期待大家一起去探索。

社會(huì)常識(shí)推理

如果上面這一項(xiàng)工作是在解決任務(wù)型對(duì)話挑戰(zhàn),那么下面幾個(gè)挑戰(zhàn)存在于更普遍的對(duì)話之中。

我們知道人和人的交流,很多東西是在不言之中。因?yàn)槲覀兘涣鞯囊粋€(gè)基本假設(shè)是交流的雙方具有共同的知識(shí),共同的背景。比如我們聊天的時(shí)候談?wù)撎鞖?,我并不需要告訴你,天上有云彩、太陽(yáng)和月亮這些事實(shí),我會(huì)默認(rèn)你理解這些事實(shí)。

再舉一個(gè)例子,比如我們交談的時(shí)候,一個(gè)人說(shuō)我現(xiàn)在很渴,另一個(gè)人說(shuō)前面有個(gè)超市。實(shí)際上雙方是有很多假設(shè)的。第一個(gè)人可以理解第二個(gè)人說(shuō)的話,第二個(gè)人實(shí)際上是在試圖給第一個(gè)人解決問(wèn)題。為什么呢?因?yàn)殡p方都知道喝水可以解渴、超市可以買水。經(jīng)過(guò)這樣邏輯鏈條的推理過(guò)程,我們就知道第二個(gè)人的意圖是給第一個(gè)人解決口渴的問(wèn)題。

大家可以看看下圖的例子,這是一個(gè)餐館里發(fā)生的對(duì)話。這個(gè)餐廳的人員說(shuō),「你是不是很享受我們今天的晚餐?」顧客說(shuō),「很難將所有的家人帶過(guò)來(lái),但是你們的餐廳很棒,同時(shí) Johnny 也有地方玩。」當(dāng)你聽(tīng)到這句話的時(shí)候,你一定知道 Johnny 大概是這個(gè)人的小孩,并且下一步的對(duì)話很可能建立在這些常識(shí)和推理的理解之上。

這些是在不言之中,文字之外的內(nèi)容。如果想讓機(jī)器自然、合理的理解人類的這些對(duì)話,需要機(jī)器也具有這些對(duì)話之外的常識(shí)和推理。

我們制作了一個(gè)這樣的數(shù)據(jù)集,這個(gè)數(shù)據(jù)集很多來(lái)源于高考聽(tīng)力題。我們發(fā)現(xiàn)這樣的數(shù)據(jù),它含有大量的社會(huì)常識(shí)和推理。

我們把高考聽(tīng)力題轉(zhuǎn)錄下來(lái),然后把標(biāo)準(zhǔn)答案通過(guò)自動(dòng)圖像識(shí)別的方式識(shí)別出來(lái),最后將其變成人機(jī)對(duì)話里面的對(duì)話場(chǎng)景。給定一個(gè)對(duì)話上下文,我們會(huì)讓機(jī)器去選擇在這樣一個(gè)對(duì)話上下文的情況下,下一個(gè)合理的回復(fù)是什么?

這套數(shù)據(jù)集一共有不到 9000 個(gè)對(duì)話,實(shí)際上考察了幾大類型的社會(huì)常識(shí)和推理問(wèn)題。

第一個(gè)類型是人類的態(tài)度、情感因素的推理。比如有這樣一類對(duì)話。

對(duì)話里面一個(gè)人提到「我不能在這待很久了,因?yàn)槲乙惗嘏e辦一個(gè)音樂(lè)會(huì)?!鼓敲戳硗庖粋€(gè)人就說(shuō)「我很期待你的音樂(lè)會(huì)。我可不可以問(wèn)一下,你第一次當(dāng)眾表演的時(shí)候感受是什么呢?」然后第一個(gè)人就說(shuō)「我第一次上臺(tái),我的腿不停的發(fā)抖,我都快站不住了?!鼓敲吹诙€(gè)人會(huì)說(shuō)什么呢?

當(dāng)你聽(tīng)到腿發(fā)抖這件事的時(shí)候,你會(huì)明白他的心理狀態(tài)到底是緊張、高興、還是失望。實(shí)際上對(duì)話里面下一個(gè)選項(xiàng)就包含了這些不同的情感因素。如果機(jī)器能夠正確地理解背后的情感,就能夠做出正確的選擇,也就是「實(shí)際上是我能想象你當(dāng)時(shí)有多緊張?!?/p>

第二類問(wèn)題是關(guān)于數(shù)學(xué)演算的推理問(wèn)題,比如時(shí)差問(wèn)題。

我知道北京時(shí)間,知道紐約和北京相差幾個(gè)小時(shí),我能不能推理紐約是什么時(shí)間?這對(duì)于開國(guó)際線上會(huì)議是非常重要的,我需要知道我的時(shí)間和對(duì)方的時(shí)間,才能正確的預(yù)判這個(gè)時(shí)間是不是對(duì)雙方都合適。

另外在日常生活對(duì)話中,還有很多關(guān)于價(jià)格的預(yù)判,關(guān)于人數(shù)、比分的預(yù)判。比如說(shuō)我買了一個(gè)蘋果和三個(gè)梨:一個(gè)蘋果兩塊錢,一個(gè)梨一塊錢,那么我大概花多少錢?你需要找給我多少錢?這些都是日常生活對(duì)話中所必不可少的數(shù)學(xué)常識(shí)問(wèn)題。

第三類問(wèn)題是關(guān)于生活中決策所需要的常識(shí)。

比如說(shuō)對(duì)于一個(gè)學(xué)生來(lái)講,他苦于沒(méi)有獎(jiǎng)學(xué)金,可能不能繼續(xù)學(xué)業(yè)了。如下面這個(gè)對(duì)話。

當(dāng)我知道下一步你有了獎(jiǎng)學(xué)金以后,正常的人會(huì)做出什么樣的選擇呢?我相信絕大多數(shù)人都會(huì)繼續(xù)學(xué)業(yè)。

當(dāng)然也有少數(shù)人會(huì)輟學(xué)去創(chuàng)業(yè),但是你需要知道有怎樣的常識(shí),才能推斷出「你退學(xué)創(chuàng)業(yè)了,你會(huì)很有勇氣」。

下面這個(gè)例子是對(duì)雙方對(duì)話場(chǎng)景需要做社會(huì)常識(shí)判斷。

在這個(gè)例子里面,顧客說(shuō)我想要一個(gè)吸煙的桌子。這個(gè)時(shí)候客服人員說(shuō)對(duì)不起,我們這兒沒(méi)有能吸煙的桌子了。為了正確做下一步答復(fù),我應(yīng)該去判斷對(duì)話的場(chǎng)景可能發(fā)生的地方,可能發(fā)生在公共汽車、醫(yī)院里等。在下一步對(duì)話里,就包含了這些場(chǎng)景。大家都知道在公共交通,包括乘坐高鐵、飛機(jī)、公交的時(shí)候都是不能吸煙的,所以要有吸煙的桌子,很可能是在餐廳里面。那么正確的下一步回復(fù)也許就是說(shuō)「 OK,請(qǐng)把你的菜單拿給我好了?!?/p>

還有一些綜合了很多社會(huì)常識(shí)的論斷,我們稱為多事實(shí)綜合決策推斷。

比如說(shuō)一個(gè)人參觀博物館,他站在博物館一個(gè)館藏面前,這時(shí)候博物館的管理員跟他說(shuō),「我們當(dāng)時(shí)買館藏的時(shí)候只花了 3000 塊錢,但是現(xiàn)在館藏卻值 200 萬(wàn)了?!惯@時(shí)候顧客很高興說(shuō),「我花了 30 美元買了這個(gè)票,我能夠參觀到這么價(jià)值不菲的展品?!惯@個(gè)時(shí)候博物館的管理員可能就會(huì)繼續(xù)對(duì)話去恭維一下顧客。大家知道,在博物館這樣的服務(wù)行業(yè),當(dāng)顧客光臨的時(shí)候都會(huì)說(shuō)謝謝您的參觀。這里博物館管理員的答復(fù)用了一個(gè)非常委婉的方式,「hey 你看我們這價(jià)值 200 萬(wàn)的館藏,也很高興您的到來(lái)?!?/p>

它通過(guò)這樣語(yǔ)言的幽默或者間接的方式,既恭維了顧客,又把話題引到了感謝的話題上。

此外,這個(gè)數(shù)據(jù)集還選錄了我們認(rèn)為很有意義但卻不能歸為上述類別的一些推斷。比如說(shuō)雨天要帶傘、坐交通工具要付錢等等這些常識(shí),被我們歸為其他類別。

在這樣一套數(shù)據(jù)集上,人類是可以做到很高水平的:90% 以上甚至超過(guò) 95% 的準(zhǔn)確率。但是,對(duì)于模型來(lái)講還存在一些挑戰(zhàn)。

上表中的 BERT 和 RoBERTa 是自然語(yǔ)言處理領(lǐng)域兩個(gè)非常經(jīng)典的預(yù)訓(xùn)練模型。它們之所以非常成功,是因?yàn)檫@些模型先在大規(guī)模的文本上做了完形填空或者句子補(bǔ)全任務(wù)。通過(guò)這些任務(wù),這些深層神經(jīng)網(wǎng)絡(luò)就能學(xué)到很多語(yǔ)言學(xué)知識(shí),然后再根據(jù)具體的某一個(gè)問(wèn)題,進(jìn)行類似題海戰(zhàn)術(shù)的死記硬背,最后這些模型就能夠達(dá)到接近或者超過(guò)人類的效果。這就是神經(jīng)網(wǎng)絡(luò)之所以在自然語(yǔ)言處理領(lǐng)域取得成功的原因。

但是大家也可以看到,這些模型召回率(R@1)只能達(dá)到 70% 多。這證明為了完成這些常識(shí)類型的對(duì)話,當(dāng)今的模型還存在很多的挑戰(zhàn)。

下圖是一些在具體不同社會(huì)常識(shí)類型方面的挑戰(zhàn)。

對(duì)于做數(shù)學(xué)題,我們這些模型還是存在問(wèn)題的。另外模型估計(jì)語(yǔ)言文字之外的場(chǎng)景的能力還是有一定的欠缺的。

事實(shí)上,模型之所以能工作,很大程度上還是從上下文里進(jìn)行簡(jiǎn)單的模式判斷。

在研究模式判斷之外,我們也受到很大的啟發(fā)。我們發(fā)現(xiàn)這些記憶型神經(jīng)網(wǎng)絡(luò),對(duì)文字之外的知識(shí)還有缺陷。除了數(shù)學(xué)這樣的知識(shí)之外還有什么呢?邏輯推理,這也是人類所掌握而模型欠缺的一類能力。

說(shuō)起邏輯推理,實(shí)際人工智能領(lǐng)域關(guān)注且研究了很長(zhǎng)歷史了。

大家知道,在上世紀(jì)五六十年代,計(jì)算機(jī)科學(xué)方興未艾,這時(shí)候人工智能也剛剛受到關(guān)注,那個(gè)時(shí)候有一些學(xué)者就提到了語(yǔ)言推理。

所謂語(yǔ)言推理實(shí)際上就是在人類語(yǔ)言的理解中,需要進(jìn)行很多背后的邏輯推理問(wèn)題。比如剛才提到的口渴需要喝水,我知道超市有水,形成一個(gè)推理鏈條。這樣的推理過(guò)程在人工智能領(lǐng)域是不可或缺的一種能力。機(jī)器如果想具有人類的智能,是必須能夠完成這樣的推理任務(wù)的。

在人工智能發(fā)展的早期,人們研究了這種語(yǔ)言推理的問(wèn)題。但是很遺憾當(dāng)時(shí)自然語(yǔ)言處理的水平還比較弱,人類無(wú)法從自然語(yǔ)言里抽象出這種邏輯關(guān)系。

于是在六七十年代人工智能發(fā)展的繁榮時(shí)期,人們把對(duì)自然語(yǔ)言推理研究的注意力,逐漸轉(zhuǎn)向了比較抽象的形式邏輯的推理問(wèn)題。

當(dāng)時(shí)大家研究比較多的是 Prolog、Lisp 這樣的產(chǎn)生式系統(tǒng),這種符號(hào)化的研究占據(jù)了當(dāng)時(shí)人工智能研究的很大比重。

我相信在當(dāng)今自然語(yǔ)言處理發(fā)展取得了長(zhǎng)足進(jìn)步的情況下,語(yǔ)言推理應(yīng)該受到更多的關(guān)注。

所以我們也想放出這個(gè)挑戰(zhàn),看看 BERT、RoBERTa 等這類自然語(yǔ)言處理領(lǐng)域最成功的模型,能夠在自然語(yǔ)言推理上取得怎么樣的成績(jī)。

邏輯推理

邏輯推理挑戰(zhàn)主要圍繞自然語(yǔ)言處理研究最多的兩類數(shù)據(jù)進(jìn)行,其中一類叫做機(jī)器閱讀理解問(wèn)題,另一類叫做文本推理或者文本蘊(yùn)涵問(wèn)題。

機(jī)器閱讀理解問(wèn)題

首先是機(jī)器閱讀理解問(wèn)題。

所謂閱讀理解就是給定篇章與問(wèn)題,機(jī)器能不能回答這類問(wèn)題?這個(gè)任務(wù)在新一代搜索引擎上有很大的幫助。因?yàn)楝F(xiàn)在的搜索引擎是理解了文章以后,根據(jù)用戶檢索短語(yǔ),反饋?zhàn)钕嚓P(guān)的文章。但將來(lái)的機(jī)器搜索引擎很可能是在讀懂了文章以后,根據(jù)一個(gè)開放式的問(wèn)題,直接給用戶一個(gè)答案,而不是反饋一個(gè)文章。

在自然語(yǔ)言處理領(lǐng)域,很多閱讀理解工作都是在考慮篇章的事實(shí)整合問(wèn)題,比如一個(gè)足球,之前在臥室里,后來(lái)被小男孩拿到花園,然后被拿到餐廳,最后問(wèn)足球在哪里的問(wèn)題。

那么機(jī)器在邏輯推理問(wèn)題上的表現(xiàn)如何呢?比如下面這個(gè)例子,最后你能推出什么樣的事實(shí)。

我們從中國(guó)公務(wù)員考試網(wǎng)題庫(kù)搜集了 8000 多個(gè)問(wèn)題,制作了 logiQA 數(shù)據(jù)集,與以往的機(jī)器閱讀理解問(wèn)題不同,該數(shù)據(jù)集專注于 5 類邏輯推理問(wèn)題:

第一類叫做范疇推理問(wèn)題。比如說(shuō)蠟筆具有什么樣的特征?我需要機(jī)器去歸結(jié)所有的這些特點(diǎn),給定一個(gè)定義的范疇,然后進(jìn)行推理。

第二類推理是充分條件推理。比如有一個(gè)人說(shuō)如果明天不下雨,那么我就去爬山,然后我看到他爬山了,是不是一定就沒(méi)有下雨?這是屬于一種充要條件。

第三個(gè)是必要條件推理問(wèn)題。為了達(dá)到某個(gè)結(jié)論,必須具備某些條件,在這些條件下,去進(jìn)行推理、論斷、選擇。

第四個(gè)是選言推理。所謂選言推理就是說(shuō)當(dāng) a 或者 b 成立的時(shí)候,c 就可以成立;比如說(shuō)當(dāng)我吃了漢堡或者吃了面條以后,我都可能解決饑餓問(wèn)題,這是選言推理。

第五個(gè)是聯(lián)言推理。所謂聯(lián)言推理就是說(shuō)我必須及時(shí)的到了考場(chǎng),而且我必須好好的復(fù)習(xí)了,才能夠順利的成功的進(jìn)行考試。是兩個(gè)條件都必須具備。

在這套推理題上,最成功的模型 BERT、 RoBERTa 表現(xiàn)可以說(shuō)是一敗涂地。

一個(gè)受過(guò)高等教育的人,做這類邏輯推理題可以說(shuō)是駕輕就熟,拿到 90% 以上的精確度。然而看這些模型,在隨機(jī)選擇選擇都有 25% 的準(zhǔn)確度下,模型確只有 30% 多的準(zhǔn)確度。

在所有的這些問(wèn)題里面,從上圖可以發(fā)現(xiàn)范疇推理模型的表現(xiàn)最好。這是因?yàn)榉懂犕评碓谖淖謱用嫔线€有很多線索可循,但是其他的推理問(wèn)題真正需要你腦洞大開,拿出草稿紙,在文字之外進(jìn)行演算,這樣的模型還是表現(xiàn)非常差的。

文本蘊(yùn)涵問(wèn)題

下面簡(jiǎn)要地介紹文本蘊(yùn)涵問(wèn)題。這個(gè)問(wèn)題在進(jìn)行事實(shí)檢測(cè)、文本總結(jié)等推斷問(wèn)題上都有很大的幫助。

如上圖,左邊例子是傳統(tǒng)的文本蘊(yùn)涵問(wèn)題。比如一個(gè)人在演講,那么他一定是在說(shuō)話,演講可以蘊(yùn)涵說(shuō)話,但是可能不能蘊(yùn)涵其他的問(wèn)題,比如這個(gè)人是否健談。

右邊是關(guān)于邏輯推理的問(wèn)題。假如有 10 個(gè) TV 節(jié)目在播放,經(jīng)過(guò)一段時(shí)間以后,有 3 個(gè)節(jié)目下線了,還剩 7 個(gè)在播放,7 個(gè)里面 5 個(gè)是同外節(jié)目,文另外會(huì)不會(huì)有其他節(jié)目還在播放?這類似雞兔同籠問(wèn)題的推理,就可以推斷哪些是對(duì)的,哪些是錯(cuò)的,哪些是你不知道的。

我們通過(guò)美國(guó)的很多邏輯考試整理出ConTRoL 數(shù)據(jù)集,與現(xiàn)有的文本蘊(yùn)涵數(shù)據(jù)集,有顯著的差別。如首先數(shù)據(jù)集段落比較長(zhǎng),其次我們關(guān)注了邏輯推理的問(wèn)題。

這套數(shù)據(jù)集包含諸多的推理類型:上下文推斷的類型、時(shí)間推斷的類型、邏輯推斷的類型、信息整合的類型、事實(shí)性分析的類型。

由上圖可以看出,在我們的數(shù)據(jù)集上 BERT、BART 這類模型跟人類,還有顯著的差距。

上圖是不同的邏輯推理文本蘊(yùn)涵數(shù)據(jù)集,可以看到有的模型表現(xiàn)在一些數(shù)據(jù)集上已經(jīng)超過(guò)了人類表現(xiàn)。但對(duì)于 ConTRoL 數(shù)據(jù)集,SOTA 模型跟人類還有很大差距,還有很大的工作空間。

這個(gè)圖體現(xiàn)了在不同的推理類型中,邏輯推理還是最具有挑戰(zhàn)的問(wèn)題類型。

后面是幾個(gè)例子,因?yàn)闀r(shí)間關(guān)系我不展開介紹了。但是大家可以觀察到,現(xiàn)在最流行的模型之所以成功,還是從字面上找原因,并沒(méi)有分析文字之外的原因。

而且大家也可以看到我們的對(duì)話模型雖然取得了很大的成功,但是在開放領(lǐng)域還存在很多的挑戰(zhàn),期待參賽選手和所有的同學(xué)們多思考,大家一起努力,繼續(xù)的提高對(duì)話系統(tǒng)的水平。

謝謝。

圓桌論壇:

智能機(jī)器人未來(lái)面臨技術(shù) & 倫理雙重難點(diǎn)

Q1:兩位老師認(rèn)為讓機(jī)器像人一樣自然流暢地說(shuō)話聊天可能嗎?

黃民烈:我認(rèn)為在一定的條件下應(yīng)該是可能的。這個(gè)問(wèn)題非常好,讓機(jī)器就像人一樣說(shuō)話,我認(rèn)為有三個(gè)不同的層次。

第一個(gè)層次是能夠像人一樣正常地說(shuō)話,能夠保持在一個(gè)正常的話題下,不要牛頭不對(duì)馬嘴。這樣的話,我們就要要求機(jī)器能夠真正地理解對(duì)方講的是什么,然后做出合適的答復(fù)。至少在內(nèi)容上和意圖上正常,這是第一個(gè)層次。

第二個(gè)層次我們講得更復(fù)雜一點(diǎn)。如果機(jī)器像人那樣充滿技巧且能夠體現(xiàn)高情商的,則可能需要專注于情感支持和心理疏導(dǎo)。在這種場(chǎng)景下,我們需要一些類人能力,這是第二個(gè)層次。

第三個(gè)層次機(jī)器還要能夠體現(xiàn)一定的個(gè)性和風(fēng)格。比如,我們能不能模擬出外向的人和內(nèi)向的人分別怎么說(shuō)話的,教授和學(xué)生分別怎么說(shuō)話的。這就體現(xiàn)了個(gè)性和風(fēng)格,甚至是心理學(xué)層面的建模。

很顯然,我認(rèn)為第一個(gè)層次在不遠(yuǎn)的未來(lái)應(yīng)該是能夠預(yù)期達(dá)到的。第二個(gè)層次的話,我們可能需要更多的努力。第三個(gè)層次肯定是最難的。

我認(rèn)為,下一代的對(duì)話系統(tǒng)在類人的水平上進(jìn)行所謂的擬人化特征的表達(dá),真正從人的特征和行為上借鑒更多的這種特點(diǎn),然后能夠去刻畫機(jī)器的行為。所以這也是我們下一代做這種自然語(yǔ)言處理研究,尤其是對(duì)話系統(tǒng)研究的一個(gè)很重要方面。

張?jiān)溃何曳浅M恻S老師的看法。我覺(jué)得人類對(duì)話事實(shí)上是一個(gè)非常綜合的語(yǔ)言過(guò)程。我們可以想象,人類最開始交流的時(shí)候沒(méi)有文字,那么交流實(shí)際上也是從對(duì)話開始的。比如說(shuō)「樹上有三個(gè)果子你可以去吃」,這一過(guò)程可能包含心理、認(rèn)知以及我們對(duì)世界的理解等諸多方面的內(nèi)容。

所以如果讓機(jī)器能夠和人類非常自然地交流和對(duì)話,真的需要各個(gè)方面的知識(shí)和技能。

總的來(lái)說(shuō),機(jī)器能否學(xué)會(huì)跟人這樣非常自然的、密切的交流呢?我認(rèn)為還是非常有可能、非常有前景的。不過(guò),對(duì)于現(xiàn)在的機(jī)器學(xué)習(xí)還存在挑戰(zhàn),因?yàn)槲覀儸F(xiàn)在的機(jī)器學(xué)習(xí),至少主流的機(jī)器學(xué)習(xí)方法還是以記憶為主。我們通過(guò)大量的神經(jīng)網(wǎng)絡(luò)在大規(guī)模的文本上進(jìn)行完形填空,句子補(bǔ)全等訓(xùn)練,能夠讓神經(jīng)網(wǎng)絡(luò)在一定程度上獲得文本里面至少表面上的句法語(yǔ)義和常識(shí)等知識(shí)。

但我覺(jué)得,如果讓機(jī)器徹底地能夠跟人類交流且無(wú)障礙溝通的話,可能還需要讓機(jī)器能夠主動(dòng)地學(xué)習(xí),至少能夠挖掘?qū)υ掃^(guò)程中可能存在的問(wèn)題,或者說(shuō)對(duì)話過(guò)程中所需要的各方面知識(shí)。

我相信能夠主動(dòng)去學(xué)習(xí)的機(jī)器,可能會(huì)像一個(gè)主動(dòng)學(xué)習(xí)的人一樣,通過(guò)對(duì)話中的經(jīng)驗(yàn),甚至對(duì)話之外的經(jīng)驗(yàn)來(lái)獲得自己的一套知識(shí)體系以及對(duì)語(yǔ)義信息、嘗試信息的理解。機(jī)器主動(dòng)地分析問(wèn)題,發(fā)現(xiàn)自己的不足,并且積累相關(guān)的能力。

因此,我覺(jué)得如果機(jī)器能夠進(jìn)行這樣的主動(dòng)學(xué)習(xí),也許在將來(lái)每一個(gè)機(jī)器都是一個(gè)個(gè)性化的專家,每一個(gè)機(jī)器都能夠以自己的方式去跟人交流,就像每一個(gè)人一樣。到那一天,也許我們的機(jī)器就能夠更自然地跟人對(duì)話了,并能夠解決現(xiàn)在對(duì)話中存在的很多問(wèn)題了。

Q2:看來(lái)兩位老師對(duì)實(shí)現(xiàn)像人一樣說(shuō)話的機(jī)器都是充滿期望的。那么接下來(lái)的問(wèn)題就是,如果我們真的做出來(lái)了能夠跟人自然交流說(shuō)話的機(jī)器,它有哪些重大的價(jià)值和意義呢?

張?jiān)溃何矣X(jué)得這樣的機(jī)器如果能夠?qū)崿F(xiàn)的話,對(duì)我們來(lái)講是一件非常值得期待的事情,這是因?yàn)槲矣X(jué)得語(yǔ)言是人類進(jìn)行交流的非常自然、非常簡(jiǎn)單的一種方式。

首先,如果機(jī)器能夠跟人這樣交流的話,會(huì)省去人類和機(jī)器打交道的諸多麻煩。我能想象在古代或者工業(yè)革命時(shí)代,人可能會(huì)和齒輪打交道,會(huì)和基本的操作桿打交道。在我們的互聯(lián)網(wǎng)時(shí)代,人可能是和鍵盤鼠標(biāo)打交道,從不同的文本框、按鈕、多選框里選擇,去和機(jī)器去交流。或者在我們開車的時(shí)候,我們事實(shí)上還在和方向盤和踏板在打交道。

但是,如果說(shuō)機(jī)器能夠理解人類語(yǔ)言的話,我相信人類與機(jī)器、人工智能之間打交道的途徑就會(huì)變得非常的簡(jiǎn)單。在將來(lái)的 5G 時(shí)代甚至 6G 時(shí)代,我覺(jué)得物聯(lián)網(wǎng)也興起了,那么任何的機(jī)器可能都具備一定的智能,那么就可以很容易地跟我的冰箱進(jìn)行對(duì)話,看看我今天晚飯的飯桌上會(huì)有什么東西。我也可以很方便地和我的室溫控制系統(tǒng)打交道,去看看今天濕度和溫度的調(diào)節(jié)。我甚至可以和門禁系統(tǒng)打交道,也就是說(shuō)各個(gè)設(shè)備可以更人性化地為我服務(wù),我和機(jī)器打交道的方式也可以變得更簡(jiǎn)便。實(shí)際上,這種交流的方式在現(xiàn)在的智能音箱上也有了一定的初步體驗(yàn)。

此外,在我們的娛樂(lè)系統(tǒng)上,我相信可能也會(huì)有更大的進(jìn)步。比如說(shuō)我們?cè)谡嬲挠螒驁?chǎng)景里面,會(huì)不會(huì)對(duì)各個(gè)游戲角色賦予更人性化的一面以及更靈活的能力。也許我們可以和柳樹下的老頭進(jìn)行更人性化的交流,在街道上和任何一個(gè) AI 進(jìn)行更多這種互動(dòng)。

總之,如果機(jī)器能以人的方式跟人交流的話,我們可以期待很多可以想象的前景,還是非常激動(dòng)人心的。

黃民烈:我的觀點(diǎn)是:這樣的研究是非常重要的。我們可以設(shè)想一下,當(dāng)前人口老齡化很嚴(yán)重,人口越來(lái)越少,然后機(jī)器越來(lái)越多,所以未來(lái)社會(huì)一定是人機(jī)共融的社會(huì)。

但是,人機(jī)共融的時(shí)候,我們希望這樣的機(jī)器,能夠在未來(lái)社會(huì)里扮演更重要的社會(huì)角色。這就要求它們不僅具備機(jī)器的功能,同時(shí)更重要的要具備類人的能力。類人的能力就是既要有知識(shí),又有情感和個(gè)性。比如說(shuō),對(duì)于大量的獨(dú)居老人而言,如果他(她)們能有親人很好地進(jìn)行情感交流和陪伴的話,對(duì)未來(lái)社會(huì)一定是非常好的一件事情。所以就是說(shuō),如果我們真的做出了有思想、有情感,有各種綜合能力的機(jī)器人,很顯然對(duì)我們未來(lái)的社會(huì)進(jìn)步和發(fā)展都有巨大的意義。

但是另一方面,我們還得深入地思考這個(gè)問(wèn)題,做出來(lái)有思想的機(jī)器人還是非常難的,我們需要什么呢?我們需要很好地處理機(jī)器人的一些內(nèi)部情感狀態(tài)。比如,有研究者在做人工心理,那么需要對(duì)機(jī)器內(nèi)部的情感心理進(jìn)行很好的建模。與此同時(shí),我們也需要在各種技術(shù)上實(shí)現(xiàn)能力突破,比如靈巧地抓取以及各種細(xì)節(jié)動(dòng)作的執(zhí)行。有了這些東西之后,我們就能夠?qū)崿F(xiàn)更美好的人機(jī)共融的社會(huì)愿景。

第三方面,我們還要注意社會(huì)倫理問(wèn)題。想象一下,如果人跟機(jī)器人談戀愛(ài)的話,那可能就不跟人談戀愛(ài)了,可能會(huì)對(duì)人類社會(huì)的繁衍造成一定的威脅?,F(xiàn)在并不是沒(méi)有這樣的考慮,比如日本可能就出現(xiàn)了這樣的爭(zhēng)論。他們做出了很多機(jī)器人女友或者機(jī)器人男友,但實(shí)際上這樣可能會(huì)在一定程度上影響社會(huì)中人的發(fā)展。

所以,其實(shí)無(wú)論是在科學(xué)技術(shù)上,還是在社會(huì)倫理道德上,我們還要去做很多深入的探索和思考。這就是我的觀點(diǎn)。

Q3:本屆大賽有兩道賽題都與自然語(yǔ)言處理有關(guān),其中賽題一是醫(yī)學(xué)影像報(bào)告異常檢測(cè),要求參賽隊(duì)伍根據(jù)醫(yī)生對(duì) CT 影像描述文本數(shù)據(jù),判斷身體的若干區(qū)域目標(biāo)是否有異常,以及異常的類型是什么;賽題三則是小步助手的對(duì)話短文本語(yǔ)義匹配。小步助手是為 OPPO、OnePlus 和 Realme 三品牌手機(jī)和 IoT 設(shè)備自研的語(yǔ)音助手。這道題考的是短文本語(yǔ)義匹配,要求參賽隊(duì)伍根據(jù)脫敏后的短文本 query pair 預(yù)測(cè)它們是否屬于同一語(yǔ)義。請(qǐng)兩位老師發(fā)表一下對(duì)我們大賽以及賽題的一些看法。

黃民烈:我覺(jué)得組織這樣的比賽是非常好的一件事情,因?yàn)楝F(xiàn)在大家都知道研究工作和論文非常的多,然后各種模型也都是層出不窮。那么我們通過(guò)這種賽題,一方面可以去鍛煉工程實(shí)現(xiàn)能力,另一方面則有很好的實(shí)際科研問(wèn)題去做。

比如說(shuō),現(xiàn)在的大部分模型和算法都是不可復(fù)現(xiàn)的,作為學(xué)生的話,我們拿到這樣的題目,第一選擇肯定就是先去復(fù)現(xiàn)一些現(xiàn)有的最強(qiáng)的模型,看看在這個(gè)任務(wù)上能達(dá)到多少。這里涉及到很多精細(xì)的工程,比如說(shuō)調(diào)參、數(shù)據(jù)預(yù)處理和數(shù)據(jù)后處理,這樣才可能在這些題目上取得比較好的成績(jī)。

所以我覺(jué)得,一方面來(lái)講,對(duì)一個(gè)學(xué)生的鍛煉和培養(yǎng)應(yīng)該是綜合的,就是不僅僅去做一個(gè)模型或者一個(gè)算法,還要把這個(gè)模型和算法能夠?qū)崿F(xiàn)地非常好,性能能夠達(dá)到很高的標(biāo)準(zhǔn)。

另外,剛才我聽(tīng)一個(gè)賽題是關(guān)于 OPPO 的,它涉及短文本匹配,這是一個(gè)很有挑戰(zhàn)性的問(wèn)題,在科學(xué)上有很多研究的意義和價(jià)值。對(duì)于短文沒(méi)匹配而言,你可能要用更多的知識(shí)和更多的背景信息才能把它做好。所以,我們不僅有算法和模型上的訓(xùn)練,也有科學(xué)問(wèn)題上的探索。與此同時(shí),我們還要有工程技術(shù)上的鍛煉。

這樣的話,我覺(jué)得未來(lái)學(xué)生能夠適應(yīng)更加綜合和更加高的社會(huì)就業(yè)要求,而且在他們走上社會(huì)的時(shí)候,他們面臨的挑戰(zhàn)可能就會(huì)更小一些。比如在我的研究所,我也是要求學(xué)生們一定是不能只是寫論文。你只寫論文,然后發(fā)論文,這是絕對(duì)不行的,你還得有很強(qiáng)的工程實(shí)現(xiàn)能力,包括現(xiàn)在大模型、大數(shù)據(jù)的處理能力,然后能把它從一個(gè)研究的問(wèn)題做到一個(gè)最后系統(tǒng)的問(wèn)題,進(jìn)而變成整個(gè)鏈條上的培養(yǎng)。

張?jiān)溃何曳浅M恻S老師的說(shuō)法。我覺(jué)得這個(gè)大賽可以在實(shí)際的應(yīng)用場(chǎng)景和學(xué)生的經(jīng)驗(yàn)之間構(gòu)筑一個(gè)比較不錯(cuò)的橋梁。

首先,它是一個(gè)很特定的問(wèn)題,另外這樣的問(wèn)題具有比較小的范圍和比較應(yīng)用的驅(qū)動(dòng)性。這樣對(duì)于研究生來(lái)講,他可以看到研究任務(wù)在實(shí)際場(chǎng)景中發(fā)揮的作用。

另外,我覺(jué)得這個(gè)大賽也可以對(duì)更多對(duì)人工智能感興趣的本科生,還有其他學(xué)生產(chǎn)生影響。以這個(gè)大賽契機(jī),大家可以看到我們?nèi)斯ぶ悄茉噲D解決的主要典型應(yīng)用問(wèn)題是什么,通過(guò)自己建立一個(gè)模型去解決這樣的問(wèn)題,然后看到現(xiàn)在的模型能夠做到什么程度。對(duì)于培養(yǎng)大家對(duì)人工智能的興趣而言,這些都可能是有幫助的。

最后,大家也可以通過(guò)動(dòng)手看到我們現(xiàn)在人工智能模型存在的缺陷,對(duì)于更多朋友們能夠涉獵到這個(gè)領(lǐng)域、產(chǎn)生更多的想法以及試圖解決這些問(wèn)題,大賽和賽題都是非常好的途徑。

Q4:都說(shuō)語(yǔ)言是思想的載體,那一臺(tái)能夠像人一樣說(shuō)話的機(jī)器,是否意味著有思想能跟人做朋友甚至談戀愛(ài)呢?

黃民烈:我覺(jué)得這個(gè)問(wèn)題在當(dāng)下面臨兩個(gè)方面的難點(diǎn)。一個(gè)是技術(shù)上的難點(diǎn),即我們到底是不是能夠構(gòu)建一個(gè)足夠聰明并且有一定情緒理解和思想表達(dá)能力的機(jī)器人。另一個(gè)難點(diǎn)是面臨的倫理道德風(fēng)險(xiǎn),即我們到底是不是應(yīng)該鼓勵(lì)人跟機(jī)器人進(jìn)行深入的情感交流,甚至肢體交流行為,以及在未來(lái)的十年、二十年甚至五十年里,這樣做對(duì)人類社會(huì)的發(fā)展會(huì)產(chǎn)生哪些潛在的影響。這是需要我們?nèi)プ鲈u(píng)估的。

一方面,在技術(shù)層面上,我們知道現(xiàn)在已經(jīng)有一定程度上的技術(shù)突破,但其實(shí)我們今天的這種大規(guī)模對(duì)話系統(tǒng)和對(duì)話模型依然面臨很大的類人不足的問(wèn)題,比如說(shuō)缺乏個(gè)性和情感,然后僅僅是數(shù)據(jù)驅(qū)動(dòng)的這種做法是不足以構(gòu)建出這樣的智能體的。

在社會(huì)倫理層面,我認(rèn)為現(xiàn)在其實(shí)已經(jīng)有了一些這樣的思考和討論。比如說(shuō), AI 的倫理和道德應(yīng)該往哪個(gè)方向走?應(yīng)該有什么樣的規(guī)范?就拿我舉的例子來(lái)說(shuō),AI 到底能不能理解自己的說(shuō)話、行為和動(dòng)作,這些意味著什么呢?再比如我剛才講的例子,「我想去跳橋」,AI 就給你找一個(gè)橋,它并不能夠理解「跳橋」這個(gè)行為可能帶來(lái)的潛在后果和行為是什么?

如果這一問(wèn)題不解決的話,那么就很難避免「亂說(shuō)亂講」的問(wèn)題,因?yàn)樗恢雷约旱脑捳Z(yǔ)和行為會(huì)面臨什么樣的社會(huì)倫理和道德風(fēng)險(xiǎn)。這種風(fēng)險(xiǎn)其實(shí)需要從研究上和社會(huì)規(guī)范上一起去做探討,所以我覺(jué)得這個(gè)方向的路還是非常遙遠(yuǎn)的,需要廣大研究者,包括自然科學(xué)和社會(huì)科學(xué)的研究者,一起去努力解決這樣的難題。

張?jiān)溃何矣X(jué)得這個(gè)問(wèn)題主要是從功能層面討論,就是說(shuō),機(jī)器它到底能不能和人進(jìn)行情感的交流?也許我們無(wú)法完全地去探究。從機(jī)器內(nèi)部來(lái)講,它的意識(shí)是否存在?從功能的角度講,機(jī)器也許可以幫助我們?nèi)ミM(jìn)行這種情感陪伴,去進(jìn)行更多的這種人文方面的交流。

那么這樣的交流會(huì)產(chǎn)生很多的社會(huì)影響,這也是黃老師提出的倫理問(wèn)題。首先,我覺(jué)得機(jī)器如果能夠從功能上和人交流的話,它會(huì)起到正面的作用。像人口老齡化和人的陪伴需求等,這樣的交流可能會(huì)在這些方面起到正面的作用。同時(shí),我們也要避免一些負(fù)面的作用。

此外,除了機(jī)器和人在交流的時(shí)候,人可能因?yàn)闄C(jī)器的陪伴所產(chǎn)生的負(fù)面影響之外,機(jī)器如果具備了和人交流的能力,那么也許就具備了互相交流的能力。在這個(gè)方面,我們可能也會(huì)設(shè)想會(huì)不會(huì)有一些道德倫理,甚至對(duì)人類的生存問(wèn)題造成的影響。比如說(shuō),如果機(jī)器在交流的過(guò)程之中進(jìn)行演化,產(chǎn)生了一種機(jī)器可以理解,人類卻不可以理解的交流方式,那么也許具有目的性的機(jī)器,可以通過(guò)這種交流方式去試圖影響社會(huì)的發(fā)展。

那么如果有目的性的機(jī)器能夠通過(guò)學(xué)習(xí)知道人類語(yǔ)言交流手段的話,也許機(jī)器還可以在人類的社交媒體和人類的交流之中,對(duì)人類產(chǎn)生影響。

所以我覺(jué)得要從兩方面講。從人類本身來(lái)講,我們要避免這種能夠進(jìn)行情感交流的機(jī)器對(duì)我們產(chǎn)生的負(fù)面作用。從人類對(duì)機(jī)器的防范角度來(lái)講,我們是不是也應(yīng)該在人工智能將來(lái)的設(shè)計(jì)中設(shè)計(jì)一些規(guī)范,或者制定一些人工智能設(shè)計(jì)的準(zhǔn)則和法則,從而最大程度地讓機(jī)器和人能夠?qū)ι鐣?huì)發(fā)展有促進(jìn)作用,能夠避免一些可能對(duì)社會(huì)產(chǎn)生的不利影響。

評(píng)論列表

頭像
2024-06-03 11:06:49

老師真厲害,耐心而又理智的去幫助受傷的人,文章寫的讓人很感動(dòng)

頭像
2024-05-12 21:05:45

可以幫助復(fù)合嗎?

頭像
2024-04-05 00:04:56

如果發(fā)信息不回,怎麼辦?

頭像
2024-03-14 02:03:09

可以幫助復(fù)合嗎?

 添加導(dǎo)師微信MurieL0304

獲取更多愛(ài)情挽回攻略 婚姻修復(fù)技巧 戀愛(ài)脫單干貨

發(fā)表評(píng)論 (已有4條評(píng)論)