像人一樣自然流暢地說(shuō)話，下一代智能對(duì)話系統(tǒng)還有多長(zhǎng)的路要走？

情感導(dǎo)師 2023-07-21 7771

添加導(dǎo)師微信MurieL0304

獲取更多愛(ài)情挽回攻略婚姻修復(fù)技巧戀愛(ài)脫單干貨

機(jī)器之心報(bào)道

機(jī)器之心編輯部

為了推動(dòng) AI 技術(shù)的應(yīng)用創(chuàng)新，促進(jìn)人工智能領(lǐng)域的學(xué)術(shù)交流、人才培養(yǎng)，打造人工智能的人才交流平臺(tái)與產(chǎn)業(yè)生態(tài)圈，中國(guó)人工智能學(xué)會(huì)聯(lián)合杭州市余杭區(qū)人民政府聯(lián)合發(fā)起了首屆全球人工智能技術(shù)創(chuàng)新大賽，并得到了阿里云、OPPO 等頭部科技企業(yè)的積極參與和支持。阿里云天池平臺(tái)為本次大賽提供平臺(tái)和算力支撐。AI青年說(shuō)是大賽主辦方為提升青年開發(fā)者對(duì) AI 的認(rèn)識(shí)而主辦的系列活動(dòng)，該活動(dòng)邀請(qǐng)知名青年學(xué)者，探討理論研究與應(yīng)用實(shí)踐中的熱點(diǎn)話題。本文對(duì)AI青年說(shuō)系列活動(dòng)第二期「如何摘取 AI 皇冠上的 NLP 明珠」核心內(nèi)容進(jìn)行了總結(jié)回顧。

作為人工智能的一個(gè)子領(lǐng)域，自然語(yǔ)言處理（NLP）指的是機(jī)器理解并解釋人類書面語(yǔ)和口語(yǔ)的能力，目的在于使計(jì)算機(jī)像人類一樣智能地理解語(yǔ)言和用語(yǔ)言表達(dá)，彌補(bǔ)人類交流（自然語(yǔ)言）和計(jì)算機(jī)理解（機(jī)器語(yǔ)言）之間的差距。目前，NLP 已經(jīng)具有了廣泛的應(yīng)用領(lǐng)域，如信息提取、文本生成、機(jī)器翻譯、情感分析、知識(shí)圖譜、智能問(wèn)答、對(duì)話系統(tǒng)等。

像人一樣自然流暢地說(shuō)話，下一代智能對(duì)話系統(tǒng)還有多長(zhǎng)的路要走？

其中，對(duì)話系統(tǒng)在最近幾年發(fā)展非常迅速，特別在 NLP 頂會(huì)上的論文數(shù)量逐步增多。如果說(shuō)，自然語(yǔ)言處理是 AI 皇冠上的明珠，那么對(duì)話系統(tǒng)就是「NLP 皇冠上的明珠」，并且以蘋果 Siri 等為代表的的任務(wù)型對(duì)話和以微軟小冰為代表的非任務(wù)型（聊天型）對(duì)話尤為受到學(xué)界和業(yè)界關(guān)注。

所謂智能對(duì)話系統(tǒng)，就是在各種智能算法的支撐下，使機(jī)器理解人類語(yǔ)言的意圖并通過(guò)有效的人機(jī)交互執(zhí)行特定任務(wù)或做出回答。隨著技術(shù)的不斷發(fā)展，任務(wù)型對(duì)話系統(tǒng)在虛擬個(gè)人助理、智能家居、智能汽車（車載語(yǔ)音）等領(lǐng)域有了廣泛應(yīng)用。聊天型對(duì)話系統(tǒng)也在娛樂(lè)和情感陪護(hù)領(lǐng)域找到了應(yīng)用場(chǎng)景。

但我們應(yīng)看到，這些傳統(tǒng)對(duì)話系統(tǒng)存在著一些問(wèn)題，如語(yǔ)義理解不準(zhǔn)確造成答非所問(wèn)，對(duì)話中展示的身份與個(gè)性不一致而難以獲得用戶信任，以及對(duì)話交互中可能存在的道德倫理風(fēng)險(xiǎn)等。所以，如何規(guī)避解決這些問(wèn)題并開發(fā)交互效果更好的下一代對(duì)話系統(tǒng)逐漸成為了業(yè)內(nèi)的熱門研究課題。研究人員也基于各自不同的視角提出了對(duì)下一代對(duì)話系統(tǒng)的暢想。

在首屆全球人工智能技術(shù)創(chuàng)新大賽「AI 青年說(shuō)」系列活動(dòng)的第二期直播分享中，自然語(yǔ)言處理領(lǐng)域的兩位專家——清華大學(xué)計(jì)算機(jī)系長(zhǎng)聘副教授、博士生導(dǎo)師黃民烈和西湖大學(xué)終身副教授張?jiān)?，分別帶來(lái)了《下一代對(duì)話系統(tǒng)》和《關(guān)于開放域?qū)υ捥魬?zhàn)的思索》的主題分享，并以「關(guān)于讓機(jī)器說(shuō)人話這件事」展開圓桌討論。

在本期分享中，清華大學(xué)副教授黃民烈為我們?cè)敿?xì)介紹了任務(wù)導(dǎo)向型和開放域兩種主要的對(duì)話系統(tǒng)，并勾勒了下一代有知識(shí)、有個(gè)性和有情感的智能對(duì)話系統(tǒng)愿景。西湖大學(xué)副教授張?jiān)绖t向我們介紹了開放領(lǐng)域?qū)υ挼奶魬?zhàn)思索，并從三個(gè)方面進(jìn)行介紹，分別是跨領(lǐng)域可拓展性、社會(huì)常識(shí)推理和邏輯推理（又分為機(jī)器閱讀理解和文本蘊(yùn)含問(wèn)題）。

在下文中，機(jī)器之心在不改變?cè)獾幕A(chǔ)上對(duì)兩位專家的分享進(jìn)行了整理。

黃民烈：

有知識(shí)、有個(gè)性和有情感的下一代對(duì)話系統(tǒng)

大家好，我是來(lái)自清華大學(xué)的黃民烈，今天非常高興能跟各位老師和同學(xué)做這樣的一個(gè)交流和分享。我的分享主題是《下一代對(duì)話系統(tǒng)》。

我們知道，對(duì)話系統(tǒng)的歷史非常悠久，最早可以追溯到 1966 年 MIT 的 Eliza，這是一個(gè)以心理咨詢?yōu)榇淼膶?duì)話系統(tǒng)，在過(guò)去幾十年以及今天都產(chǎn)生了非常廣泛的影響。2011 年，蘋果推出了語(yǔ)音助手 Siri，使得這一類的對(duì)話系統(tǒng)在工業(yè)界引起了廣泛關(guān)注。2014 年微軟推出了第一款社交機(jī)器人微軟小冰，使得用戶可以跟對(duì)話系統(tǒng)進(jìn)行聊天互動(dòng)。2020 年又出現(xiàn)了很多超大規(guī)模的預(yù)訓(xùn)練模型，包括 Google 的 Meena、 FAIR 的 Blender 和百度的 PLATO。這些預(yù)訓(xùn)練模型將對(duì)話系統(tǒng)的研究推向了一個(gè)新的高潮，也就是說(shuō)在開放域的聊天里，我們可以生成非常好的、自然的對(duì)話。

在對(duì)話系統(tǒng)的發(fā)展歷程中，我認(rèn)為有一些比較重要的事件，比如 Alexa 大獎(jiǎng)賽，2017 年第一屆、2018 年第二屆以及 2019 年第三屆。大獎(jiǎng)賽對(duì)于對(duì)話系統(tǒng)的技術(shù)研究和推動(dòng)具有非常顯著的作用。我們可以看到在這幾屆大獎(jiǎng)賽上，最好的對(duì)話系統(tǒng)能達(dá)到什么樣的水平呢？它們能夠通過(guò)人工評(píng)價(jià)的分?jǐn)?shù)大概是 3.1 分，能夠跟用戶持續(xù)地聊上十分鐘。應(yīng)該來(lái)說(shuō)，這是一個(gè)非常了不起的成就。

剛才我們所說(shuō)的 Google Meena 對(duì)話系統(tǒng)，它是一個(gè)超大規(guī)模的模型，使用了約 26 億的參數(shù)，約 400 億詞的對(duì)話數(shù)據(jù)去訓(xùn)練，并且在 TPU 上訓(xùn)練了約 30 天的時(shí)間。Meena 對(duì)話系統(tǒng)的效果怎么樣呢？它可以生成非常自然的對(duì)話，比如說(shuō)在下面一個(gè)例子里，Meena 說(shuō)「牛很聰明，都去 Hayvard 了」。通過(guò) Harvard 和 Hayvard 這個(gè)諧音雙關(guān)，現(xiàn)在的這種大規(guī)模對(duì)話模型可以產(chǎn)生比較自然，甚至讓用戶代入感很強(qiáng)的、類似笑話的對(duì)話。

我們?cè)賮?lái)看 2020 年 FAIR 推出的 Blender，它的參數(shù)規(guī)模最大的版本約是 94 億，使用的數(shù)據(jù)也相當(dāng)驚人。它用了約 8880 億個(gè)文本 token 訓(xùn)練這樣一個(gè)模型，同時(shí)綜合了各種技能，比方個(gè)性的嵌入、知識(shí)的賦值以及共情。所以，Blender 是一個(gè)具有混合技能的對(duì)話系統(tǒng)，也可以產(chǎn)生非常自然的對(duì)話。

當(dāng)前兩種主要的對(duì)話系統(tǒng)

當(dāng)前對(duì)話系統(tǒng)可以總結(jié)為以下兩種類型，第一種叫任務(wù)導(dǎo)向型的對(duì)話系統(tǒng)，也就是通常意義上所說(shuō)的手機(jī)助理；第二種叫開放域的對(duì)話系統(tǒng)，也就是我們通常意義上所說(shuō)的聊天機(jī)器人。

在第一種任務(wù)型的對(duì)話系統(tǒng)中，我們通常會(huì)有一些流水線的處理方法。如上圖（左）所示，用戶講了一句話「你能不能幫我找一個(gè)中餐館」，這個(gè)時(shí)候我們就要經(jīng)過(guò)自然語(yǔ)言處理模塊，把這句話分析成一個(gè)結(jié)構(gòu)化的意圖，這里的意圖應(yīng)當(dāng)是為說(shuō)話人提供信息，這里需要一些語(yǔ)義理解能力。接下來(lái)要做的是對(duì)話狀態(tài)跟蹤和對(duì)話策略學(xué)習(xí)，這個(gè)模塊是為了管理對(duì)話過(guò)程中的一些對(duì)話狀態(tài)和相應(yīng)的一些變量，使得我們這個(gè)系統(tǒng)能夠知道當(dāng)前所處的是什么狀態(tài)，以及接下來(lái)應(yīng)該往哪個(gè)方向去走。在對(duì)話策略模塊，我們會(huì)預(yù)測(cè)出來(lái)它相應(yīng)的結(jié)構(gòu)化意圖，它會(huì)通過(guò)自然語(yǔ)言生成模塊轉(zhuǎn)換為一個(gè)自然語(yǔ)句，這里就是「Where do you want to eat?」這樣一句話，然后進(jìn)行用戶的交互。經(jīng)過(guò)反復(fù)的交互和迭代，我們的對(duì)話系統(tǒng)就能夠完成相應(yīng)的任務(wù)和功能。

另一種就是所謂的開放域?qū)υ捪到y(tǒng)。在這類對(duì)話系統(tǒng)中，我們通常采用一種端到端架構(gòu)，就是說(shuō)我們開始是有對(duì)話的上文，如上圖（右）給了三句話，其中用戶說(shuō)了一句話，然后機(jī)器說(shuō)了一句話，用戶又說(shuō)了一句話，這個(gè)時(shí)候我們要決定機(jī)器到底該說(shuō)什么。經(jīng)過(guò)編碼器之后，我們會(huì)再經(jīng)過(guò)解碼器，它可以把機(jī)器生成的一句話，一個(gè)詞一個(gè)詞地解碼出來(lái)。我們可以采用一些常用的神經(jīng)網(wǎng)絡(luò)架構(gòu)，比方說(shuō)循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）以及基于 Transformer 的神經(jīng)網(wǎng)絡(luò)架構(gòu)，去做這種端到端的神經(jīng)模型。

挑戰(zhàn)和不足

從上文講述的 Google Meena 和 FAIR Blender 這種對(duì)話系統(tǒng)中，我們可以看到基于現(xiàn)代大模型的對(duì)話系統(tǒng)已經(jīng)取得了令人驚嘆的效果，但依然面臨很多的挑戰(zhàn)和不足。

首先是語(yǔ)義理解的問(wèn)題，比如用戶講了一句「How large is your house？你家多大？」微軟小冰系統(tǒng)卻把它理解為「你多大？」一字之差，意義就差得非常遠(yuǎn)。

其次是個(gè)性身份一致性的問(wèn)題，比如用戶問(wèn)「你幾歲了？」小冰回答說(shuō)「我是 90 后」。用戶再問(wèn)「你是哪一年出生的？」小冰回答說(shuō)「75 年出生的」。所以，90 后、75 年這種前后個(gè)性和身份不一致，會(huì)產(chǎn)生比較重大的問(wèn)題。

Google Meena 對(duì)話系統(tǒng)也存在類似的問(wèn)題，比如用戶問(wèn)「你最喜歡的樂(lè)隊(duì)是什么？」Meena 回答說(shuō)「Avenged Sevenfold，七級(jí)煉獄」。接著用戶又問(wèn)「你最不喜歡的樂(lè)隊(duì)是什么？」Meena 依然回答說(shuō)「Avenged Sevenfold」。這就會(huì)給用戶造成非常大的困擾。

再來(lái)看 Meena 的另外一個(gè)例子。Meena 先說(shuō)「新的一年想要學(xué)習(xí)廣東話和法語(yǔ)」，后面又說(shuō)「已經(jīng)基本熟悉廣東話并且已經(jīng)在學(xué)校學(xué)習(xí)法語(yǔ)了」。這種前后不一致很容易給用戶造成困擾，也很難贏得用戶信任。

因此，與對(duì)話系統(tǒng)進(jìn)行深入的交流和探討非常困難。

對(duì)話系統(tǒng)還可能會(huì)產(chǎn)生比較嚴(yán)重的社會(huì)倫理和道德問(wèn)題。以蘋果語(yǔ)音助手 Siri 為例，用戶跟 Siri 說(shuō)「I want to sleep and never wake up」，這大概是隱晦地表示自己想自殺。但 Siri 理解不了，它找到一些相應(yīng)的賓館，給出了距離，并回答說(shuō)「remind me to kill myself tomorrow」。Siri 以為是要給用戶設(shè)定一個(gè)提醒鬧鐘，那么這種情況就會(huì)產(chǎn)生非常嚴(yán)重的社會(huì)倫理問(wèn)題。

總的來(lái)說(shuō)，當(dāng)前的對(duì)話系統(tǒng)面臨三個(gè)問(wèn)題，第一個(gè)是語(yǔ)義性的問(wèn)題，第二個(gè)是一致性的問(wèn)題，第三個(gè)是交互性的問(wèn)題。對(duì)于語(yǔ)義性問(wèn)題，我們希望對(duì)話系統(tǒng)能夠理解內(nèi)容（content）、文本（context）和場(chǎng)景（scene）；對(duì)于一致性問(wèn)題，我們希望對(duì)話系統(tǒng)能夠產(chǎn)生與個(gè)性和身份一致的對(duì)話；對(duì)于交互性問(wèn)題，我們希望對(duì)話系統(tǒng)與用戶進(jìn)行情感、情緒上的交流，然后綜合運(yùn)用這種行為策略，實(shí)現(xiàn)交互性很強(qiáng)的對(duì)話。

下一代對(duì)話系統(tǒng)——社交機(jī)器人

聊完了當(dāng)前兩種主要的對(duì)話系統(tǒng)以及面臨的一些問(wèn)題和不足，那么下一代對(duì)話系統(tǒng)應(yīng)該具備什么樣的能力呢？我把它總結(jié)為社交機(jī)器人（social chatbot）。一方面要具有 IQ，即能夠幫助用戶做任務(wù)、做問(wèn)答和做推薦。另一方面希望它具有 EQ，即所謂情商，比如能夠理解情感情緒，能夠共情，能夠?qū)崿F(xiàn)深入的社交互動(dòng)。

我們先來(lái)看兩個(gè)維度：完成任務(wù)的能力和社交連接（social connection）能力。與任務(wù)導(dǎo)向型和聊天機(jī)器人相比，任務(wù)導(dǎo)向型對(duì)話系統(tǒng)具有很強(qiáng)的任務(wù)完成能力，但是社交能力比較低；而對(duì)于聊天機(jī)器人來(lái)講，它的主要目標(biāo)是社交，任務(wù)完成能力比較低。因此，下一代對(duì)話系統(tǒng)應(yīng)該是同時(shí)具備很強(qiáng)的任務(wù)完成能力和社交連接能力。

不同對(duì)話系統(tǒng)的技術(shù)處理和實(shí)現(xiàn)思路也是不一樣的。任務(wù)導(dǎo)向型對(duì)話系統(tǒng)具有很強(qiáng)的語(yǔ)義能力，所以需要去做實(shí)體識(shí)別、意圖理解、語(yǔ)義分析以及填槽等能力。對(duì)于開放性的聊天機(jī)器人，我們注重弱語(yǔ)義處理的能力，包括利用數(shù)據(jù)驅(qū)動(dòng)、端到端系統(tǒng)，更多是用當(dāng)前的深度學(xué)習(xí)模型以及大規(guī)模神經(jīng)網(wǎng)絡(luò)模型去做。因此，在未來(lái)構(gòu)建下一代對(duì)話系統(tǒng)時(shí)，我們希望能夠把強(qiáng)語(yǔ)義對(duì)話系統(tǒng)和弱語(yǔ)義對(duì)話系統(tǒng)的方法結(jié)合起來(lái)。

信息、社交、情感需求缺一不可

總的來(lái)說(shuō)，下一代對(duì)話系統(tǒng)應(yīng)該具備兩方面的能力，其一滿足用戶的信息需求，其二滿足用戶的社交需求。我們需要綜合運(yùn)用多種技能，并且在多種場(chǎng)景和領(lǐng)域中都能夠發(fā)揮作用。

我們可以用三句話來(lái)概括，第一句話「有知識(shí)，言之有物」，第二句「有個(gè)性，能夠?qū)崿F(xiàn)擬人化」，第三句話「在情感上有情感、有溫度，能夠做一些精細(xì)的情感類任務(wù)」。

首先來(lái)看第一個(gè)方面——知識(shí)賦值。比如在這個(gè)對(duì)話示例中，我們討論的是一個(gè)關(guān)于歌手汪峰的主題。在這個(gè)主題里，我們涉及到汪峰的歌《飛得更高》，這首歌入選了中歌榜中國(guó)年度最受華人歡迎十大金曲以及它所發(fā)布的日期和作者?？梢钥吹?，在這樣的對(duì)話過(guò)程中，我們需要對(duì)應(yīng)到一個(gè)嚴(yán)格的知識(shí)圖譜。知識(shí)圖譜使得我們的對(duì)話過(guò)程言之有物，而不是在那里空聊和閑聊。這實(shí)際上就是這個(gè)方向的代表性工作。

又比如下圖示例中，用戶說(shuō)「I have asthma since three years old. 我從三歲起就得了哮喘」。如果我們能把 asthma 關(guān)聯(lián)到右邊的知識(shí)圖譜上，就可以把這個(gè)知識(shí)圖譜用圖嵌入（graph embedding）的方法，去做知識(shí)感知的編碼。接著在解碼階段，我們可以用圖注意力（graph attention），通過(guò)動(dòng)態(tài)注意力機(jī)制，去做知識(shí)感知的解碼。經(jīng)過(guò)這樣的處理，實(shí)現(xiàn)一定程度的理解，這樣我們生產(chǎn)的內(nèi)容就能夠更加言之有物，更加有信息量。

第二個(gè)方面則希望對(duì)話系統(tǒng)能夠有個(gè)性，要有固定的人設(shè)和身份。從心理學(xué)的研究可以知道，個(gè)性（personality）是一個(gè)研究得非常深入的概念，在游戲、客服以及虛擬智能體上都有非常重要的作用。如果一個(gè)智能系統(tǒng)能夠體現(xiàn)一致的個(gè)性，則這個(gè)系統(tǒng)更值得信任，能夠進(jìn)行有效的社交交互。

個(gè)性又可以分成兩種，一種叫外在的 persona，另一種叫內(nèi)在的 personality。上文的 90 后、75 年這樣的示例，就是在對(duì)話的過(guò)程中缺乏一致的身份和個(gè)性，使得對(duì)話系統(tǒng)在對(duì)話的過(guò)程中難以取得用戶的信任，因此也就難以進(jìn)行有效的社交互動(dòng)。

如下圖（左）的微博對(duì)話示例，涉及到 Speaker A 和 Speaker B，它們都被賦予了固定的身份。Speaker A 是男性，地址北京，他有一些個(gè)人的偏好；Speaker B 是女性，地址哈爾濱，她也有自己的個(gè)人興趣等特定的標(biāo)簽。我們可以看到在對(duì)話過(guò)程中，Speaker A 是會(huì)很自然地、隱式地把自己的個(gè)性身份帶出來(lái)，比如「Beijing is really hot today. 北京今天很熱」，Speaker B 也說(shuō)了「come to Harbin. 來(lái)哈爾濱」這樣的一些描述。

不僅如此，個(gè)性身份還有更高級(jí)的，比如一個(gè)人說(shuō)話的風(fēng)格，這也是個(gè)性的一方面。在說(shuō)話風(fēng)格的研究中，我們發(fā)現(xiàn)對(duì)話可以實(shí)現(xiàn)正式與非正式互相之間的轉(zhuǎn)換，以及禮貌和非禮貌之間的轉(zhuǎn)換。更有趣的是，我們可以從現(xiàn)代文對(duì)話轉(zhuǎn)換到金庸風(fēng)格對(duì)話，比如輸入「好久沒(méi)吃火鍋了」，現(xiàn)代風(fēng)回答「我也想吃了」，金庸風(fēng)回答則是「不錯(cuò)，大俠餓了一天，現(xiàn)下先吃飯吧」。所以，如果我們能夠做出來(lái)這種智能對(duì)話系統(tǒng)的話，在一些特定的應(yīng)用場(chǎng)景中是非常有趣的，而且非常有價(jià)值。

第三個(gè)方面是如何實(shí)現(xiàn)對(duì)話系統(tǒng)中的共情和情感支持。我們知道在人類的智能行為里，情緒智能是一個(gè)非常重要的特點(diǎn)。如果對(duì)話系統(tǒng)能夠很好地去理解情感和情緒，不僅能提升用戶表現(xiàn)和用戶滿意度，還能更少地使對(duì)話陷入了僵局。

1997 年，MIT 教授 Picard 提出了情感計(jì)算的概念，指出「情感感知和情緒表達(dá)是人類智能行為中的重要特征」。我們組在很早就開始了這方面的研究，希望能夠讓對(duì)話系統(tǒng)能夠表達(dá)喜怒哀樂(lè)。具體而言，我們做了一個(gè)所謂的情緒化聊天機(jī)器人（Emotional Chatting Machine, ECM）系統(tǒng)。這個(gè)系統(tǒng)希望解決的是，當(dāng)指定一個(gè)情緒類別時(shí)，對(duì)話系統(tǒng)能不能生成對(duì)應(yīng)情緒類別的內(nèi)容。

但是這個(gè)工作還是比較簡(jiǎn)單，我們希望能夠做得更復(fù)雜一點(diǎn)，比如用對(duì)話系統(tǒng)能不能夠幫助解決一些精神健康問(wèn)題。2019 年世界衛(wèi)生組織曾經(jīng)披露了一些數(shù)據(jù)：「全球有 3.5 億抑郁癥患者，其中每年 80 萬(wàn)人因自殺死亡。中國(guó)有 9500 萬(wàn)抑郁癥患者?！惯@個(gè)數(shù)字非常驚人。2017 年，中國(guó)社科院發(fā)布了一份《中國(guó)國(guó)民心理健康發(fā)展報(bào)告（2018-2018）》，其中 11~15% 的國(guó)民心理健康狀況較差，35.2% 公務(wù)員處于中高等心理焦慮水平。我們可以看到，國(guó)人的心理健康問(wèn)題是非常嚴(yán)重的。

所以我們就想，對(duì)話系統(tǒng)到底能不能幫我們實(shí)現(xiàn)情緒的疏導(dǎo)或者心理的疏導(dǎo)呢？我們借鑒心理咨詢的共情對(duì)話系統(tǒng)，研究出了一個(gè)三階段理論模型。第一階段先確認(rèn)用戶到底有怎樣的情緒問(wèn)題，第二階段我們希望給予用戶足夠的支持，第三個(gè)階段我們希望能夠提供一個(gè)解決方案。

在每一個(gè)階段我們都可以提供豐富的策略，比如第三個(gè)階段，我們可以提供信息，直接指導(dǎo)，也可以挑戰(zhàn)他，給他解釋。通過(guò)這些策略，我們就能夠很好地去實(shí)現(xiàn)一定程度上的情緒疏導(dǎo)和心理疏導(dǎo)，這樣才能幫助到更多的人。

我們今年做了一個(gè)工作，核心是試圖去回答用戶到底處于什么狀態(tài)，以及使用哪一個(gè)策略去疏導(dǎo)和幫助用戶，這就是我們希望去解決的科學(xué)問(wèn)題。我們通過(guò)網(wǎng)絡(luò)眾包的方式收集了大量的數(shù)據(jù)，并且建立了相應(yīng)的模型。最后我們驗(yàn)證表明，現(xiàn)有的對(duì)話系統(tǒng)能夠在一定程度上去做這種情緒支持和情緒疏導(dǎo)的工作。

比如下圖示例中，用戶有很強(qiáng)的壓力感，處于情緒（emotion）焦慮的狀態(tài)「他現(xiàn)在的學(xué)校關(guān)閉了，沒(méi)有辦法上學(xué)了」。在這個(gè)過(guò)程中，怎么樣幫用戶去疏導(dǎo)情緒緊張的狀態(tài)呢？我們會(huì)有不同的階段，然后在每一個(gè)階段有豐富的策略。

我們?cè)賮?lái)思考這樣一個(gè)問(wèn)題——emotional sophisticated，這個(gè)詞實(shí)際上是有很深的意義的。我的理解是，在外在上，我們需要對(duì)用戶和情感進(jìn)行精細(xì)和準(zhǔn)確的檢測(cè)；在內(nèi)在上，我們需要對(duì)用戶情感的內(nèi)部狀態(tài)進(jìn)行建模。尤其是在第二點(diǎn)，現(xiàn)在的研究還非常欠缺。

強(qiáng)語(yǔ)義方法和端到端方法的結(jié)合至關(guān)重要

最后，我們來(lái)看當(dāng)前預(yù)訓(xùn)練模型的發(fā)展趨勢(shì)，這個(gè)趨勢(shì)對(duì)我們今天的對(duì)話系統(tǒng)的研究有非常深的啟示。從最早的 1.1 億參數(shù)量的 BERT 到 1750 億參數(shù)量的 GPT-3。從數(shù)據(jù)層面看，BERT 最早用了 33 億的詞來(lái)訓(xùn)練數(shù)據(jù)，GPT-3 用了 5000 億的詞來(lái)訓(xùn)練模型。無(wú)論是模型和數(shù)據(jù)，它們?cè)诖笮∩隙际菐缀伪稊?shù)的增長(zhǎng)。

Google Meena 和 FAIR Blender 也都是幾十億級(jí)別的參數(shù)規(guī)模。那么接下來(lái)對(duì)話系統(tǒng)的研究應(yīng)該往哪個(gè)方向走，這是值得我們深入思考的一個(gè)問(wèn)題。

總結(jié)來(lái)說(shuō)，當(dāng)前的大模型和大數(shù)據(jù)肯定是一個(gè)無(wú)法逆轉(zhuǎn)的研究趨勢(shì)和潮流，但是僅僅有數(shù)據(jù)驅(qū)動(dòng)的方法還不夠，尤其是構(gòu)建有知識(shí)、有個(gè)性和有情感的下一代對(duì)話系統(tǒng)，更是遠(yuǎn)遠(yuǎn)不夠。

所以，我的研究思想就是，要將強(qiáng)語(yǔ)義的方法和端到端對(duì)話系統(tǒng)和模型結(jié)合起來(lái)，這是實(shí)現(xiàn)下一代對(duì)話系統(tǒng)的一條核心路徑，通過(guò)這樣方法，我們才能讓對(duì)話系統(tǒng)「理解」意圖、話題、情感和實(shí)體等等——這里的「理解」之所以打引號(hào)，是因?yàn)槲覀冎览斫馐欠植煌瑢哟蔚?，同時(shí)也有不同的定義。

這就是我今天的演講內(nèi)容。最近我們也寫了一本新書《現(xiàn)代自然語(yǔ)言生成》，感興趣的老師和同學(xué)可以看一看。謝謝大家。

張?jiān)溃洪_放領(lǐng)域?qū)υ挼奶魬?zhàn)思索

大家好，我是西湖大學(xué)的張?jiān)?。在這期演講里，我會(huì)繼續(xù)黃民烈老師的話題，談?wù)撊藱C(jī)對(duì)話系統(tǒng)。

黃老師已經(jīng)討論了人機(jī)對(duì)話系統(tǒng)的發(fā)展歷史和光明的前景。那么在這一期我想給大家分享一些挑戰(zhàn)的思考，分享主題是《開放領(lǐng)域?qū)υ挼奶魬?zhàn)思索》。

大家都知道現(xiàn)在的對(duì)話系統(tǒng)雖然有很多應(yīng)用了，但是在許多場(chǎng)景下還有令人不滿意的地方，那這些令人不滿意的地方的原因是什么呢？具體的挑戰(zhàn)有哪些呢？

在本次演講中，我主要為大家梳理了以下三個(gè)方面的挑戰(zhàn)，包括跨領(lǐng)域可拓展性、社會(huì)常識(shí)推理和邏輯推理。

我們也是通過(guò)西湖大學(xué)文本智能實(shí)驗(yàn)室的一些研究來(lái)給大家展現(xiàn)。

跨領(lǐng)域可拓展性

首先第一個(gè)挑戰(zhàn)在于開放領(lǐng)域任務(wù)型對(duì)話的一些挑戰(zhàn)。

大家請(qǐng)看下面這張幻燈片，對(duì)于任務(wù)型對(duì)話來(lái)說(shuō)，我們首先需要理解用戶的意圖。比如說(shuō)用戶在訂餐的時(shí)候，我們用戶的意圖是預(yù)定某家餐館。它的具體意圖可能還有很多的選項(xiàng)，比如說(shuō)我要預(yù)定的人數(shù)是多少？我要預(yù)定的時(shí)間是多少？

主要意圖和選項(xiàng)就構(gòu)成了一種結(jié)構(gòu)，我們叫做對(duì)話狀態(tài)結(jié)構(gòu)。在人機(jī)自動(dòng)客服里面，這種對(duì)話狀態(tài)結(jié)構(gòu)的理解和追蹤，就成為了一個(gè)非常重要的任務(wù)。

現(xiàn)在大家可能有所了解，深度學(xué)習(xí)對(duì)人機(jī)對(duì)話系統(tǒng)是非常重要的手段。

如果我們要做用戶的意圖理解，就需要人工對(duì)可能用戶意圖先進(jìn)行標(biāo)注。就拿上面舉的例子來(lái)講，如果用戶說(shuō)我想定今晚 6 點(diǎn)三個(gè)人的晚餐的話，可能我們需要標(biāo)注人員首先在這句話上標(biāo)出來(lái)：下午 6 點(diǎn)是時(shí)間，三個(gè)人的晚餐是人數(shù)。

對(duì)于訂餐我們需要這樣標(biāo)注，對(duì)于機(jī)票預(yù)定、家裝、建材和教育各個(gè)領(lǐng)域也需要這樣的標(biāo)注。

在我們學(xué)術(shù)界，已有的研究都是在這些標(biāo)注的數(shù)據(jù)集上進(jìn)行的。我們首先拿出一個(gè)對(duì)話記錄，人工進(jìn)行標(biāo)注，從人工標(biāo)注的基礎(chǔ)上去訓(xùn)練一個(gè)模型，然后再用這樣的模型去對(duì)新的類似任務(wù)的對(duì)話進(jìn)行預(yù)測(cè)。這樣做的好處是對(duì)于某一個(gè)任務(wù)的準(zhǔn)確率是非常高的。事實(shí)上對(duì)話系統(tǒng)已經(jīng)幫助人們?nèi)プ鰴C(jī)票預(yù)訂等這樣垂直領(lǐng)域的任務(wù)了。

但是我們也看到，這樣的操作模式還是存在一定的局限。

首先一個(gè)局限就是人工標(biāo)注成本昂貴，而且非常容易出錯(cuò)。事實(shí)上這個(gè)領(lǐng)域有一個(gè)非常重要的數(shù)據(jù)集叫 MultiWOZ，通過(guò)一種特定的方式讓人來(lái)標(biāo)注對(duì)話的狀態(tài)。在這個(gè)數(shù)據(jù)集的演變過(guò)程中，很多個(gè)版本都存在著大量的錯(cuò)誤。新的版本對(duì)舊的版本的迭代，也包含了對(duì)錯(cuò)誤的修正的過(guò)程。

事實(shí)上需要自動(dòng)人機(jī)對(duì)話的領(lǐng)域是非常多的，所以另外一個(gè)非常重要的局限就是我們很難對(duì)每一個(gè)領(lǐng)域都進(jìn)行人工標(biāo)注。除了大家能日常用到的網(wǎng)購(gòu)、預(yù)定、客服退換貨，還能想到很多其他的領(lǐng)域。那么這樣的領(lǐng)域可能成千上萬(wàn)，如果手工標(biāo)注各個(gè)領(lǐng)域大量的這種數(shù)據(jù)是不現(xiàn)實(shí)的。

那么怎么做呢？我們實(shí)驗(yàn)室嘗試了一個(gè)非常簡(jiǎn)單的探索：看能不能從大量沒(méi)人工標(biāo)注的客服記錄里面，讓算法自動(dòng)探索常見(jiàn)的客戶問(wèn)題，讓系統(tǒng)自動(dòng)推理出特定領(lǐng)域的用戶需求。我們把這個(gè)任務(wù)叫對(duì)話狀態(tài)推理。

對(duì)話狀態(tài)推理和對(duì)話狀態(tài)跟蹤，這兩個(gè)任務(wù)是非常不一樣的。

在推理任務(wù)里，我們不需要人的參與。不需要人告訴你預(yù)定一個(gè)餐館需要確定人數(shù)與時(shí)間。而如果大量的客戶都問(wèn)了類似的問(wèn)題，也許我們的系統(tǒng)就可以知道預(yù)定餐館需要人數(shù)和時(shí)間了。

我們做這個(gè)算法的原理也非常簡(jiǎn)單，就是把用戶經(jīng)常提到的短語(yǔ)語(yǔ)義共性進(jìn)行簡(jiǎn)單的聚類，或者把它們變成某一個(gè)層次，歸結(jié)為一項(xiàng)具體的用戶意圖。

作為初步的探索，我們嘗試了一些深度隱變量模型，比如變分自編碼器。由于時(shí)間關(guān)系，在這次報(bào)告里，我沒(méi)有時(shí)間展開給大家講。但基本原理就是通過(guò)一個(gè)預(yù)訓(xùn)練語(yǔ)言模型，對(duì)可能存在的命名實(shí)體和可能跟用戶意圖相關(guān)的短語(yǔ)進(jìn)行表示，之后把這些表示放在一起，進(jìn)行變分自編碼器的訓(xùn)練。訓(xùn)練以后，對(duì)這些隱含變量的表示進(jìn)行適當(dāng)聚類，得到大概用戶意圖類別和層次化的用戶意圖。

下表是一些實(shí)驗(yàn)結(jié)果，這是兩個(gè)非常標(biāo)準(zhǔn)的數(shù)據(jù)集。

我們把這兩個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集里面的人工標(biāo)注給去掉，然后觀察我們的模型是不是能自動(dòng)的推斷出來(lái)用戶的意圖。

第一行是一些隨機(jī)的結(jié)果，數(shù)值比較差。第二行和第三行是深度隱變量模型的不同變體，其中 DSI-base 模型是基線 VAE 模型，DSI-GM 模型是高斯混合模型的延展。

大家可以看到，如果在開放領(lǐng)域?qū)τ脩粢鈭D進(jìn)行推斷的話，還是非常有挑戰(zhàn)的。每一步的推斷模型和多步聯(lián)合的 joint 模型，都比百分之八九十有監(jiān)督訓(xùn)練的結(jié)果差得很遠(yuǎn)。如果我們能從大量的客服記錄里推斷出用戶意圖，也許它能夠幫助我們更好地與用戶進(jìn)行對(duì)話。

下面這一張幻燈片就展示了加入推斷的用戶意圖以后，客服對(duì)話的回復(fù)質(zhì)量有明顯的提高。

其中假如我們的模型不加入推斷出來(lái)的用戶意圖，這些精度值可能是十幾，加入了黃金標(biāo)準(zhǔn)的推斷可能提高到二十一點(diǎn)幾。但是大家注意，經(jīng)過(guò)自動(dòng)的推斷，也可以達(dá)到 20 多，這就證明推斷對(duì)話狀態(tài)結(jié)構(gòu)比沒(méi)有對(duì)話狀態(tài)結(jié)構(gòu)產(chǎn)生的回復(fù)質(zhì)量更高。

這項(xiàng)工作我們實(shí)際上是探討了開放領(lǐng)域情境下算法如何理解用戶意圖以及具體的一些標(biāo)準(zhǔn)。下一步我們也在探索如何把有限的人工標(biāo)注或者用自然語(yǔ)言所產(chǎn)生的人工標(biāo)注，加到完全無(wú)監(jiān)督訓(xùn)練里，真正實(shí)現(xiàn)在任何領(lǐng)域里更好地理解客戶意圖。我們也期待大家一起去探索。

社會(huì)常識(shí)推理

如果上面這一項(xiàng)工作是在解決任務(wù)型對(duì)話挑戰(zhàn)，那么下面幾個(gè)挑戰(zhàn)存在于更普遍的對(duì)話之中。

我們知道人和人的交流，很多東西是在不言之中。因?yàn)槲覀兘涣鞯囊粋€(gè)基本假設(shè)是交流的雙方具有共同的知識(shí)，共同的背景。比如我們聊天的時(shí)候談?wù)撎鞖?，我并不需要告訴你，天上有云彩、太陽(yáng)和月亮這些事實(shí)，我會(huì)默認(rèn)你理解這些事實(shí)。

再舉一個(gè)例子，比如我們交談的時(shí)候，一個(gè)人說(shuō)我現(xiàn)在很渴，另一個(gè)人說(shuō)前面有個(gè)超市。實(shí)際上雙方是有很多假設(shè)的。第一個(gè)人可以理解第二個(gè)人說(shuō)的話，第二個(gè)人實(shí)際上是在試圖給第一個(gè)人解決問(wèn)題。為什么呢？因?yàn)殡p方都知道喝水可以解渴、超市可以買水。經(jīng)過(guò)這樣邏輯鏈條的推理過(guò)程，我們就知道第二個(gè)人的意圖是給第一個(gè)人解決口渴的問(wèn)題。

大家可以看看下圖的例子，這是一個(gè)餐館里發(fā)生的對(duì)話。這個(gè)餐廳的人員說(shuō)，「你是不是很享受我們今天的晚餐？」顧客說(shuō)，「很難將所有的家人帶過(guò)來(lái)，但是你們的餐廳很棒，同時(shí) Johnny 也有地方玩。」當(dāng)你聽(tīng)到這句話的時(shí)候，你一定知道 Johnny 大概是這個(gè)人的小孩，并且下一步的對(duì)話很可能建立在這些常識(shí)和推理的理解之上。

這些是在不言之中，文字之外的內(nèi)容。如果想讓機(jī)器自然、合理的理解人類的這些對(duì)話，需要機(jī)器也具有這些對(duì)話之外的常識(shí)和推理。

我們制作了一個(gè)這樣的數(shù)據(jù)集，這個(gè)數(shù)據(jù)集很多來(lái)源于高考聽(tīng)力題。我們發(fā)現(xiàn)這樣的數(shù)據(jù)，它含有大量的社會(huì)常識(shí)和推理。

我們把高考聽(tīng)力題轉(zhuǎn)錄下來(lái)，然后把標(biāo)準(zhǔn)答案通過(guò)自動(dòng)圖像識(shí)別的方式識(shí)別出來(lái)，最后將其變成人機(jī)對(duì)話里面的對(duì)話場(chǎng)景。給定一個(gè)對(duì)話上下文，我們會(huì)讓機(jī)器去選擇在這樣一個(gè)對(duì)話上下文的情況下，下一個(gè)合理的回復(fù)是什么？

這套數(shù)據(jù)集一共有不到 9000 個(gè)對(duì)話，實(shí)際上考察了幾大類型的社會(huì)常識(shí)和推理問(wèn)題。

第一個(gè)類型是人類的態(tài)度、情感因素的推理。比如有這樣一類對(duì)話。

對(duì)話里面一個(gè)人提到「我不能在這待很久了，因?yàn)槲乙惗嘏e辦一個(gè)音樂(lè)會(huì)?！鼓敲戳硗庖粋€(gè)人就說(shuō)「我很期待你的音樂(lè)會(huì)。我可不可以問(wèn)一下，你第一次當(dāng)眾表演的時(shí)候感受是什么呢？」然后第一個(gè)人就說(shuō)「我第一次上臺(tái)，我的腿不停的發(fā)抖，我都快站不住了?！鼓敲吹诙€(gè)人會(huì)說(shuō)什么呢？

當(dāng)你聽(tīng)到腿發(fā)抖這件事的時(shí)候，你會(huì)明白他的心理狀態(tài)到底是緊張、高興、還是失望。實(shí)際上對(duì)話里面下一個(gè)選項(xiàng)就包含了這些不同的情感因素。如果機(jī)器能夠正確地理解背后的情感，就能夠做出正確的選擇，也就是「實(shí)際上是我能想象你當(dāng)時(shí)有多緊張?！?/p>

第二類問(wèn)題是關(guān)于數(shù)學(xué)演算的推理問(wèn)題，比如時(shí)差問(wèn)題。

我知道北京時(shí)間，知道紐約和北京相差幾個(gè)小時(shí)，我能不能推理紐約是什么時(shí)間？這對(duì)于開國(guó)際線上會(huì)議是非常重要的，我需要知道我的時(shí)間和對(duì)方的時(shí)間，才能正確的預(yù)判這個(gè)時(shí)間是不是對(duì)雙方都合適。

另外在日常生活對(duì)話中，還有很多關(guān)于價(jià)格的預(yù)判，關(guān)于人數(shù)、比分的預(yù)判。比如說(shuō)我買了一個(gè)蘋果和三個(gè)梨：一個(gè)蘋果兩塊錢，一個(gè)梨一塊錢，那么我大概花多少錢？你需要找給我多少錢？這些都是日常生活對(duì)話中所必不可少的數(shù)學(xué)常識(shí)問(wèn)題。

第三類問(wèn)題是關(guān)于生活中決策所需要的常識(shí)。

比如說(shuō)對(duì)于一個(gè)學(xué)生來(lái)講，他苦于沒(méi)有獎(jiǎng)學(xué)金，可能不能繼續(xù)學(xué)業(yè)了。如下面這個(gè)對(duì)話。

當(dāng)我知道下一步你有了獎(jiǎng)學(xué)金以后，正常的人會(huì)做出什么樣的選擇呢？我相信絕大多數(shù)人都會(huì)繼續(xù)學(xué)業(yè)。

當(dāng)然也有少數(shù)人會(huì)輟學(xué)去創(chuàng)業(yè)，但是你需要知道有怎樣的常識(shí)，才能推斷出「你退學(xué)創(chuàng)業(yè)了，你會(huì)很有勇氣」。

下面這個(gè)例子是對(duì)雙方對(duì)話場(chǎng)景需要做社會(huì)常識(shí)判斷。

在這個(gè)例子里面，顧客說(shuō)我想要一個(gè)吸煙的桌子。這個(gè)時(shí)候客服人員說(shuō)對(duì)不起，我們這兒沒(méi)有能吸煙的桌子了。為了正確做下一步答復(fù)，我應(yīng)該去判斷對(duì)話的場(chǎng)景可能發(fā)生的地方，可能發(fā)生在公共汽車、醫(yī)院里等。在下一步對(duì)話里，就包含了這些場(chǎng)景。大家都知道在公共交通，包括乘坐高鐵、飛機(jī)、公交的時(shí)候都是不能吸煙的，所以要有吸煙的桌子，很可能是在餐廳里面。那么正確的下一步回復(fù)也許就是說(shuō)「 OK，請(qǐng)把你的菜單拿給我好了?！?/p>

還有一些綜合了很多社會(huì)常識(shí)的論斷，我們稱為多事實(shí)綜合決策推斷。

比如說(shuō)一個(gè)人參觀博物館，他站在博物館一個(gè)館藏面前，這時(shí)候博物館的管理員跟他說(shuō)，「我們當(dāng)時(shí)買館藏的時(shí)候只花了 3000 塊錢，但是現(xiàn)在館藏卻值 200 萬(wàn)了?！惯@時(shí)候顧客很高興說(shuō)，「我花了 30 美元買了這個(gè)票，我能夠參觀到這么價(jià)值不菲的展品?！惯@個(gè)時(shí)候博物館的管理員可能就會(huì)繼續(xù)對(duì)話去恭維一下顧客。大家知道，在博物館這樣的服務(wù)行業(yè)，當(dāng)顧客光臨的時(shí)候都會(huì)說(shuō)謝謝您的參觀。這里博物館管理員的答復(fù)用了一個(gè)非常委婉的方式，「hey 你看我們這價(jià)值 200 萬(wàn)的館藏，也很高興您的到來(lái)?！?/p>

它通過(guò)這樣語(yǔ)言的幽默或者間接的方式，既恭維了顧客，又把話題引到了感謝的話題上。

此外，這個(gè)數(shù)據(jù)集還選錄了我們認(rèn)為很有意義但卻不能歸為上述類別的一些推斷。比如說(shuō)雨天要帶傘、坐交通工具要付錢等等這些常識(shí)，被我們歸為其他類別。

在這樣一套數(shù)據(jù)集上，人類是可以做到很高水平的：90% 以上甚至超過(guò) 95% 的準(zhǔn)確率。但是，對(duì)于模型來(lái)講還存在一些挑戰(zhàn)。

上表中的 BERT 和 RoBERTa 是自然語(yǔ)言處理領(lǐng)域兩個(gè)非常經(jīng)典的預(yù)訓(xùn)練模型。它們之所以非常成功，是因?yàn)檫@些模型先在大規(guī)模的文本上做了完形填空或者句子補(bǔ)全任務(wù)。通過(guò)這些任務(wù)，這些深層神經(jīng)網(wǎng)絡(luò)就能學(xué)到很多語(yǔ)言學(xué)知識(shí)，然后再根據(jù)具體的某一個(gè)問(wèn)題，進(jìn)行類似題海戰(zhàn)術(shù)的死記硬背，最后這些模型就能夠達(dá)到接近或者超過(guò)人類的效果。這就是神經(jīng)網(wǎng)絡(luò)之所以在自然語(yǔ)言處理領(lǐng)域取得成功的原因。

但是大家也可以看到，這些模型召回率（R@1）只能達(dá)到 70% 多。這證明為了完成這些常識(shí)類型的對(duì)話，當(dāng)今的模型還存在很多的挑戰(zhàn)。

下圖是一些在具體不同社會(huì)常識(shí)類型方面的挑戰(zhàn)。

對(duì)于做數(shù)學(xué)題，我們這些模型還是存在問(wèn)題的。另外模型估計(jì)語(yǔ)言文字之外的場(chǎng)景的能力還是有一定的欠缺的。

事實(shí)上，模型之所以能工作，很大程度上還是從上下文里進(jìn)行簡(jiǎn)單的模式判斷。

在研究模式判斷之外，我們也受到很大的啟發(fā)。我們發(fā)現(xiàn)這些記憶型神經(jīng)網(wǎng)絡(luò)，對(duì)文字之外的知識(shí)還有缺陷。除了數(shù)學(xué)這樣的知識(shí)之外還有什么呢？邏輯推理，這也是人類所掌握而模型欠缺的一類能力。

說(shuō)起邏輯推理，實(shí)際人工智能領(lǐng)域關(guān)注且研究了很長(zhǎng)歷史了。

大家知道，在上世紀(jì)五六十年代，計(jì)算機(jī)科學(xué)方興未艾，這時(shí)候人工智能也剛剛受到關(guān)注，那個(gè)時(shí)候有一些學(xué)者就提到了語(yǔ)言推理。

所謂語(yǔ)言推理實(shí)際上就是在人類語(yǔ)言的理解中，需要進(jìn)行很多背后的邏輯推理問(wèn)題。比如剛才提到的口渴需要喝水，我知道超市有水，形成一個(gè)推理鏈條。這樣的推理過(guò)程在人工智能領(lǐng)域是不可或缺的一種能力。機(jī)器如果想具有人類的智能，是必須能夠完成這樣的推理任務(wù)的。

在人工智能發(fā)展的早期，人們研究了這種語(yǔ)言推理的問(wèn)題。但是很遺憾當(dāng)時(shí)自然語(yǔ)言處理的水平還比較弱，人類無(wú)法從自然語(yǔ)言里抽象出這種邏輯關(guān)系。

于是在六七十年代人工智能發(fā)展的繁榮時(shí)期，人們把對(duì)自然語(yǔ)言推理研究的注意力，逐漸轉(zhuǎn)向了比較抽象的形式邏輯的推理問(wèn)題。

當(dāng)時(shí)大家研究比較多的是 Prolog、Lisp 這樣的產(chǎn)生式系統(tǒng)，這種符號(hào)化的研究占據(jù)了當(dāng)時(shí)人工智能研究的很大比重。

我相信在當(dāng)今自然語(yǔ)言處理發(fā)展取得了長(zhǎng)足進(jìn)步的情況下，語(yǔ)言推理應(yīng)該受到更多的關(guān)注。

所以我們也想放出這個(gè)挑戰(zhàn)，看看 BERT、RoBERTa 等這類自然語(yǔ)言處理領(lǐng)域最成功的模型，能夠在自然語(yǔ)言推理上取得怎么樣的成績(jī)。

邏輯推理

邏輯推理挑戰(zhàn)主要圍繞自然語(yǔ)言處理研究最多的兩類數(shù)據(jù)進(jìn)行，其中一類叫做機(jī)器閱讀理解問(wèn)題，另一類叫做文本推理或者文本蘊(yùn)涵問(wèn)題。

機(jī)器閱讀理解問(wèn)題

首先是機(jī)器閱讀理解問(wèn)題。

所謂閱讀理解就是給定篇章與問(wèn)題，機(jī)器能不能回答這類問(wèn)題？這個(gè)任務(wù)在新一代搜索引擎上有很大的幫助。因?yàn)楝F(xiàn)在的搜索引擎是理解了文章以后，根據(jù)用戶檢索短語(yǔ)，反饋?zhàn)钕嚓P(guān)的文章。但將來(lái)的機(jī)器搜索引擎很可能是在讀懂了文章以后，根據(jù)一個(gè)開放式的問(wèn)題，直接給用戶一個(gè)答案，而不是反饋一個(gè)文章。

在自然語(yǔ)言處理領(lǐng)域，很多閱讀理解工作都是在考慮篇章的事實(shí)整合問(wèn)題，比如一個(gè)足球，之前在臥室里，后來(lái)被小男孩拿到花園，然后被拿到餐廳，最后問(wèn)足球在哪里的問(wèn)題。

那么機(jī)器在邏輯推理問(wèn)題上的表現(xiàn)如何呢？比如下面這個(gè)例子，最后你能推出什么樣的事實(shí)。

我們從中國(guó)公務(wù)員考試網(wǎng)題庫(kù)搜集了 8000 多個(gè)問(wèn)題，制作了 logiQA 數(shù)據(jù)集，與以往的機(jī)器閱讀理解問(wèn)題不同，該數(shù)據(jù)集專注于 5 類邏輯推理問(wèn)題：

第一類叫做范疇推理問(wèn)題。比如說(shuō)蠟筆具有什么樣的特征？我需要機(jī)器去歸結(jié)所有的這些特點(diǎn)，給定一個(gè)定義的范疇，然后進(jìn)行推理。

第二類推理是充分條件推理。比如有一個(gè)人說(shuō)如果明天不下雨，那么我就去爬山，然后我看到他爬山了，是不是一定就沒(méi)有下雨？這是屬于一種充要條件。

第三個(gè)是必要條件推理問(wèn)題。為了達(dá)到某個(gè)結(jié)論，必須具備某些條件，在這些條件下，去進(jìn)行推理、論斷、選擇。

第四個(gè)是選言推理。所謂選言推理就是說(shuō)當(dāng) a 或者 b 成立的時(shí)候，c 就可以成立；比如說(shuō)當(dāng)我吃了漢堡或者吃了面條以后，我都可能解決饑餓問(wèn)題，這是選言推理。

第五個(gè)是聯(lián)言推理。所謂聯(lián)言推理就是說(shuō)我必須及時(shí)的到了考場(chǎng)，而且我必須好好的復(fù)習(xí)了，才能夠順利的成功的進(jìn)行考試。是兩個(gè)條件都必須具備。

在這套推理題上，最成功的模型 BERT、 RoBERTa 表現(xiàn)可以說(shuō)是一敗涂地。

一個(gè)受過(guò)高等教育的人，做這類邏輯推理題可以說(shuō)是駕輕就熟，拿到 90% 以上的精確度。然而看這些模型，在隨機(jī)選擇選擇都有 25% 的準(zhǔn)確度下，模型確只有 30% 多的準(zhǔn)確度。

在所有的這些問(wèn)題里面，從上圖可以發(fā)現(xiàn)范疇推理模型的表現(xiàn)最好。這是因?yàn)榉懂犕评碓谖淖謱用嫔线€有很多線索可循，但是其他的推理問(wèn)題真正需要你腦洞大開，拿出草稿紙，在文字之外進(jìn)行演算，這樣的模型還是表現(xiàn)非常差的。

文本蘊(yùn)涵問(wèn)題

下面簡(jiǎn)要地介紹文本蘊(yùn)涵問(wèn)題。這個(gè)問(wèn)題在進(jìn)行事實(shí)檢測(cè)、文本總結(jié)等推斷問(wèn)題上都有很大的幫助。

如上圖，左邊例子是傳統(tǒng)的文本蘊(yùn)涵問(wèn)題。比如一個(gè)人在演講，那么他一定是在說(shuō)話，演講可以蘊(yùn)涵說(shuō)話，但是可能不能蘊(yùn)涵其他的問(wèn)題，比如這個(gè)人是否健談。

右邊是關(guān)于邏輯推理的問(wèn)題。假如有 10 個(gè) TV 節(jié)目在播放，經(jīng)過(guò)一段時(shí)間以后，有 3 個(gè)節(jié)目下線了，還剩 7 個(gè)在播放，7 個(gè)里面 5 個(gè)是同外節(jié)目，文另外會(huì)不會(huì)有其他節(jié)目還在播放？這類似雞兔同籠問(wèn)題的推理，就可以推斷哪些是對(duì)的，哪些是錯(cuò)的，哪些是你不知道的。

我們通過(guò)美國(guó)的很多邏輯考試整理出ConTRoL 數(shù)據(jù)集，與現(xiàn)有的文本蘊(yùn)涵數(shù)據(jù)集，有顯著的差別。如首先數(shù)據(jù)集段落比較長(zhǎng)，其次我們關(guān)注了邏輯推理的問(wèn)題。

這套數(shù)據(jù)集包含諸多的推理類型：上下文推斷的類型、時(shí)間推斷的類型、邏輯推斷的類型、信息整合的類型、事實(shí)性分析的類型。

由上圖可以看出，在我們的數(shù)據(jù)集上 BERT、BART 這類模型跟人類，還有顯著的差距。

上圖是不同的邏輯推理文本蘊(yùn)涵數(shù)據(jù)集，可以看到有的模型表現(xiàn)在一些數(shù)據(jù)集上已經(jīng)超過(guò)了人類表現(xiàn)。但對(duì)于 ConTRoL 數(shù)據(jù)集，SOTA 模型跟人類還有很大差距，還有很大的工作空間。

這個(gè)圖體現(xiàn)了在不同的推理類型中，邏輯推理還是最具有挑戰(zhàn)的問(wèn)題類型。

后面是幾個(gè)例子，因?yàn)闀r(shí)間關(guān)系我不展開介紹了。但是大家可以觀察到，現(xiàn)在最流行的模型之所以成功，還是從字面上找原因，并沒(méi)有分析文字之外的原因。

而且大家也可以看到我們的對(duì)話模型雖然取得了很大的成功，但是在開放領(lǐng)域還存在很多的挑戰(zhàn)，期待參賽選手和所有的同學(xué)們多思考，大家一起努力，繼續(xù)的提高對(duì)話系統(tǒng)的水平。

謝謝。

圓桌論壇：

智能機(jī)器人未來(lái)面臨技術(shù) & 倫理雙重難點(diǎn)

Q1：兩位老師認(rèn)為讓機(jī)器像人一樣自然流暢地說(shuō)話聊天可能嗎？

黃民烈：我認(rèn)為在一定的條件下應(yīng)該是可能的。這個(gè)問(wèn)題非常好，讓機(jī)器就像人一樣說(shuō)話，我認(rèn)為有三個(gè)不同的層次。

第一個(gè)層次是能夠像人一樣正常地說(shuō)話，能夠保持在一個(gè)正常的話題下，不要牛頭不對(duì)馬嘴。這樣的話，我們就要要求機(jī)器能夠真正地理解對(duì)方講的是什么，然后做出合適的答復(fù)。至少在內(nèi)容上和意圖上正常，這是第一個(gè)層次。

第二個(gè)層次我們講得更復(fù)雜一點(diǎn)。如果機(jī)器像人那樣充滿技巧且能夠體現(xiàn)高情商的，則可能需要專注于情感支持和心理疏導(dǎo)。在這種場(chǎng)景下，我們需要一些類人能力，這是第二個(gè)層次。

第三個(gè)層次機(jī)器還要能夠體現(xiàn)一定的個(gè)性和風(fēng)格。比如，我們能不能模擬出外向的人和內(nèi)向的人分別怎么說(shuō)話的，教授和學(xué)生分別怎么說(shuō)話的。這就體現(xiàn)了個(gè)性和風(fēng)格，甚至是心理學(xué)層面的建模。

很顯然，我認(rèn)為第一個(gè)層次在不遠(yuǎn)的未來(lái)應(yīng)該是能夠預(yù)期達(dá)到的。第二個(gè)層次的話，我們可能需要更多的努力。第三個(gè)層次肯定是最難的。

我認(rèn)為，下一代的對(duì)話系統(tǒng)在類人的水平上進(jìn)行所謂的擬人化特征的表達(dá)，真正從人的特征和行為上借鑒更多的這種特點(diǎn)，然后能夠去刻畫機(jī)器的行為。所以這也是我們下一代做這種自然語(yǔ)言處理研究，尤其是對(duì)話系統(tǒng)研究的一個(gè)很重要方面。

張?jiān)溃何曳浅Ｍ恻S老師的看法。我覺(jué)得人類對(duì)話事實(shí)上是一個(gè)非常綜合的語(yǔ)言過(guò)程。我們可以想象，人類最開始交流的時(shí)候沒(méi)有文字，那么交流實(shí)際上也是從對(duì)話開始的。比如說(shuō)「樹上有三個(gè)果子你可以去吃」，這一過(guò)程可能包含心理、認(rèn)知以及我們對(duì)世界的理解等諸多方面的內(nèi)容。

所以如果讓機(jī)器能夠和人類非常自然地交流和對(duì)話，真的需要各個(gè)方面的知識(shí)和技能。

總的來(lái)說(shuō)，機(jī)器能否學(xué)會(huì)跟人這樣非常自然的、密切的交流呢？我認(rèn)為還是非常有可能、非常有前景的。不過(guò)，對(duì)于現(xiàn)在的機(jī)器學(xué)習(xí)還存在挑戰(zhàn)，因?yàn)槲覀儸F(xiàn)在的機(jī)器學(xué)習(xí)，至少主流的機(jī)器學(xué)習(xí)方法還是以記憶為主。我們通過(guò)大量的神經(jīng)網(wǎng)絡(luò)在大規(guī)模的文本上進(jìn)行完形填空，句子補(bǔ)全等訓(xùn)練，能夠讓神經(jīng)網(wǎng)絡(luò)在一定程度上獲得文本里面至少表面上的句法語(yǔ)義和常識(shí)等知識(shí)。

但我覺(jué)得，如果讓機(jī)器徹底地能夠跟人類交流且無(wú)障礙溝通的話，可能還需要讓機(jī)器能夠主動(dòng)地學(xué)習(xí)，至少能夠挖掘?qū)υ掃^(guò)程中可能存在的問(wèn)題，或者說(shuō)對(duì)話過(guò)程中所需要的各方面知識(shí)。

我相信能夠主動(dòng)去學(xué)習(xí)的機(jī)器，可能會(huì)像一個(gè)主動(dòng)學(xué)習(xí)的人一樣，通過(guò)對(duì)話中的經(jīng)驗(yàn)，甚至對(duì)話之外的經(jīng)驗(yàn)來(lái)獲得自己的一套知識(shí)體系以及對(duì)語(yǔ)義信息、嘗試信息的理解。機(jī)器主動(dòng)地分析問(wèn)題，發(fā)現(xiàn)自己的不足，并且積累相關(guān)的能力。

因此，我覺(jué)得如果機(jī)器能夠進(jìn)行這樣的主動(dòng)學(xué)習(xí)，也許在將來(lái)每一個(gè)機(jī)器都是一個(gè)個(gè)性化的專家，每一個(gè)機(jī)器都能夠以自己的方式去跟人交流，就像每一個(gè)人一樣。到那一天，也許我們的機(jī)器就能夠更自然地跟人對(duì)話了，并能夠解決現(xiàn)在對(duì)話中存在的很多問(wèn)題了。

Q2：看來(lái)兩位老師對(duì)實(shí)現(xiàn)像人一樣說(shuō)話的機(jī)器都是充滿期望的。那么接下來(lái)的問(wèn)題就是，如果我們真的做出來(lái)了能夠跟人自然交流說(shuō)話的機(jī)器，它有哪些重大的價(jià)值和意義呢？

張?jiān)溃何矣X(jué)得這樣的機(jī)器如果能夠?qū)崿F(xiàn)的話，對(duì)我們來(lái)講是一件非常值得期待的事情，這是因?yàn)槲矣X(jué)得語(yǔ)言是人類進(jìn)行交流的非常自然、非常簡(jiǎn)單的一種方式。

首先，如果機(jī)器能夠跟人這樣交流的話，會(huì)省去人類和機(jī)器打交道的諸多麻煩。我能想象在古代或者工業(yè)革命時(shí)代，人可能會(huì)和齒輪打交道，會(huì)和基本的操作桿打交道。在我們的互聯(lián)網(wǎng)時(shí)代，人可能是和鍵盤鼠標(biāo)打交道，從不同的文本框、按鈕、多選框里選擇，去和機(jī)器去交流。或者在我們開車的時(shí)候，我們事實(shí)上還在和方向盤和踏板在打交道。

但是，如果說(shuō)機(jī)器能夠理解人類語(yǔ)言的話，我相信人類與機(jī)器、人工智能之間打交道的途徑就會(huì)變得非常的簡(jiǎn)單。在將來(lái)的 5G 時(shí)代甚至 6G 時(shí)代，我覺(jué)得物聯(lián)網(wǎng)也興起了，那么任何的機(jī)器可能都具備一定的智能，那么就可以很容易地跟我的冰箱進(jìn)行對(duì)話，看看我今天晚飯的飯桌上會(huì)有什么東西。我也可以很方便地和我的室溫控制系統(tǒng)打交道，去看看今天濕度和溫度的調(diào)節(jié)。我甚至可以和門禁系統(tǒng)打交道，也就是說(shuō)各個(gè)設(shè)備可以更人性化地為我服務(wù)，我和機(jī)器打交道的方式也可以變得更簡(jiǎn)便。實(shí)際上，這種交流的方式在現(xiàn)在的智能音箱上也有了一定的初步體驗(yàn)。

此外，在我們的娛樂(lè)系統(tǒng)上，我相信可能也會(huì)有更大的進(jìn)步。比如說(shuō)我們?cè)谡嬲挠螒驁?chǎng)景里面，會(huì)不會(huì)對(duì)各個(gè)游戲角色賦予更人性化的一面以及更靈活的能力。也許我們可以和柳樹下的老頭進(jìn)行更人性化的交流，在街道上和任何一個(gè) AI 進(jìn)行更多這種互動(dòng)。

總之，如果機(jī)器能以人的方式跟人交流的話，我們可以期待很多可以想象的前景，還是非常激動(dòng)人心的。

黃民烈：我的觀點(diǎn)是：這樣的研究是非常重要的。我們可以設(shè)想一下，當(dāng)前人口老齡化很嚴(yán)重，人口越來(lái)越少，然后機(jī)器越來(lái)越多，所以未來(lái)社會(huì)一定是人機(jī)共融的社會(huì)。

但是，人機(jī)共融的時(shí)候，我們希望這樣的機(jī)器，能夠在未來(lái)社會(huì)里扮演更重要的社會(huì)角色。這就要求它們不僅具備機(jī)器的功能，同時(shí)更重要的要具備類人的能力。類人的能力就是既要有知識(shí)，又有情感和個(gè)性。比如說(shuō)，對(duì)于大量的獨(dú)居老人而言，如果他（她）們能有親人很好地進(jìn)行情感交流和陪伴的話，對(duì)未來(lái)社會(huì)一定是非常好的一件事情。所以就是說(shuō)，如果我們真的做出了有思想、有情感，有各種綜合能力的機(jī)器人，很顯然對(duì)我們未來(lái)的社會(huì)進(jìn)步和發(fā)展都有巨大的意義。

但是另一方面，我們還得深入地思考這個(gè)問(wèn)題，做出來(lái)有思想的機(jī)器人還是非常難的，我們需要什么呢？我們需要很好地處理機(jī)器人的一些內(nèi)部情感狀態(tài)。比如，有研究者在做人工心理，那么需要對(duì)機(jī)器內(nèi)部的情感心理進(jìn)行很好的建模。與此同時(shí)，我們也需要在各種技術(shù)上實(shí)現(xiàn)能力突破，比如靈巧地抓取以及各種細(xì)節(jié)動(dòng)作的執(zhí)行。有了這些東西之后，我們就能夠?qū)崿F(xiàn)更美好的人機(jī)共融的社會(huì)愿景。

第三方面，我們還要注意社會(huì)倫理問(wèn)題。想象一下，如果人跟機(jī)器人談戀愛(ài)的話，那可能就不跟人談戀愛(ài)了，可能會(huì)對(duì)人類社會(huì)的繁衍造成一定的威脅?，F(xiàn)在并不是沒(méi)有這樣的考慮，比如日本可能就出現(xiàn)了這樣的爭(zhēng)論。他們做出了很多機(jī)器人女友或者機(jī)器人男友，但實(shí)際上這樣可能會(huì)在一定程度上影響社會(huì)中人的發(fā)展。

所以，其實(shí)無(wú)論是在科學(xué)技術(shù)上，還是在社會(huì)倫理道德上，我們還要去做很多深入的探索和思考。這就是我的觀點(diǎn)。

Q3：本屆大賽有兩道賽題都與自然語(yǔ)言處理有關(guān)，其中賽題一是醫(yī)學(xué)影像報(bào)告異常檢測(cè)，要求參賽隊(duì)伍根據(jù)醫(yī)生對(duì) CT 影像描述文本數(shù)據(jù)，判斷身體的若干區(qū)域目標(biāo)是否有異常，以及異常的類型是什么；賽題三則是小步助手的對(duì)話短文本語(yǔ)義匹配。小步助手是為 OPPO、OnePlus 和 Realme 三品牌手機(jī)和 IoT 設(shè)備自研的語(yǔ)音助手。這道題考的是短文本語(yǔ)義匹配，要求參賽隊(duì)伍根據(jù)脫敏后的短文本 query pair 預(yù)測(cè)它們是否屬于同一語(yǔ)義。請(qǐng)兩位老師發(fā)表一下對(duì)我們大賽以及賽題的一些看法。

黃民烈：我覺(jué)得組織這樣的比賽是非常好的一件事情，因?yàn)楝F(xiàn)在大家都知道研究工作和論文非常的多，然后各種模型也都是層出不窮。那么我們通過(guò)這種賽題，一方面可以去鍛煉工程實(shí)現(xiàn)能力，另一方面則有很好的實(shí)際科研問(wèn)題去做。

比如說(shuō)，現(xiàn)在的大部分模型和算法都是不可復(fù)現(xiàn)的，作為學(xué)生的話，我們拿到這樣的題目，第一選擇肯定就是先去復(fù)現(xiàn)一些現(xiàn)有的最強(qiáng)的模型，看看在這個(gè)任務(wù)上能達(dá)到多少。這里涉及到很多精細(xì)的工程，比如說(shuō)調(diào)參、數(shù)據(jù)預(yù)處理和數(shù)據(jù)后處理，這樣才可能在這些題目上取得比較好的成績(jī)。

所以我覺(jué)得，一方面來(lái)講，對(duì)一個(gè)學(xué)生的鍛煉和培養(yǎng)應(yīng)該是綜合的，就是不僅僅去做一個(gè)模型或者一個(gè)算法，還要把這個(gè)模型和算法能夠?qū)崿F(xiàn)地非常好，性能能夠達(dá)到很高的標(biāo)準(zhǔn)。

另外，剛才我聽(tīng)一個(gè)賽題是關(guān)于 OPPO 的，它涉及短文本匹配，這是一個(gè)很有挑戰(zhàn)性的問(wèn)題，在科學(xué)上有很多研究的意義和價(jià)值。對(duì)于短文沒(méi)匹配而言，你可能要用更多的知識(shí)和更多的背景信息才能把它做好。所以，我們不僅有算法和模型上的訓(xùn)練，也有科學(xué)問(wèn)題上的探索。與此同時(shí)，我們還要有工程技術(shù)上的鍛煉。

這樣的話，我覺(jué)得未來(lái)學(xué)生能夠適應(yīng)更加綜合和更加高的社會(huì)就業(yè)要求，而且在他們走上社會(huì)的時(shí)候，他們面臨的挑戰(zhàn)可能就會(huì)更小一些。比如在我的研究所，我也是要求學(xué)生們一定是不能只是寫論文。你只寫論文，然后發(fā)論文，這是絕對(duì)不行的，你還得有很強(qiáng)的工程實(shí)現(xiàn)能力，包括現(xiàn)在大模型、大數(shù)據(jù)的處理能力，然后能把它從一個(gè)研究的問(wèn)題做到一個(gè)最后系統(tǒng)的問(wèn)題，進(jìn)而變成整個(gè)鏈條上的培養(yǎng)。

張?jiān)溃何曳浅Ｍ恻S老師的說(shuō)法。我覺(jué)得這個(gè)大賽可以在實(shí)際的應(yīng)用場(chǎng)景和學(xué)生的經(jīng)驗(yàn)之間構(gòu)筑一個(gè)比較不錯(cuò)的橋梁。

首先，它是一個(gè)很特定的問(wèn)題，另外這樣的問(wèn)題具有比較小的范圍和比較應(yīng)用的驅(qū)動(dòng)性。這樣對(duì)于研究生來(lái)講，他可以看到研究任務(wù)在實(shí)際場(chǎng)景中發(fā)揮的作用。

另外，我覺(jué)得這個(gè)大賽也可以對(duì)更多對(duì)人工智能感興趣的本科生，還有其他學(xué)生產(chǎn)生影響。以這個(gè)大賽契機(jī)，大家可以看到我們?nèi)斯ぶ悄茉噲D解決的主要典型應(yīng)用問(wèn)題是什么，通過(guò)自己建立一個(gè)模型去解決這樣的問(wèn)題，然后看到現(xiàn)在的模型能夠做到什么程度。對(duì)于培養(yǎng)大家對(duì)人工智能的興趣而言，這些都可能是有幫助的。

最后，大家也可以通過(guò)動(dòng)手看到我們現(xiàn)在人工智能模型存在的缺陷，對(duì)于更多朋友們能夠涉獵到這個(gè)領(lǐng)域、產(chǎn)生更多的想法以及試圖解決這些問(wèn)題，大賽和賽題都是非常好的途徑。

Q4：都說(shuō)語(yǔ)言是思想的載體，那一臺(tái)能夠像人一樣說(shuō)話的機(jī)器，是否意味著有思想能跟人做朋友甚至談戀愛(ài)呢？

黃民烈：我覺(jué)得這個(gè)問(wèn)題在當(dāng)下面臨兩個(gè)方面的難點(diǎn)。一個(gè)是技術(shù)上的難點(diǎn)，即我們到底是不是能夠構(gòu)建一個(gè)足夠聰明并且有一定情緒理解和思想表達(dá)能力的機(jī)器人。另一個(gè)難點(diǎn)是面臨的倫理道德風(fēng)險(xiǎn)，即我們到底是不是應(yīng)該鼓勵(lì)人跟機(jī)器人進(jìn)行深入的情感交流，甚至肢體交流行為，以及在未來(lái)的十年、二十年甚至五十年里，這樣做對(duì)人類社會(huì)的發(fā)展會(huì)產(chǎn)生哪些潛在的影響。這是需要我們?nèi)プ鲈u(píng)估的。

一方面，在技術(shù)層面上，我們知道現(xiàn)在已經(jīng)有一定程度上的技術(shù)突破，但其實(shí)我們今天的這種大規(guī)模對(duì)話系統(tǒng)和對(duì)話模型依然面臨很大的類人不足的問(wèn)題，比如說(shuō)缺乏個(gè)性和情感，然后僅僅是數(shù)據(jù)驅(qū)動(dòng)的這種做法是不足以構(gòu)建出這樣的智能體的。

在社會(huì)倫理層面，我認(rèn)為現(xiàn)在其實(shí)已經(jīng)有了一些這樣的思考和討論。比如說(shuō)， AI 的倫理和道德應(yīng)該往哪個(gè)方向走？應(yīng)該有什么樣的規(guī)范？就拿我舉的例子來(lái)說(shuō)，AI 到底能不能理解自己的說(shuō)話、行為和動(dòng)作，這些意味著什么呢？再比如我剛才講的例子，「我想去跳橋」，AI 就給你找一個(gè)橋，它并不能夠理解「跳橋」這個(gè)行為可能帶來(lái)的潛在后果和行為是什么？

如果這一問(wèn)題不解決的話，那么就很難避免「亂說(shuō)亂講」的問(wèn)題，因?yàn)樗恢雷约旱脑捳Z(yǔ)和行為會(huì)面臨什么樣的社會(huì)倫理和道德風(fēng)險(xiǎn)。這種風(fēng)險(xiǎn)其實(shí)需要從研究上和社會(huì)規(guī)范上一起去做探討，所以我覺(jué)得這個(gè)方向的路還是非常遙遠(yuǎn)的，需要廣大研究者，包括自然科學(xué)和社會(huì)科學(xué)的研究者，一起去努力解決這樣的難題。

張?jiān)溃何矣X(jué)得這個(gè)問(wèn)題主要是從功能層面討論，就是說(shuō)，機(jī)器它到底能不能和人進(jìn)行情感的交流？也許我們無(wú)法完全地去探究。從機(jī)器內(nèi)部來(lái)講，它的意識(shí)是否存在？從功能的角度講，機(jī)器也許可以幫助我們?nèi)ミM(jìn)行這種情感陪伴，去進(jìn)行更多的這種人文方面的交流。

那么這樣的交流會(huì)產(chǎn)生很多的社會(huì)影響，這也是黃老師提出的倫理問(wèn)題。首先，我覺(jué)得機(jī)器如果能夠從功能上和人交流的話，它會(huì)起到正面的作用。像人口老齡化和人的陪伴需求等，這樣的交流可能會(huì)在這些方面起到正面的作用。同時(shí)，我們也要避免一些負(fù)面的作用。

此外，除了機(jī)器和人在交流的時(shí)候，人可能因?yàn)闄C(jī)器的陪伴所產(chǎn)生的負(fù)面影響之外，機(jī)器如果具備了和人交流的能力，那么也許就具備了互相交流的能力。在這個(gè)方面，我們可能也會(huì)設(shè)想會(huì)不會(huì)有一些道德倫理，甚至對(duì)人類的生存問(wèn)題造成的影響。比如說(shuō)，如果機(jī)器在交流的過(guò)程之中進(jìn)行演化，產(chǎn)生了一種機(jī)器可以理解，人類卻不可以理解的交流方式，那么也許具有目的性的機(jī)器，可以通過(guò)這種交流方式去試圖影響社會(huì)的發(fā)展。

那么如果有目的性的機(jī)器能夠通過(guò)學(xué)習(xí)知道人類語(yǔ)言交流手段的話，也許機(jī)器還可以在人類的社交媒體和人類的交流之中，對(duì)人類產(chǎn)生影響。

所以我覺(jué)得要從兩方面講。從人類本身來(lái)講，我們要避免這種能夠進(jìn)行情感交流的機(jī)器對(duì)我們產(chǎn)生的負(fù)面作用。從人類對(duì)機(jī)器的防范角度來(lái)講，我們是不是也應(yīng)該在人工智能將來(lái)的設(shè)計(jì)中設(shè)計(jì)一些規(guī)范，或者制定一些人工智能設(shè)計(jì)的準(zhǔn)則和法則，從而最大程度地讓機(jī)器和人能夠?qū)ι鐣?huì)發(fā)展有促進(jìn)作用，能夠避免一些可能對(duì)社會(huì)產(chǎn)生的不利影響。