黃河連線專訪丨劉康:如何用計算機“讀懂”人類情感?

情感導師 6012

 添加導師微信MurieL0304

獲取更多愛情挽回攻略 婚姻修復技巧 戀愛脫單干貨

聚焦信息技術領域 為產(chǎn)業(yè)發(fā)聲

導讀

黃河連線專訪丨劉康:如何用計算機“讀懂”人類情感?

隨著社交媒體,如論壇、博客、微博等的發(fā)展,使得在世界各地的人們可以隨時分享、評論或討論任何話題成為了可能。在社會媒體文本中表達的意見、情緒和情感就成為對社會和經(jīng)濟具有較高價值的文本。挖掘這些文本中的“潛臺詞”就要用到情感分析這一技術。通過情感分析,可以看出商品的優(yōu)缺點,可以預測某國大選,也可以讓機器人能聽懂人說的話。那么情感分析究竟如何做到的呢?黃河連線特此采訪了知名情感分析專家,中國科學院自動化研究所模式識別國家重點實驗室成員劉康,以下為采訪實錄:

情感分析如何理解用戶的“意圖”

1.什么是情感分析?能否結合一個案例解釋一下。

劉康:情感分析本身是從用戶的各模態(tài)輸入中識別其表達出的情感或情緒。從廣義上來說,情感分析需要從各種數(shù)據(jù),如文本、視頻、圖像、語音里識別其中所蘊含的情感。我自己的研究方向是自然語言理解,從我的研究角度來看,情感分析是一個研究如何從文本中識別用戶所表達出來的情感和情緒的任務。

從文本中識別用戶的情感和情緒,不僅要識別用戶的情感狀態(tài),是褒義還是貶義、是悲傷還是喜悅,更重要的是希望從文本中挖掘有用的觀點信息,其中涉及的內容非常多,如如何抽取識別用戶觀點的傾向性,以及傾向性蘊含的強度,同時需要抽取與觀點相關的要素,如觀點持有者、評價的主體等。

舉個例子,我們可以在各大購物網(wǎng)站上可以看到用戶對于商品評論的文本,比如要購買一部手機或是選擇某個餐廳吃飯時,我們都會看一下關于手機或餐廳的用戶評論信息。情感分析在針對用戶評論方面,需要從用戶評論中判別出已經(jīng)購買該商品的用戶的觀點和意見。例如在針對餐廳的評論中,會有菜名和相關的評價詞,比如“停車不太方便”中“不方便”就是一個情感詞、“菜不好吃”中“不好吃”就是另一個情感詞,我們需要用自動的方法把這些評價詞提取出來,判別其傾向性,同時抽取用戶評價的對象,例如“菜”、“停車”,從而對于用戶評論進行細粒度的分析。

總而言之,情感分析涉及到了自然語言處理的各個子任務,是自然語言處理領域的基礎任務。

2.您剛才說到,情感分析需要有一個分析來源,也就是觀點挖掘和情感分析需要大量的文本進作為分析數(shù)據(jù),這些數(shù)據(jù)的獲取渠道有哪些?

劉康:用計算機進行情感分析和觀點挖掘,需要一些有標注的數(shù)據(jù),即人告訴計算機一些詞的情感程度是怎樣的。對于普通的數(shù)據(jù),我們可以獲取的渠道有很多,包括微博、微信、產(chǎn)品的評論、新聞數(shù)據(jù)等等,關鍵是怎么獲取標注的數(shù)據(jù),這樣才能計算機能夠學習到與詞、段落、篇章所對應的情感,進而發(fā)現(xiàn)情感信息表達各種方式和規(guī)律。總體來說,可以獲得的文本內容和渠道還是有很多的,關鍵是如何獲得高質量的標注文本。

現(xiàn)在的標注數(shù)據(jù)的獲取渠道有兩個:第一是人工標注,第二是從網(wǎng)站或者社交平臺上獲取一些原有的標注,比如用戶在評論時會寫一段文本,在評論時會同時打分或是標注星級,一般認為五星是褒義的情感,一星就是貶義的情感。再如,用戶在微博上寫了一段文字,然后加一個表情,笑臉可能就是褒義的情感,哭臉就是貶義的情感。

3.人的情感與機器不同,對某些事物的喜愛程度不一樣,比如“非常好、好、很好”這幾個極性,即使人們用了一樣的詞匯,每個人的喜愛程度也會有偏差。這又是如何分析匹配的?

劉康:大部分用戶在評價某一事物時,會用“特別好”、“非常好”這類詞語并且給其打一個非常高的分數(shù)或者星級,而“一般”、“好”這些強度略低的詞語和分數(shù)比較低會有很大的相關性?;谶@樣的統(tǒng)計,我們會統(tǒng)計出不同強度的評價詞語,然后給這詞語打上不同強度的信息。

這種強度的表達具有很大的主觀性,比如性格比較內斂的人不太習慣用強度很大的詞語,而性格外向的人就會用“贊”這類情感強度明顯的詞表達。人們的用詞習慣會在很大程度上影響情感分析的結果,使情感分析成為了一項非常有主觀性的工作,而且難度也非常大。

總體上講,情感分析的準確度是比較高的。在一個限定領域內,對單個用戶而言,準確度可以達到80%—90%,但是在一個開放的領域內,尤其是用戶特別多的情況下,準確度可能只有70%甚至更低。

情感分析讓社會更“智能”

4.中文因其語言背景的豐富性和詞語的多邊形被稱為世界上最難的語言之一,同英語相比,現(xiàn)在中文領域的觀點挖掘與情感分析發(fā)展狀況如何?

劉康:中文不止在情感分析方面,在其他自然語言處理任務中,和英語相比,技術的發(fā)展是并行的。也就是說,目前來看,中英文語言分析在技術層面上不會有太大的區(qū)別。但是從準確性上來說,目前中文的處理效果和英文還是有一定的差距的。這個不是處理方法、技術的問題,而是因為中文是一種意合的語言,語法結構更加的松散,在實際表達中并不拘泥于一定的語法,所以沒有語法結構的約束,導致中文在處理上比英文要難很多,結果準確性也低一些。

其次,中文還有一些特別的語言現(xiàn)象,如成語、歇后語、古文等,都可以表達各種情感,現(xiàn)在還沒有一個特別好的方法對這些語言現(xiàn)象做處理。但是現(xiàn)在在中文領域,各個研究團隊都在努力提高著中文分析的準確度,也進行了多次相對應的情感分析評測。

5.目前觀點挖掘與情感分析應用的準確性如何?例如之前通過對 Twitter 用戶的情感分析,來預測股票走勢、預測電影票房、選舉結果等,這些準確度如何?是否可信?

劉康:美國利用Twitter上的用戶評價再通過情感分析的方法進行大選預測,奧巴馬在任時期就已經(jīng)有人做過了。雖然現(xiàn)在情感分析技術準確性還不能達到100%,但是對于全美Twitter用戶的觀點分析,大體上還是可以分析出總體走勢的。但是這樣的方法較為適用于整體型、宏觀型的判斷,在微觀層面的處理就不一定很準確了。比如在股票預測,尤其是個股方面,效果還是非常不好的,在某一電影的票房預測上也是一樣。

6.目前的情感分析大多基于已有文本。比如情侶吵架,女方故意說了氣話,情感分析能不能結合上下文的關系,分析出女方的潛臺詞?

劉康:目前的技術可以從文本中分析出顯性表達的情感,比如“我生氣了”、“你真討厭”,這是可以很容易分析出來的。但是中文里諷刺、比喻等隱性的語言現(xiàn)象,在分析上會遇到很大的困難。

在很多情況下,如果一句話里沒有情感表達詞語,人理解起來不會有難度,但是對于依托標注性情感詞分析文本的計算機,就存在很大的難度。比如情侶之間的對話,女方說:“我一會兒到地鐵站,我到了你就等著,我到了你還沒到你就等著!”這類語言,有很多情感是通過非情感詞表達出來的,我們統(tǒng)稱這種情感表達為隱式情感表達。目前的情感分析對這種情感表達的分析還存在很大的問題。另外,情感的表達還與文本的上下文、環(huán)境、領域密切相關,這給情感分析帶來更大的技術要求。

7.現(xiàn)在出現(xiàn)了一些“情感機器人”,可以通過判斷人類的語言、語調等,“讀”出人類情感,甚至還有機器人獲得了公民身份。在這些機器人的背后,情感分析技術功不可沒,您怎么看待這個現(xiàn)象?

劉康:將情感分析技術應用到情感機器人上,這是一個大的趨勢,情感機器人在和人的交互中,一定會涉及與人情感的交流。以我的研究領域來說,我們是基于從文本中獲取情感和觀點,在情感機器人中,不僅需要文本的分析,還存在語音、語調、表情等多模態(tài)的判別。我個人的觀點是,不管哪種模態(tài)的分析,目前還都處于研究的階段,還沒有一個完美的解決方案。人工智能對客觀性文本的理解尚且存在很多問題,理解主觀性文本更是一個任重而道遠的任務。但是試圖在機器人對話過程中加入情感信息,我個人認為這是一個非常好的方向。

當然,除了情感機器人,情感分析和觀點挖掘可以運用到的領域還有很多,包括剛才提到的大選預測、購物網(wǎng)站上對商品性能的分析等等。

情感分析仍然任重道遠

8.情感分析的應用離不開底層技術的支撐。就目前而言,觀點挖掘與情感分析的難點在哪里?近來又有哪些重大的突破?

劉康:近些年,深度學習技術在自然語言處理領域已經(jīng)得到了廣泛的應用,情感分析與觀點挖掘應用深度學習,可以提高個別任務上的處理性能。但是總體來說,還沒有重大技術的突破。

文本的觀點挖掘和情感的分析的難點還是在于如何判定各種語言現(xiàn)象的情感分析,不同詞語的組合會帶來很大的情感變化,對分析會帶來很大的挑戰(zhàn),這是目前一個特別難的點。比如“大”形容房子的時候是個褒義詞,在“大手大腳”這個成語里,就是一個貶義詞了。情感的變化會根據(jù)評價對象的不同、使用語境的不同而產(chǎn)生變化,如何判斷在不同場景和不同對象中的不同語義,一直都是情感分析的難點所在。

9.目前情感分析的難點很多,必然要求更多的人才去攻克。那對于想要學習或者進一步研究情感分析的人而言,需要具備哪些素質?能否結合您的個人研究經(jīng)歷,推薦一下學習路徑以及參考資料?

劉康:從文本性情感分析來說,需要有自然語言處理的知識,包括機器學習知識等。除此之外,情感分析還是一個多角度、交叉的方向,包括心理學、社會學,都可以一定程度上幫助情感分析的研究。所以說情感分析是一個以計算機知識為基礎,跨學科的研究領域。

我個人本科就讀于西安電子科技大學,碩士從事模式識別與智能系統(tǒng)學科方向的研究,特別是圖像方向的研究。然后到現(xiàn)在的組里攻克博士學位,研究方向是文本情感分析。2010年博士畢業(yè),除了情感分析,還在做與信息抽取相關的工作,包括實體、關系、事件等等。目前是在中國科學院自動化研究所模式識別國家重點實驗室一直從事情感分析方面的研究。

就個人經(jīng)歷而言,我認為學習這一領域看懂兩本書是很有必要的,一是Pang Bo老師曾經(jīng)寫的一個有關情感分析的Tutorial,二是美國伊利諾斯芝加哥大學教授劉兵老師的所著的情感分析方面的書籍,這兩本書對于了解情感分析研究歷史和研究分支等知識,都是非常有幫助的。我自己特別推薦劉兵老師寫的、由我們組翻譯的《情感分析——挖掘觀點、情感和情緒》這本書,這是近些年來在情感分析領域比較好的一本書。

聲明:

部分圖片來源于網(wǎng)絡

黃河連線系太原九州連線文化傳媒有限公司旗下品牌

本平臺法律顧問為山西晉商律師事務所

黃河連線原創(chuàng)文章,轉載請注明出處

評論列表

頭像
2024-08-08 08:08:47

我一閨蜜咨詢過,很專業(yè)也很靠譜,是一家權威咨詢機構

頭像
2024-07-28 23:07:46

求助

頭像
2024-07-14 20:07:42

被拉黑了,還有希望么?

 添加導師微信MurieL0304

獲取更多愛情挽回攻略 婚姻修復技巧 戀愛脫單干貨

發(fā)表評論 (已有3條評論)