科普丨什么是NLP(自然語言處理)

情感導(dǎo)師 7556

 添加導(dǎo)師微信MurieL0304

獲取更多愛情挽回攻略 婚姻修復(fù)技巧 戀愛脫單干貨

自然語言處理(NLP)是一種專業(yè)分析人類語言的人工智能。(下文皆簡稱為“NLP”),它的工作原理是這樣的:

接收自然語言,這種語言是通過人類的自然使用演變而來的,我們每天都用它來交流轉(zhuǎn)譯自然語言,通常是通過基于概率的算法分析自然語言并輸出結(jié)果

簡而言之,這就是一個創(chuàng)建算法的過程。

你使用過蘋果公司的人工智能語音助手Siri嗎?有沒有好奇過Siri是如何理解你說的(大部分的)話的?Siri的工作過程就是自然語言處理在實(shí)踐中應(yīng)用的一個鮮活案例。

科普丨什么是NLP(自然語言處理)

NLP正在成為我們生活中不可或缺的一部分,其與機(jī)器學(xué)習(xí)、深度學(xué)習(xí)一起達(dá)成的高度遠(yuǎn)遠(yuǎn)優(yōu)于幾年前取得的成就。

在本文中我們將深入了解NLP是如何應(yīng)用、如何工作的。

NLP可以做些什么?

NLP應(yīng)用廣泛,其中包括:

Ⅰ. 機(jī)器翻譯

你上一次去國外旅行并且使用手機(jī)翻譯外語是什么時候?可能你用的是谷歌翻譯?這種操作是NLP機(jī)器翻譯的一個日常應(yīng)用。

機(jī)器翻譯是通過使用NLP把一種語言翻譯成另一種語言。從歷史上看,簡單的基于規(guī)則的方法已經(jīng)這樣做了,但是時至今日,NLP技術(shù)是對已經(jīng)存在多年基于規(guī)則的方法的一大改進(jìn)。

為了使NLP在機(jī)器翻譯方面做得更好,它使用了深度學(xué)習(xí)技術(shù)。這種形式的機(jī)器翻譯因?yàn)槔昧松窠?jīng)網(wǎng)絡(luò),所以有時被稱為神經(jīng)機(jī)器翻譯(NMT)。因此,基于統(tǒng)計(jì)、試錯等方法翻譯語言的NMT能夠聯(lián)系語境翻譯語言,處理語言的其他微妙之處。

除了像谷歌翻譯這種應(yīng)用程序,NMT也被使用在非常多商業(yè)軟件上,例如:

翻譯純文本、網(wǎng)頁或文件,如Excel、Powerpoint或者Word。Systran就是這樣一家翻譯服務(wù)公司。實(shí)時翻譯社交軟件回復(fù),SDL Government可以提供相應(yīng)服務(wù)(一家專業(yè)做公共部門翻譯服務(wù)的公司)。在醫(yī)療環(huán)境下翻譯,例如當(dāng)一名英語語系醫(yī)生正在給西班牙語病患治療時,Canopy Speak可以提供幫助。翻譯財(cái)務(wù)文件,如年報(bào)、投資評論和信息文件,專門從事財(cái)務(wù)翻譯的公司Lingua Custodia可提供此類服務(wù)。Ⅱ. 語音識別

早前,我們提到Siri是NLP的一個著名應(yīng)用。Siri使用NLP一個非常明顯的特征就是語音識別。當(dāng)然,Alexa和谷歌語音助手同樣也是NLP語音識別的著名應(yīng)用。

語音識別不是一項(xiàng)新的科學(xué)技術(shù),距今已有50多年的歷史了。直到最近,多虧有了NLP,它的準(zhǔn)確性和易用性才有了質(zhì)的提升。

語音識別的核心是識別口語單詞、解釋它們并將其轉(zhuǎn)換為文本的能力。然后可以采取一系列行動,如回答問題、執(zhí)行指示或編寫電子郵件。在NLP中使用強(qiáng)大的深度學(xué)習(xí)的方法使今天的語音識別應(yīng)用程序比以往任何時候都表現(xiàn)得更出色。

Ⅲ. 聊天機(jī)器人

聊天機(jī)器人是一種模仿人類對話聊天的程序。第一個聊天機(jī)器人Eliza Doolittle出現(xiàn)在20世紀(jì)60年代,經(jīng)過幾十年的發(fā)展,NLP已經(jīng)成為創(chuàng)建聊天機(jī)器人的基礎(chǔ),盡管這樣的系統(tǒng)仍不算完美,但它們可以輕松地處理標(biāo)準(zhǔn)任務(wù)。聊天機(jī)器人當(dāng)前可在多種渠道上運(yùn)行,包括Internet,應(yīng)用程序和消息傳遞平臺。很多公司用聊天機(jī)器人來進(jìn)行客戶服務(wù)、售前咨詢和售后咨詢。

你上次登陸某公司網(wǎng)站使用在線幫助系統(tǒng)時,和你交流的就是他們的客服機(jī)器人。

雖然簡單的聊天機(jī)器人使用基于規(guī)則的方法,但如今功能更強(qiáng)的聊天機(jī)器人使用NLP來理解客戶在說什么以及如何響應(yīng)。

聊天機(jī)器人的著名應(yīng)用包括:

建立在WhatsApp平臺上的世界衛(wèi)生組織(WHO)聊天機(jī)器人,分享關(guān)于COVID-19病毒傳播的信息并回答問題?!秶业乩怼?National Geographic)的天才聊天機(jī)器人(Genius chatbot),聊天風(fēng)格像愛因斯坦(Albert Einstein),與用戶互動,推廣同名的《國家地理》節(jié)目。Kian,韓國汽車制造商起亞在FaceBook Messenger上的聊天機(jī)器人,回答有關(guān)起亞汽車的咨詢并幫助銷售查詢。Whole Foods的聊天機(jī)器人,幫助提供配方信息、烹飪靈感和產(chǎn)品推薦。Ⅳ. 情感分析

情感分析是種有趣的NLP和數(shù)據(jù)挖掘任務(wù),對文本數(shù)據(jù)中包含的情緒進(jìn)行解析和分類,衡量人們的觀點(diǎn)傾向。例如被用來分析觀眾對電影的評論或由該電影引起的情緒狀態(tài),又例如將在線客戶對產(chǎn)品或服務(wù)的反饋按照正面或負(fù)面的體驗(yàn)進(jìn)行分類。

情感分析最簡單的形式是,根據(jù)傳達(dá)情感的特定詞語,如“愛”、“恨”、“高興”、“傷心”或“生氣”,對文本進(jìn)行分類。這種情緒分析方法已經(jīng)存在了很長時間,但由于其簡單性,實(shí)際應(yīng)用非常有限。

今天的情感分析使用基于統(tǒng)計(jì)和深度學(xué)習(xí)方法的NLP對文本進(jìn)行分類。其結(jié)果就是能夠處理復(fù)雜的、自然發(fā)音的文本。

如今,世界各地的企業(yè)都對情感分析非常感興趣。因?yàn)槠淇梢栽诳蛻羝?、滿意度和意見反饋等方面提供有助于市場活動和產(chǎn)品設(shè)計(jì)的數(shù)據(jù)。

Ⅴ. 電子郵件分類

電子郵件過載是現(xiàn)代職場常見的難題。NLP可以協(xié)助分析和分類收到的電子郵件,以便它們可以自動轉(zhuǎn)發(fā)到正確的收件方。

曾經(jīng),人們使用簡單的關(guān)鍵詞匹配技術(shù)對電子郵件進(jìn)行分類。這種做法成敗參半。NLP可以更好的進(jìn)行分類,因?yàn)樗梢岳斫庹麄€句子、段落和文本的文本中的上下文。

鑒于當(dāng)今企業(yè)必須處理的電子郵件數(shù)量龐大,基于NLP的電子郵件分類可以極大地提高工作效率。使用NLP進(jìn)行分類有助于確保郵件不會被遺忘在負(fù)擔(dān)過重的收件箱中,還可以適當(dāng)?shù)貧w檔以備進(jìn)一步處理。

NLP是如何工作的?

現(xiàn)在我們已經(jīng)了解了NLP是如何應(yīng)用的,接下來,我們來看一看它是如何工作的。

本質(zhì)上,NLP是通過將一組文本信息轉(zhuǎn)換成指定的輸出數(shù)據(jù)來工作的。

如果應(yīng)用程序是機(jī)器翻譯,那么輸入的文本信息將是源語言(比如英語)的文檔,輸出將是目標(biāo)語言(比如法語)的翻譯文檔;如果應(yīng)用程序是情感分析,則輸出的是將輸入文本分類轉(zhuǎn)換為情感類別;諸如此類。

NLP工作流

現(xiàn)代NLP是一門融合了語言學(xué)、計(jì)算機(jī)科學(xué)和機(jī)器學(xué)習(xí)的混合學(xué)科。NLP使用的過程或工作流有以下三個主要步驟:

1. 文本預(yù)處理

2. 文本表示

3. 分析和建模

每一步都可能使用一系列技術(shù),這些技術(shù)隨著研究的深入而不斷發(fā)展。

第一步:文本預(yù)處理

首先準(zhǔn)備輸入文本,以便更容易地分析。這部分的NLP在借鑒了一系列傳統(tǒng)語言方法的基礎(chǔ)上,已經(jīng)很好的建立起來了。

在這個步驟中使用的一些關(guān)鍵方法是:

標(biāo)記法——將文本分解成有用的單位(標(biāo)記),例如,使用空格分隔單詞,或者使用句號分隔句子。標(biāo)記法也能識別經(jīng)常連在一起的單詞,比如“New York”或“machine learning”。例如,將“Customer service couldn 't be better.”這句話進(jìn)行標(biāo)記,會產(chǎn)生以下標(biāo)簽:“Customer service”、“could”、“not”、“be”和“better”。

標(biāo)準(zhǔn)化——使用詞干提取和詞形還原等技術(shù)將單詞轉(zhuǎn)換為基本形式。這樣做是為了幫助減少干擾和簡化分析。詞干分析通過刪除后綴來識別單詞的詞干。例如,“研究”一詞的詞干是“studi”。類似地,詞元化除去后綴,必要時也除去前綴,從而產(chǎn)生通常在自然語言中使用的單詞。例如,“studies”一詞真正的詞形還原就是“study”。在大多數(shù)應(yīng)用程序中,由于產(chǎn)生的單詞在自然語言中有更多的意義,所以詞形還原比詞干提取更為可取。

詞性標(biāo)注(POS)——利用詞法,或研究詞與詞之間的關(guān)系。單詞(或標(biāo)記)是根據(jù)它們在句子中的功能來標(biāo)記的。這是通過使用文本語料庫中的既定規(guī)則來識別單詞在言語中的目的,即動詞、名詞、形容詞等。

句法分析——利用句法或分析單詞和句子如何組合在一起,有助于理解句子的結(jié)構(gòu),并根據(jù)語法規(guī)則將句子分解成短語來實(shí)現(xiàn)。一個短語可以包含一個名詞和一個冠詞,比如“我的兔子”,或者一個動詞,比如“喜歡吃胡蘿卜”。

語義分析——是指句子中使用的詞語的預(yù)期意義。單詞可以有不止一種意思。例如,“pass”可以意味著(i)把某件物品交給別人,(ii)決定不參加某件事,或(iii)考試合格。通過觀察目標(biāo)詞前后出現(xiàn)的單詞,可以更好地理解目標(biāo)詞的意思。

第二步:文本表示

為了使用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方法分析文本,需要將文本轉(zhuǎn)換為數(shù)字。這就是文本表示的目的。在此步驟中使用的一些關(guān)鍵方法包括:

①. 詞袋模型

詞袋模型(BoW)是描述文檔中單詞出現(xiàn)的文本的一種表示形式,它通過計(jì)算輸入文檔中每個單詞與已知詞匯的詞匯表相比出現(xiàn)的次數(shù)來表示文本。

結(jié)果是一組向量,其中包含描述每個單詞出現(xiàn)次數(shù)的數(shù)字。這些向量被稱為“詞袋”,因?yàn)樗鼈儾话魏侮P(guān)于輸入文檔結(jié)構(gòu)的信息。

為了說明BoW是如何工作的,請看示例“the cat sat on the mat”。其中包含“the”、“cat”、“sat”、“on”和“mat”等詞。這些詞的出現(xiàn)頻率可以用形式為[2,1,1,1,1]的向量來表示。這里,單詞“the”出現(xiàn)兩次,其他單詞出現(xiàn)一次。

與一個巨大的詞匯表相比,向量將擴(kuò)展為包含許多零。這是因?yàn)樵~匯表中沒有包含在例句中的所有單詞的頻率都是零。結(jié)果向量可能包含大量的零,因此稱為“稀疏向量”。

BoW簡單易懂。然而,當(dāng)詞匯量很大時,生成的稀疏向量可能非常大。這會導(dǎo)致在計(jì)算上產(chǎn)生數(shù)量可觀的包含無效信息的向量(例如,大部分都是零)。

此外,BoW查看的是單個單詞,因此不會捕捉到任何組合詞的相關(guān)信息。這會導(dǎo)致接下來分析文本時造成上下文丟失。

②. N元模型

使用BoW減少上下文丟失的一種方法是創(chuàng)建組合單詞而不是單個單詞的詞匯表。這些分組的單詞被稱為“n-grams”,其中“n”是分組大小。由此產(chǎn)生的方法稱為“N元模型”(BNG)。

該模型基于這樣一種假設(shè),第N個詞的出現(xiàn)只與前面N-1個詞相關(guān),而與其它任何詞都不相關(guān),整句的概率就是各個詞出現(xiàn)概率的乘積。這些概率可以通過直接從語料中統(tǒng)計(jì)N個詞同時出現(xiàn)的次數(shù)得到。常用的是二元的2-grams和三元的3-grams。

BNG的優(yōu)點(diǎn)是每個n-gram比單個單詞能捕捉更多的上下文。

在前面的例句中,“sat on”和“the mat”是2-grams的例子,“on the mat”是3-grams的例子。

③. TF-IDF

計(jì)算單詞在文檔中出現(xiàn)的次數(shù)會出現(xiàn)一個問題,一些單詞開始在計(jì)算中占據(jù)主導(dǎo)地位。

像“the”、“a”或“it”之類的詞。這些詞經(jīng)常出現(xiàn),但并不包含太多信息。

處理此種問題的一種方法是將文檔中頻繁出現(xiàn)的單詞與唯一出現(xiàn)的單詞區(qū)別對待。經(jīng)常出現(xiàn)的詞往往是像“The”這樣的低值詞。這些詞的計(jì)數(shù)將被懲罰,以降低其支配地位。

這種方法被稱為“詞頻-逆向文件頻率”或TF-IDF。詞頻是指單詞在給定文檔中的出現(xiàn)頻率,而逆文檔頻率則是指單詞在所有文檔中的出現(xiàn)頻率。

TF-IDF方法的作用是淡化頻繁出現(xiàn)的單詞,并突出顯示具有有用信息的更獨(dú)特的單詞,例如“cat”或“mat”。這樣做可以帶來更好的結(jié)果。

④. 詞嵌入

現(xiàn)有的機(jī)器學(xué)習(xí)方法往往無法直接處理文本數(shù)據(jù),因此需要找到合適的方法,將文本數(shù)據(jù)轉(zhuǎn)換為數(shù)值型數(shù)據(jù),由此引出了Word Embedding的概念。

一種更復(fù)雜的文本表示方法涉及到詞嵌入。它將每個單詞映射到單獨(dú)的向量,其中向量趨向于“密集”而不是“稀疏”(即更小,零更少)。在映射過程中,會考慮每個單詞及其周圍的單詞。由此產(chǎn)生的密集向量可以幫助更好地分析比較單詞和上下文。

詞嵌入方法利用強(qiáng)大的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)來完成映射。這是一個不斷發(fā)展并且已經(jīng)有了一些出色成果的的領(lǐng)域。目前使用的關(guān)鍵算法包括Word2Vec、GloVe和FastText。

步驟3:分析和建模

NLP過程的最后一步是對通過步驟1和步驟2生成的向量,利用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方法執(zhí)行計(jì)算,以產(chǎn)生期望的結(jié)果。許多來自非NLP領(lǐng)域的相同的機(jī)器學(xué)習(xí)技術(shù),例如圖像識別或欺詐檢測,可用于該分析。

考慮情感分析??梢允褂糜斜O(jiān)督或無監(jiān)督的機(jī)器學(xué)習(xí)來完成。有監(jiān)督的機(jī)器學(xué)習(xí)需要預(yù)先標(biāo)記的數(shù)據(jù),而無監(jiān)督的機(jī)器學(xué)習(xí)則使用預(yù)先準(zhǔn)備好的詞庫對情感進(jìn)行分類。

利用機(jī)器學(xué)習(xí),用概率方法對輸入文本向量進(jìn)行分類。這可以通過一個訓(xùn)練模型(有監(jiān)督的機(jī)器學(xué)習(xí))或者通過與合適詞庫(無監(jiān)督的機(jī)器學(xué)習(xí))的比較來實(shí)現(xiàn)。

最后呈現(xiàn)的結(jié)果是基于機(jī)器學(xué)習(xí)過程中產(chǎn)生的概率的情緒分類。

結(jié)語

NLP發(fā)展迅速,對社會的影響越來越大。從語言翻譯到語音識別,從聊天機(jī)器人到識別情感,NLP正在提供有價值的見解,使我們的生活更高效。

現(xiàn)代自然語言處理運(yùn)用語言學(xué)、計(jì)算機(jī)科學(xué)和機(jī)器學(xué)習(xí)。近幾年來,NLP取得的成果遠(yuǎn)遠(yuǎn)超過過去我們所見。

NLP的基本工作流程包括文本預(yù)處理、文本表示和文本分析?,F(xiàn)在有各種各樣的技術(shù)在使用,更多的技術(shù)正在不斷的研究中發(fā)展。

NLP將徹底改變工業(yè)和消費(fèi)者體驗(yàn)的許多領(lǐng)域,并且已經(jīng)成為我們?nèi)粘I钪惺煜さ囊徊糠帧?/p>

有了NLP,我們就有了一種利用我們天生就習(xí)慣的媒介參與數(shù)字未來的有力方式,那就是我們用語言溝通交流的能力。

(來源:Medium 編譯:ODRobots 作者:Giri Rabindranath)

評論列表

頭像
2024-08-12 08:08:43

有時侯自己陷進(jìn)去出不了只能找專業(yè)的人士幫忙,我覺得挺不錯的,推薦!

頭像
2024-07-16 05:07:26

可以幫助復(fù)合嗎?

 添加導(dǎo)師微信MurieL0304

獲取更多愛情挽回攻略 婚姻修復(fù)技巧 戀愛脫單干貨

發(fā)表評論 (已有2條評論)