科普丨什么是NLP（自然語言處理）

情感導(dǎo)師 2023-05-27 7556

添加導(dǎo)師微信MurieL0304

獲取更多愛情挽回攻略婚姻修復(fù)技巧戀愛脫單干貨

自然語言處理（NLP）是一種專業(yè)分析人類語言的人工智能。（下文皆簡稱為“NLP”），它的工作原理是這樣的：

接收自然語言，這種語言是通過人類的自然使用演變而來的，我們每天都用它來交流轉(zhuǎn)譯自然語言，通常是通過基于概率的算法分析自然語言并輸出結(jié)果

簡而言之，這就是一個創(chuàng)建算法的過程。

你使用過蘋果公司的人工智能語音助手Siri嗎？有沒有好奇過Siri是如何理解你說的（大部分的）話的？Siri的工作過程就是自然語言處理在實(shí)踐中應(yīng)用的一個鮮活案例。

NLP正在成為我們生活中不可或缺的一部分，其與機(jī)器學(xué)習(xí)、深度學(xué)習(xí)一起達(dá)成的高度遠(yuǎn)遠(yuǎn)優(yōu)于幾年前取得的成就。

在本文中我們將深入了解NLP是如何應(yīng)用、如何工作的。

NLP可以做些什么？

NLP應(yīng)用廣泛，其中包括：

Ⅰ. 機(jī)器翻譯

你上一次去國外旅行并且使用手機(jī)翻譯外語是什么時候？可能你用的是谷歌翻譯？這種操作是NLP機(jī)器翻譯的一個日常應(yīng)用。

機(jī)器翻譯是通過使用NLP把一種語言翻譯成另一種語言。從歷史上看，簡單的基于規(guī)則的方法已經(jīng)這樣做了，但是時至今日，NLP技術(shù)是對已經(jīng)存在多年基于規(guī)則的方法的一大改進(jìn)。

為了使NLP在機(jī)器翻譯方面做得更好，它使用了深度學(xué)習(xí)技術(shù)。這種形式的機(jī)器翻譯因?yàn)槔昧松窠?jīng)網(wǎng)絡(luò)，所以有時被稱為神經(jīng)機(jī)器翻譯(NMT)。因此，基于統(tǒng)計(jì)、試錯等方法翻譯語言的NMT能夠聯(lián)系語境翻譯語言，處理語言的其他微妙之處。

除了像谷歌翻譯這種應(yīng)用程序，NMT也被使用在非常多商業(yè)軟件上，例如：

翻譯純文本、網(wǎng)頁或文件，如Excel、Powerpoint或者Word。Systran就是這樣一家翻譯服務(wù)公司。實(shí)時翻譯社交軟件回復(fù)，SDL Government可以提供相應(yīng)服務(wù)（一家專業(yè)做公共部門翻譯服務(wù)的公司）。在醫(yī)療環(huán)境下翻譯，例如當(dāng)一名英語語系醫(yī)生正在給西班牙語病患治療時，Canopy Speak可以提供幫助。翻譯財(cái)務(wù)文件，如年報(bào)、投資評論和信息文件，專門從事財(cái)務(wù)翻譯的公司Lingua Custodia可提供此類服務(wù)。Ⅱ. 語音識別

早前，我們提到Siri是NLP的一個著名應(yīng)用。Siri使用NLP一個非常明顯的特征就是語音識別。當(dāng)然，Alexa和谷歌語音助手同樣也是NLP語音識別的著名應(yīng)用。

語音識別不是一項(xiàng)新的科學(xué)技術(shù)，距今已有50多年的歷史了。直到最近，多虧有了NLP，它的準(zhǔn)確性和易用性才有了質(zhì)的提升。

語音識別的核心是識別口語單詞、解釋它們并將其轉(zhuǎn)換為文本的能力。然后可以采取一系列行動，如回答問題、執(zhí)行指示或編寫電子郵件。在NLP中使用強(qiáng)大的深度學(xué)習(xí)的方法使今天的語音識別應(yīng)用程序比以往任何時候都表現(xiàn)得更出色。

Ⅲ. 聊天機(jī)器人

聊天機(jī)器人是一種模仿人類對話聊天的程序。第一個聊天機(jī)器人Eliza Doolittle出現(xiàn)在20世紀(jì)60年代，經(jīng)過幾十年的發(fā)展，NLP已經(jīng)成為創(chuàng)建聊天機(jī)器人的基礎(chǔ)，盡管這樣的系統(tǒng)仍不算完美，但它們可以輕松地處理標(biāo)準(zhǔn)任務(wù)。聊天機(jī)器人當(dāng)前可在多種渠道上運(yùn)行，包括Internet，應(yīng)用程序和消息傳遞平臺。很多公司用聊天機(jī)器人來進(jìn)行客戶服務(wù)、售前咨詢和售后咨詢。

你上次登陸某公司網(wǎng)站使用在線幫助系統(tǒng)時，和你交流的就是他們的客服機(jī)器人。

雖然簡單的聊天機(jī)器人使用基于規(guī)則的方法，但如今功能更強(qiáng)的聊天機(jī)器人使用NLP來理解客戶在說什么以及如何響應(yīng)。

聊天機(jī)器人的著名應(yīng)用包括：

建立在WhatsApp平臺上的世界衛(wèi)生組織(WHO)聊天機(jī)器人，分享關(guān)于COVID-19病毒傳播的信息并回答問題?！秶业乩怼?National Geographic)的天才聊天機(jī)器人(Genius chatbot)，聊天風(fēng)格像愛因斯坦(Albert Einstein)，與用戶互動，推廣同名的《國家地理》節(jié)目。Kian，韓國汽車制造商起亞在FaceBook Messenger上的聊天機(jī)器人，回答有關(guān)起亞汽車的咨詢并幫助銷售查詢。Whole Foods的聊天機(jī)器人，幫助提供配方信息、烹飪靈感和產(chǎn)品推薦。Ⅳ. 情感分析

情感分析是種有趣的NLP和數(shù)據(jù)挖掘任務(wù)，對文本數(shù)據(jù)中包含的情緒進(jìn)行解析和分類，衡量人們的觀點(diǎn)傾向。例如被用來分析觀眾對電影的評論或由該電影引起的情緒狀態(tài)，又例如將在線客戶對產(chǎn)品或服務(wù)的反饋按照正面或負(fù)面的體驗(yàn)進(jìn)行分類。

情感分析最簡單的形式是，根據(jù)傳達(dá)情感的特定詞語，如“愛”、“恨”、“高興”、“傷心”或“生氣”，對文本進(jìn)行分類。這種情緒分析方法已經(jīng)存在了很長時間，但由于其簡單性，實(shí)際應(yīng)用非常有限。

今天的情感分析使用基于統(tǒng)計(jì)和深度學(xué)習(xí)方法的NLP對文本進(jìn)行分類。其結(jié)果就是能夠處理復(fù)雜的、自然發(fā)音的文本。

如今，世界各地的企業(yè)都對情感分析非常感興趣。因?yàn)槠淇梢栽诳蛻羝?、滿意度和意見反饋等方面提供有助于市場活動和產(chǎn)品設(shè)計(jì)的數(shù)據(jù)。

Ⅴ. 電子郵件分類

電子郵件過載是現(xiàn)代職場常見的難題。NLP可以協(xié)助分析和分類收到的電子郵件，以便它們可以自動轉(zhuǎn)發(fā)到正確的收件方。

曾經(jīng)，人們使用簡單的關(guān)鍵詞匹配技術(shù)對電子郵件進(jìn)行分類。這種做法成敗參半。NLP可以更好的進(jìn)行分類，因?yàn)樗梢岳斫庹麄€句子、段落和文本的文本中的上下文。

鑒于當(dāng)今企業(yè)必須處理的電子郵件數(shù)量龐大，基于NLP的電子郵件分類可以極大地提高工作效率。使用NLP進(jìn)行分類有助于確保郵件不會被遺忘在負(fù)擔(dān)過重的收件箱中，還可以適當(dāng)?shù)貧w檔以備進(jìn)一步處理。

NLP是如何工作的？

現(xiàn)在我們已經(jīng)了解了NLP是如何應(yīng)用的，接下來，我們來看一看它是如何工作的。

本質(zhì)上，NLP是通過將一組文本信息轉(zhuǎn)換成指定的輸出數(shù)據(jù)來工作的。

如果應(yīng)用程序是機(jī)器翻譯，那么輸入的文本信息將是源語言(比如英語)的文檔，輸出將是目標(biāo)語言(比如法語)的翻譯文檔；如果應(yīng)用程序是情感分析，則輸出的是將輸入文本分類轉(zhuǎn)換為情感類別；諸如此類。

NLP工作流

現(xiàn)代NLP是一門融合了語言學(xué)、計(jì)算機(jī)科學(xué)和機(jī)器學(xué)習(xí)的混合學(xué)科。NLP使用的過程或工作流有以下三個主要步驟：

1. 文本預(yù)處理

2. 文本表示

3. 分析和建模

每一步都可能使用一系列技術(shù)，這些技術(shù)隨著研究的深入而不斷發(fā)展。

第一步：文本預(yù)處理

首先準(zhǔn)備輸入文本，以便更容易地分析。這部分的NLP在借鑒了一系列傳統(tǒng)語言方法的基礎(chǔ)上，已經(jīng)很好的建立起來了。

在這個步驟中使用的一些關(guān)鍵方法是:

標(biāo)記法——將文本分解成有用的單位(標(biāo)記)，例如，使用空格分隔單詞，或者使用句號分隔句子。標(biāo)記法也能識別經(jīng)常連在一起的單詞，比如“New York”或“machine learning”。例如，將“Customer service couldn 't be better.”這句話進(jìn)行標(biāo)記，會產(chǎn)生以下標(biāo)簽：“Customer service”、“could”、“not”、“be”和“better”。

標(biāo)準(zhǔn)化——使用詞干提取和詞形還原等技術(shù)將單詞轉(zhuǎn)換為基本形式。這樣做是為了幫助減少干擾和簡化分析。詞干分析通過刪除后綴來識別單詞的詞干。例如，“研究”一詞的詞干是“studi”。類似地，詞元化除去后綴，必要時也除去前綴，從而產(chǎn)生通常在自然語言中使用的單詞。例如，“studies”一詞真正的詞形還原就是“study”。在大多數(shù)應(yīng)用程序中，由于產(chǎn)生的單詞在自然語言中有更多的意義，所以詞形還原比詞干提取更為可取。

詞性標(biāo)注(POS)——利用詞法，或研究詞與詞之間的關(guān)系。單詞（或標(biāo)記）是根據(jù)它們在句子中的功能來標(biāo)記的。這是通過使用文本語料庫中的既定規(guī)則來識別單詞在言語中的目的，即動詞、名詞、形容詞等。

句法分析——利用句法或分析單詞和句子如何組合在一起，有助于理解句子的結(jié)構(gòu)，并根據(jù)語法規(guī)則將句子分解成短語來實(shí)現(xiàn)。一個短語可以包含一個名詞和一個冠詞，比如“我的兔子”，或者一個動詞，比如“喜歡吃胡蘿卜”。

語義分析——是指句子中使用的詞語的預(yù)期意義。單詞可以有不止一種意思。例如，“pass”可以意味著(i)把某件物品交給別人，(ii)決定不參加某件事，或(iii)考試合格。通過觀察目標(biāo)詞前后出現(xiàn)的單詞，可以更好地理解目標(biāo)詞的意思。

第二步：文本表示

為了使用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方法分析文本，需要將文本轉(zhuǎn)換為數(shù)字。這就是文本表示的目的。在此步驟中使用的一些關(guān)鍵方法包括：

①. 詞袋模型

詞袋模型（BoW）是描述文檔中單詞出現(xiàn)的文本的一種表示形式，它通過計(jì)算輸入文檔中每個單詞與已知詞匯的詞匯表相比出現(xiàn)的次數(shù)來表示文本。

結(jié)果是一組向量，其中包含描述每個單詞出現(xiàn)次數(shù)的數(shù)字。這些向量被稱為“詞袋”，因?yàn)樗鼈儾话魏侮P(guān)于輸入文檔結(jié)構(gòu)的信息。

為了說明BoW是如何工作的，請看示例“the cat sat on the mat”。其中包含“the”、“cat”、“sat”、“on”和“mat”等詞。這些詞的出現(xiàn)頻率可以用形式為[2，1，1，1，1]的向量來表示。這里，單詞“the”出現(xiàn)兩次，其他單詞出現(xiàn)一次。

與一個巨大的詞匯表相比，向量將擴(kuò)展為包含許多零。這是因?yàn)樵~匯表中沒有包含在例句中的所有單詞的頻率都是零。結(jié)果向量可能包含大量的零，因此稱為“稀疏向量”。

BoW簡單易懂。然而，當(dāng)詞匯量很大時，生成的稀疏向量可能非常大。這會導(dǎo)致在計(jì)算上產(chǎn)生數(shù)量可觀的包含無效信息的向量（例如，大部分都是零）。

此外，BoW查看的是單個單詞，因此不會捕捉到任何組合詞的相關(guān)信息。這會導(dǎo)致接下來分析文本時造成上下文丟失。

②. N元模型

使用BoW減少上下文丟失的一種方法是創(chuàng)建組合單詞而不是單個單詞的詞匯表。這些分組的單詞被稱為“n-grams”，其中“n”是分組大小。由此產(chǎn)生的方法稱為“N元模型”（BNG）。

該模型基于這樣一種假設(shè)，第N個詞的出現(xiàn)只與前面N-1個詞相關(guān)，而與其它任何詞都不相關(guān)，整句的概率就是各個詞出現(xiàn)概率的乘積。這些概率可以通過直接從語料中統(tǒng)計(jì)N個詞同時出現(xiàn)的次數(shù)得到。常用的是二元的2-grams和三元的3-grams。

BNG的優(yōu)點(diǎn)是每個n-gram比單個單詞能捕捉更多的上下文。

在前面的例句中，“sat on”和“the mat”是2-grams的例子，“on the mat”是3-grams的例子。

③. TF-IDF

計(jì)算單詞在文檔中出現(xiàn)的次數(shù)會出現(xiàn)一個問題，一些單詞開始在計(jì)算中占據(jù)主導(dǎo)地位。

像“the”、“a”或“it”之類的詞。這些詞經(jīng)常出現(xiàn)，但并不包含太多信息。

處理此種問題的一種方法是將文檔中頻繁出現(xiàn)的單詞與唯一出現(xiàn)的單詞區(qū)別對待。經(jīng)常出現(xiàn)的詞往往是像“The”這樣的低值詞。這些詞的計(jì)數(shù)將被懲罰，以降低其支配地位。

這種方法被稱為“詞頻-逆向文件頻率”或TF-IDF。詞頻是指單詞在給定文檔中的出現(xiàn)頻率，而逆文檔頻率則是指單詞在所有文檔中的出現(xiàn)頻率。

TF-IDF方法的作用是淡化頻繁出現(xiàn)的單詞，并突出顯示具有有用信息的更獨(dú)特的單詞，例如“cat”或“mat”。這樣做可以帶來更好的結(jié)果。

④. 詞嵌入

現(xiàn)有的機(jī)器學(xué)習(xí)方法往往無法直接處理文本數(shù)據(jù)，因此需要找到合適的方法，將文本數(shù)據(jù)轉(zhuǎn)換為數(shù)值型數(shù)據(jù)，由此引出了Word Embedding的概念。

一種更復(fù)雜的文本表示方法涉及到詞嵌入。它將每個單詞映射到單獨(dú)的向量，其中向量趨向于“密集”而不是“稀疏”（即更小，零更少）。在映射過程中，會考慮每個單詞及其周圍的單詞。由此產(chǎn)生的密集向量可以幫助更好地分析比較單詞和上下文。

詞嵌入方法利用強(qiáng)大的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)來完成映射。這是一個不斷發(fā)展并且已經(jīng)有了一些出色成果的的領(lǐng)域。目前使用的關(guān)鍵算法包括Word2Vec、GloVe和FastText。

步驟3：分析和建模

NLP過程的最后一步是對通過步驟1和步驟2生成的向量，利用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方法執(zhí)行計(jì)算，以產(chǎn)生期望的結(jié)果。許多來自非NLP領(lǐng)域的相同的機(jī)器學(xué)習(xí)技術(shù)，例如圖像識別或欺詐檢測，可用于該分析。

考慮情感分析?？梢允褂糜斜O(jiān)督或無監(jiān)督的機(jī)器學(xué)習(xí)來完成。有監(jiān)督的機(jī)器學(xué)習(xí)需要預(yù)先標(biāo)記的數(shù)據(jù)，而無監(jiān)督的機(jī)器學(xué)習(xí)則使用預(yù)先準(zhǔn)備好的詞庫對情感進(jìn)行分類。

利用機(jī)器學(xué)習(xí)，用概率方法對輸入文本向量進(jìn)行分類。這可以通過一個訓(xùn)練模型（有監(jiān)督的機(jī)器學(xué)習(xí)）或者通過與合適詞庫（無監(jiān)督的機(jī)器學(xué)習(xí)）的比較來實(shí)現(xiàn)。

最后呈現(xiàn)的結(jié)果是基于機(jī)器學(xué)習(xí)過程中產(chǎn)生的概率的情緒分類。

結(jié)語

NLP發(fā)展迅速，對社會的影響越來越大。從語言翻譯到語音識別，從聊天機(jī)器人到識別情感，NLP正在提供有價值的見解，使我們的生活更高效。

現(xiàn)代自然語言處理運(yùn)用語言學(xué)、計(jì)算機(jī)科學(xué)和機(jī)器學(xué)習(xí)。近幾年來，NLP取得的成果遠(yuǎn)遠(yuǎn)超過過去我們所見。

NLP的基本工作流程包括文本預(yù)處理、文本表示和文本分析?，F(xiàn)在有各種各樣的技術(shù)在使用，更多的技術(shù)正在不斷的研究中發(fā)展。

NLP將徹底改變工業(yè)和消費(fèi)者體驗(yàn)的許多領(lǐng)域，并且已經(jīng)成為我們?nèi)粘Ｉ钪惺煜さ囊徊糠帧?/p>

有了NLP，我們就有了一種利用我們天生就習(xí)慣的媒介參與數(shù)字未來的有力方式，那就是我們用語言溝通交流的能力。

（來源：Medium 編譯：ODRobots 作者：Giri Rabindranath）