數(shù)據(jù)之戰(zhàn)：NLP邁向?qū)嵱秒A段的核心所在

情感導(dǎo)師 2022-10-24 6385

添加導(dǎo)師微信MurieL0304

獲取更多愛情挽回攻略婚姻修復(fù)技巧戀愛脫單干貨

雷鋒網(wǎng)AI科技評(píng)論按：隨著人工智能技術(shù)越來越多的應(yīng)用到我們的工作和日常生活中，人們對(duì)與計(jì)算機(jī)交互提出了更高的要求。人們顯然已不滿足于只是簡(jiǎn)單的人機(jī)對(duì)話，而是暢想可以達(dá)到人與人交流那樣的酣暢淋漓，就像科幻片像人們所展現(xiàn)的那樣。但是人類相互之間的交流不是文字或文字堆砌的句子所能表達(dá)的，而是一個(gè)微妙且復(fù)雜的過程。生活中，我們可以大量的使用語(yǔ)氣詞來加強(qiáng)你的語(yǔ)氣，表達(dá)你的愉悅、惱怒或者無聊。而要讓計(jì)算機(jī)真正理解人類日常交流用語(yǔ)，單單了解單詞的定義是遠(yuǎn)遠(yuǎn)不夠的，計(jì)算機(jī)還要理解人類的七情六欲，甚至潛臺(tái)詞。NLP實(shí)際上就是在極其豐富的人類語(yǔ)言之中和機(jī)器語(yǔ)言之間搭建無障礙溝通的橋梁。在新的 AI 技術(shù)發(fā)展下，越來越需要巨大的數(shù)據(jù)以支撐不同的場(chǎng)景。AI大牛沈向洋最近就職清華演講中提到：在任何時(shí)候，構(gòu)建AI都離不開數(shù)據(jù)，如何設(shè)計(jì)和構(gòu)建負(fù)責(zé)任的AI，數(shù)據(jù)的來源至關(guān)重要。當(dāng)下NLP的大部分應(yīng)用場(chǎng)景都缺少足夠規(guī)模的標(biāo)注數(shù)據(jù)，并且標(biāo)注成本也非常高。因此準(zhǔn)確率通常也不會(huì)很理想。那么如何才能以低成本、時(shí)效快的高質(zhì)量數(shù)據(jù)快速上手 ASR/TTS/NLP 引擎，步入NLP實(shí)用階段呢？針對(duì)這一問題，雷鋒網(wǎng)AI 科技評(píng)論有幸與澳鵬（Appen）中國(guó)區(qū)客戶服務(wù)副總裁段楊Danny Duan 進(jìn)行了一場(chǎng)深度對(duì)話。Danny 指出 “成品數(shù)據(jù)庫(kù)不失為一個(gè)明智的選擇?！?以下為完整對(duì)話內(nèi)容——

段楊Danny Duan，澳鵬（Appen）中國(guó)區(qū)客戶服務(wù)副總裁。曾歷任文思海輝總監(jiān)，助理副總裁，AI數(shù)據(jù)服務(wù)部門負(fù)責(zé)人。

一個(gè)成功NLP引擎的關(guān)鍵因素是算法和高質(zhì)量的數(shù)據(jù)，算法往往是公開的，差異化更多地來自于精準(zhǔn)大量的訓(xùn)練數(shù)據(jù)，定制的數(shù)據(jù)采集標(biāo)注時(shí)間長(zhǎng)，成本高。Q：目前在人機(jī)交互的人工智能中，聲稱幾乎每個(gè)決方案都利用了NLP，怎么理解這句話的涵義？ Danny：人機(jī)交互有幾個(gè)步驟，首先你要讓機(jī)器聽懂你說的是什么，比如智能音箱或者語(yǔ)音助手就是這樣一個(gè)很典型的情況。你對(duì)語(yǔ)音助手說了一句話，它能在計(jì)算機(jī)內(nèi)部轉(zhuǎn)換為相對(duì)應(yīng)的文本，因?yàn)橛?jì)算機(jī)處理文本信息比較容易，這就是語(yǔ)音識(shí)別技術(shù)。轉(zhuǎn)成文本以后，重點(diǎn)就是機(jī)器要理解你想要干什么，才能知道該如何去應(yīng)對(duì)。這就是自然語(yǔ)言理解或者或者叫NLP的任務(wù)。

比如我對(duì)著一個(gè)智能音箱說，“幫我打開空調(diào)?！? 首先，語(yǔ)音識(shí)別技術(shù)把我說的話轉(zhuǎn)換成文字。然后通過分析文字知道我的目的是要打開空調(diào)，這后面一步就是自然語(yǔ)言理解（NLP）的任務(wù)。它理解了，知道我要做的是打開空調(diào)，于是就操縱空調(diào)上的接收器去打開，包括進(jìn)一步設(shè)置到某一個(gè)溫度?，F(xiàn)在基本上各種自然語(yǔ)言理解引擎都是把各種各樣的輸入信息轉(zhuǎn)換成文本來進(jìn)行處理、分析、切割，進(jìn)行語(yǔ)意的提取，包括情緒的提取?？梢哉f這是真正實(shí)現(xiàn)人機(jī)交互的基礎(chǔ)。當(dāng)然整個(gè)交互的鏈條上還有一步，就是機(jī)器可能會(huì)與你對(duì)話，這里用到的就是語(yǔ)音合成（TTS）的技術(shù)，相當(dāng)于機(jī)器發(fā)聲。還有一個(gè)分支是跟語(yǔ)音交互相關(guān)的----語(yǔ)音翻譯，這里面就需要再加上一個(gè)機(jī)器翻譯的環(huán)節(jié)，把人說的話轉(zhuǎn)成文本之后再轉(zhuǎn)化成另外一種目標(biāo)語(yǔ)言，再去進(jìn)行NLP的處理和人機(jī)對(duì)話。 Q：如何來定義一個(gè)成功的NLP呢？ Danny：成功的NLP其實(shí)從最終用戶角度來講很簡(jiǎn)單，就是能夠像真人一樣知道我要說什么，要做什么，能夠做出正確的動(dòng)作或者給出正確的反應(yīng)。所謂人工智能，它的參照物其實(shí)就是人，這里主要指人機(jī)交互這個(gè)限定的領(lǐng)域。而像AlphaGo下圍棋這種人工智能，與我們所說的人機(jī)交互是兩個(gè)不同的方向。人機(jī)交互就是以人的行為作為標(biāo)桿，Siri的語(yǔ)音助手或者百度音箱，對(duì)話的時(shí)候，如果我不看見你，我是不是能夠感覺到你是一個(gè)機(jī)器，還是說我根本就分辨不出來你是機(jī)器還是真人。如果做到分辨不出來，那就說明這個(gè)NLP已經(jīng)做到非常成功了，以假亂真了，當(dāng)然現(xiàn)在的技術(shù)水平還相距甚遠(yuǎn)。 Q：NLP的難點(diǎn)主要體現(xiàn)在轉(zhuǎn)換的過程，也就是從語(yǔ)音和圖像轉(zhuǎn)換成文字這一部分？ Danny：其實(shí)真正的難點(diǎn)不在于轉(zhuǎn)換的過程，而在于分析的過程。因?yàn)榉治鑫谋荆⒉皇钦f簡(jiǎn)單地把一些詞或者句子的內(nèi)容識(shí)別出來，因?yàn)槟闶且R(shí)別意圖的。而最麻煩的是，人的意圖是發(fā)散的。我說“把空調(diào)開到26度”，這是一個(gè)確定的、有限的集合，作為智能家電也好或者智能音箱也好，相對(duì)比較容易應(yīng)對(duì)。但更多的情況下，我說的話是模糊的，有多種可能的含義，而且往往是有上下文的，附加背景知識(shí)的，這本身就是一個(gè)開放的集合，這種情景下NLP引擎能夠做到準(zhǔn)確分析正確應(yīng)對(duì)就難度非常大了。基于以上的原因，所以各個(gè)廠家在做NLP引擎或者應(yīng)用的時(shí)候，他們往往都會(huì)事先圈定好一些應(yīng)用場(chǎng)景，比如一些最常見的設(shè)鬧鐘、設(shè)日歷、客服對(duì)常見問題的回答，或者一些常見的搜索內(nèi)容，點(diǎn)播視頻或者找餐館這些。這樣在相對(duì)有限的一些場(chǎng)景里面，它才可以對(duì)常見的意圖進(jìn)行理解分析和應(yīng)對(duì)。對(duì)引擎訓(xùn)練范圍之外的內(nèi)容，它就會(huì)說對(duì)不起，我沒聽懂你說什么。這也是為什么你會(huì)發(fā)現(xiàn)跟語(yǔ)音助手對(duì)話的時(shí)候，它經(jīng)常會(huì)說我沒聽懂，然后把你說的話轉(zhuǎn)成文字，給你一個(gè)相當(dāng)于網(wǎng)上搜索的鏈接，事實(shí)上這就是因?yàn)樗澈蟮腘LP引擎沒有辦法處理這一類的內(nèi)容。 Q：它沒有辦法甄別像語(yǔ)氣這類吧，因?yàn)椴煌恼Z(yǔ)氣，從情緒上面可能意思會(huì)截然相反，實(shí)際上也就是無法解鎖情緒分析？ Danny：語(yǔ)氣是情感分析的一部分，這是很重要的一個(gè)方面，也可以說是一個(gè)難點(diǎn)。如果你試著用不同的語(yǔ)氣跟一個(gè)語(yǔ)音助手說話，比如用一個(gè)反問句，它很可能會(huì)給你一個(gè)錯(cuò)誤的對(duì)答。目前也不是說沒辦法。一方面，需要用大量的數(shù)據(jù)進(jìn)行訓(xùn)練來覆蓋各種各樣的場(chǎng)景，包括類似的內(nèi)容不同的語(yǔ)氣，不同的上下文所代表的不同含義；另一方面，做任何事情都有不同階段，首先要把最基本的階段夯實(shí)，然后才能再逐步疊加各種復(fù)雜的維度。比如正常對(duì)話的語(yǔ)氣，正常語(yǔ)速，沒有特別明顯的環(huán)境噪音，也沒有很多人同時(shí)在說話，也都是非常普通的內(nèi)容，這種最基礎(chǔ)的、最常規(guī)的場(chǎng)景先要先訓(xùn)練好，才能逐步追求更高復(fù)雜度的。 Q：目前NLP基本上還是處在一個(gè)比較常規(guī)和基礎(chǔ)的上面，遠(yuǎn)沒達(dá)到對(duì)復(fù)雜維度的處理層面？ Danny：可以這樣說，就是在常規(guī)的程度上，覺得可以用，但離實(shí)際應(yīng)用場(chǎng)景中的“好用”相對(duì)還比較遠(yuǎn)。但是各廠家的做法不一樣。對(duì)百度、微軟、Google和Apple這種頭部大廠商來說，他們更多著眼于通用場(chǎng)景，而其他一些廠商則主要聚焦某些特定場(chǎng)景，比如在開車的時(shí)候人機(jī)交互的場(chǎng)景；在醫(yī)院里跟醫(yī)生、病人對(duì)話的場(chǎng)景；或者客服的場(chǎng)景，通過縮減它的使用范圍，在有限的投入之內(nèi)用有限的數(shù)據(jù)，這樣比較容易訓(xùn)練出一個(gè)可用的NLP引擎。因?yàn)樽匀徽Z(yǔ)言處理不僅僅是機(jī)械的去識(shí)別聲波，它實(shí)際上是非常模糊的去識(shí)別、去判斷人跟你交流的意圖，這個(gè)復(fù)雜度確實(shí)非常高，一旦出錯(cuò)，很可能理解成相反的東西，甚至造成災(zāi)難性的后果。 Q：算法對(duì)NLP是第一位的嗎？ Danny：做任何人工智能的技術(shù)或者產(chǎn)品的研發(fā)，其實(shí)都需要三樣?xùn)|西，算法、算力和數(shù)據(jù)。算力本身就是一個(gè)支持性的東西。對(duì)于NLP而言，算法的理論突破是隔一段時(shí)間才會(huì)出現(xiàn)，而且現(xiàn)在行業(yè)內(nèi)算法的研究普遍是開源性質(zhì)的，各家的區(qū)別不大。所以真正核心的是數(shù)據(jù)。

而數(shù)據(jù)本身是千變?nèi)f化的。比如把NLP和語(yǔ)音識(shí)別相對(duì)比，關(guān)于中文的語(yǔ)音識(shí)別，中國(guó)字的量，包括各種各樣的口音，這些都是有限的。但是說話的內(nèi)容和所表達(dá)的意圖卻是無限的，而且會(huì)有層出不窮的新內(nèi)容出現(xiàn)。比如像新冠肺炎這種，如果引擎到今年不更新，它可能就識(shí)別不了。因此這些AI公司，就需要大量的數(shù)據(jù)去訓(xùn)練，并且持續(xù)訓(xùn)練他們的模型。

數(shù)據(jù)庫(kù)的優(yōu)點(diǎn)很明顯：第一，成本低；第二，時(shí)效快。成品數(shù)據(jù)庫(kù)可極大提升以機(jī)器學(xué)習(xí)作為核心技術(shù)的創(chuàng)業(yè)公司的競(jìng)爭(zhēng)力。Q：現(xiàn)在一些廠家如澳鵬都提供一些成品數(shù)據(jù)庫(kù)，怎么看待數(shù)據(jù)庫(kù)對(duì)NLP引擎的作用？ Danny：數(shù)據(jù)有不同的來源，你可以花錢去采集，比如花錢請(qǐng)一個(gè)人錄一小時(shí)的音，也可以找一些公開的數(shù)據(jù)，比如演講視頻或者是有聲讀物，網(wǎng)站上的文字圖片等等。還有像語(yǔ)音助手、智能音箱、語(yǔ)音輸入法這些APP，如果經(jīng)過用戶的授權(quán)，在你用這些APP時(shí)就已經(jīng)把真實(shí)的用戶數(shù)據(jù)提供給開發(fā)APP的廠商了。但這些都各有優(yōu)缺點(diǎn)，用戶數(shù)據(jù)是免費(fèi)的但不可控。如果你需要一些特定的數(shù)據(jù)，你就有可能找不到你需要的數(shù)據(jù)。當(dāng)然你也可以花錢去定向采集，但錢花多了能否承受，如果去找公開的數(shù)據(jù)，能找到多少是多少，又不具有系統(tǒng)性和針對(duì)性。數(shù)據(jù)庫(kù)有什么存在的價(jià)值呢？第一，它是現(xiàn)成的，拿來就能用，而如果采集一個(gè)一千人說話的數(shù)據(jù)再進(jìn)行標(biāo)注，你可能需要兩個(gè)月到三個(gè)月，在當(dāng)今的互聯(lián)網(wǎng)時(shí)代，一個(gè)產(chǎn)品周期都過去了。第二，數(shù)據(jù)庫(kù)成本低，因?yàn)檫@不是為某一個(gè)人的特定需求去定向采集的，做好了可以反復(fù)的賣，每次賣的時(shí)候，價(jià)格就可放低，在資金有限的情況下是非常重要的因素。但是它不好的地方呢？它已經(jīng)是現(xiàn)成的，所以不能改，它不是針對(duì)你的某一個(gè)具體的應(yīng)用而特意優(yōu)化的，所以數(shù)據(jù)庫(kù)是有很確定的使用場(chǎng)景，比如開發(fā)一個(gè)自然語(yǔ)言理解的引擎，或者語(yǔ)音識(shí)別的引擎，在早期階段用數(shù)據(jù)庫(kù)是一個(gè)非常好的方式，但是到后期針對(duì)你的應(yīng)用場(chǎng)景再調(diào)試的時(shí)候就需要去補(bǔ)充其他定制的數(shù)據(jù)。所以一直以來很多做人工智能的企業(yè)，都非常愿意去買數(shù)據(jù)庫(kù)。他們開發(fā)一個(gè)早期的引擎，就是希望以低成本和很短的時(shí)間快速上手進(jìn)入市場(chǎng)。這對(duì)當(dāng)下中國(guó)市場(chǎng)來說尤為重要，因?yàn)橹袊?guó)市場(chǎng)的迭代速度比歐美要快的多，可以說時(shí)間就是生命。所以說在國(guó)內(nèi)，像澳鵬這種成品數(shù)據(jù)庫(kù)，拿來就能用的，確實(shí)非常受歡迎。

成品數(shù)據(jù)庫(kù)不僅對(duì)初創(chuàng)公司尤為重要，像Google、Facebook等這樣的巨頭對(duì)其需求也始終很旺盛。Q：數(shù)據(jù)庫(kù)對(duì)一些創(chuàng)業(yè)型公司非常適用，但對(duì)Google等這樣的頭部廠商呢？ Danny：事實(shí)上，這些大企業(yè)他們的需求可能還會(huì)更多。一方面他們會(huì)把同樣的引擎推向不同的應(yīng)用場(chǎng)景，另一方面會(huì)推向不同國(guó)家的市場(chǎng)，這樣就會(huì)不斷地重復(fù)從基礎(chǔ)到定向開發(fā)的循環(huán)。

比如去年的一個(gè)美國(guó)英語(yǔ)雙人對(duì)話的數(shù)據(jù)庫(kù)，中國(guó)的客戶和美國(guó)的客戶都有大量需求，絕大部分還都是很有名的大公司，為什么呢？因?yàn)樗麄冞M(jìn)入到了一個(gè)新的階段，比如單人說話的識(shí)別引擎差不多了，要拓展到能夠識(shí)別兩個(gè)人對(duì)話，多人對(duì)話，甚至多人開會(huì)，一個(gè)人說話這樣的語(yǔ)音素材顯然不夠了，而是需要雙人對(duì)話的語(yǔ)音素材，那么就相當(dāng)于從一個(gè)較低的起點(diǎn)再開始，這正是數(shù)據(jù)庫(kù)最適用的地方。而另一個(gè)非常明顯的趨勢(shì)是目前中國(guó)這些領(lǐng)先的企業(yè)在拓展海外市場(chǎng)時(shí)，對(duì)中文以外的海外語(yǔ)言和外國(guó)人圖像的數(shù)據(jù)庫(kù)的需求也越來越旺盛。 Q：成品數(shù)據(jù)庫(kù)里面都是一些標(biāo)注好的數(shù)據(jù)嗎，還是已經(jīng)訓(xùn)練好的數(shù)據(jù)？ Danny：數(shù)據(jù)又可以分為訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)，數(shù)據(jù)庫(kù)都屬于訓(xùn)練數(shù)據(jù)。比如一個(gè)西班牙語(yǔ)500小時(shí)的語(yǔ)音識(shí)別數(shù)據(jù)庫(kù)，它最主體的內(nèi)容就是500小時(shí)的可能是500個(gè)人或者800個(gè)人每個(gè)人說很多句話的錄音音頻。但是光有這些錄音往往還是不夠的，還要對(duì)這些數(shù)據(jù)進(jìn)行一些加工，比如說要做轉(zhuǎn)寫，提供相對(duì)應(yīng)的文字文本，要讓計(jì)算機(jī)知道每一條音頻文件里面的波形圖對(duì)應(yīng)的是什么文本內(nèi)容，這樣才能進(jìn)行引擎訓(xùn)練。做語(yǔ)音識(shí)別引擎的訓(xùn)練，比如一條音頻10秒鐘長(zhǎng)，不僅要識(shí)別出來說的話，凡是這一段音頻里面出現(xiàn)的聲音都要能夠辨別，比如開門的聲音，打噴嚏的聲音，小孩在哭的聲音，放音樂的聲音，或者旁邊有汽車經(jīng)過的聲音，都要能夠識(shí)別出來這是有用的聲音內(nèi)容還是無用的干擾聲，所以語(yǔ)音轉(zhuǎn)寫它還包括區(qū)分各種各樣類型的聲音。還有一些相對(duì)比較復(fù)雜的處理，比如它還會(huì)包括時(shí)間戳，尤其是在雙人或者多人對(duì)話的情況下，每個(gè)人說話的起始位置和結(jié)束位置，包括說話人的區(qū)分。很多時(shí)候還會(huì)要附帶相應(yīng)的發(fā)音詞典。整個(gè)語(yǔ)音數(shù)據(jù)庫(kù)，比如這500小時(shí)的音頻里面可能出現(xiàn)了3700個(gè)不同的單詞，每一個(gè)單詞它按照語(yǔ)言學(xué)領(lǐng)域標(biāo)準(zhǔn)的音標(biāo)表，都要把出現(xiàn)過的發(fā)音給標(biāo)出來。

一般這樣就算是一個(gè)相對(duì)完整的語(yǔ)音數(shù)據(jù)庫(kù)，把這樣一套基本素材提供給客戶，讓他將這個(gè)數(shù)據(jù)集灌到模型里面去訓(xùn)練，參照對(duì)應(yīng)的文本，時(shí)間戳，發(fā)音詞典，就可以做出有一定識(shí)別能力的一個(gè)引擎。而發(fā)音詞典又可以獨(dú)立出來，因?yàn)閱卧~的發(fā)音是比較固定的。所以澳鵬又有很多專門的發(fā)音詞典庫(kù)，近百種語(yǔ)言，每個(gè)語(yǔ)言少則幾千條詞條，多則幾十萬條詞條。Q：目前國(guó)內(nèi)這些NLP在海外覆蓋的多，還是中文的多？ Danny：當(dāng)然國(guó)內(nèi)肯定都是立足于中文普通話和方言市場(chǎng)，但是國(guó)內(nèi)市場(chǎng)現(xiàn)在已經(jīng)競(jìng)爭(zhēng)白日化了，國(guó)外這些行業(yè)里的巨頭也在試圖分一杯羹，因此國(guó)內(nèi)的頭部企業(yè)也要尋求增長(zhǎng)點(diǎn)，越來越多的是把目光投向海外市場(chǎng)上。比如像阿里、華為、OV、小米、科大訊飛，字節(jié)跳動(dòng)這些公司這兩年海外拓展力度都很大。可以說，大家眼光一邊盯著海外市場(chǎng)布局，一邊繼續(xù)在國(guó)內(nèi)市場(chǎng)深耕以堅(jiān)守自己的大本營(yíng)。

成本低、時(shí)效快的成品數(shù)據(jù)庫(kù)對(duì)ASR/TTS/NLP引擎開發(fā)事半功倍。Q：ASR/TTS 在難度上有差別么？為什么說更適合用數(shù)據(jù)庫(kù)？ Danny：其實(shí)它們是不同的應(yīng)用類型，ASR就是一個(gè)語(yǔ)音識(shí)別。通俗說，就是把人說的內(nèi)容轉(zhuǎn)換成對(duì)應(yīng)的文字。比如微信語(yǔ)音可以直接轉(zhuǎn)換成文字，這就是一個(gè)直觀的ASR應(yīng)用。TTS（Text to Speech）,就是文本到語(yǔ)音，在業(yè)界的一個(gè)說法就是合成語(yǔ)音，也就是讓機(jī)器說話。TTS實(shí)際上它是反過來的，先給機(jī)器提供文本，機(jī)器對(duì)照著這個(gè)文本，相當(dāng)于念稿子一樣的，機(jī)器能夠發(fā)出對(duì)應(yīng)的音來，當(dāng)然TTS合成語(yǔ)音的做法又跟語(yǔ)音識(shí)別的做法不太一樣，不僅訓(xùn)練方式不一樣，而且它所需要的數(shù)據(jù)也不一樣。相對(duì)而言，TTS的技術(shù)是比較容易的，而且也是目前最成熟的。如果從頭去采集做TTS引擎的數(shù)據(jù)，即使只是10個(gè)小時(shí)的音頻數(shù)據(jù)，再加上韻律標(biāo)注和發(fā)音詞典的制作，兩三個(gè)月都不一定做得完，成本會(huì)相當(dāng)高，這還只是數(shù)據(jù)準(zhǔn)備的階段。如果是采購(gòu)成品數(shù)據(jù)庫(kù)，拿到數(shù)據(jù)以后兩個(gè)星期就可以完成所有數(shù)據(jù)準(zhǔn)備和引擎開發(fā)的過程，做出一個(gè)可用的TTS引擎來，這就是數(shù)據(jù)庫(kù)的好處。再比如一個(gè)500小時(shí)的西班牙語(yǔ)的ASR語(yǔ)言數(shù)據(jù)集，如果全部從頭做,跟買數(shù)據(jù)庫(kù)相比成本上至少要差到一倍以上，時(shí)間上來講連音頻的采集帶加工，附加對(duì)應(yīng)文字的轉(zhuǎn)寫和發(fā)音詞典，最少需要兩至三個(gè)月。但如果是購(gòu)買數(shù)據(jù)庫(kù)，今天簽合同，明天就可以傳過去了。 Q：后續(xù)是否需要提供更適合需求為具體場(chǎng)景而定制的數(shù)據(jù)來替代成品數(shù)據(jù)庫(kù)？ Danny：不完全是這樣，市場(chǎng)上一直既有成品數(shù)據(jù)庫(kù)的大量需求，也有大量需求需要定制，二者并不矛盾。任何場(chǎng)景都需要從基礎(chǔ)起步，而這個(gè)階段就是成品數(shù)據(jù)庫(kù)最能發(fā)揮優(yōu)勢(shì)的階段。以前人工智能技術(shù)開發(fā)所關(guān)注的場(chǎng)景比較少，對(duì)數(shù)據(jù)庫(kù)需求的種類也少，隨著場(chǎng)景的多元化，數(shù)據(jù)庫(kù)的需求也隨之增大，只是對(duì)數(shù)據(jù)內(nèi)容和精度的要求持續(xù)在變化。我們的判斷就是某一類需求僅僅是一個(gè)一次性的需求，還是說可能會(huì)有一些普遍的需求，對(duì)于可能會(huì)產(chǎn)生重復(fù)需求的，我們就可以把它制作成一個(gè)數(shù)據(jù)庫(kù)。比如嬰幼兒啼哭的數(shù)據(jù)，很可能做智能家居的廠家在產(chǎn)品研發(fā)的某一個(gè)階段就會(huì)用到，我們認(rèn)為就值得去做成一個(gè)數(shù)據(jù)庫(kù)。 Q：最后，澳鵬目前也在做成品數(shù)據(jù)庫(kù)，你能介紹一下你們產(chǎn)品的特色？ Danny: 我們根據(jù)市場(chǎng)上頭部公司和創(chuàng)業(yè)公司的需求趨勢(shì)，及20多年行業(yè)經(jīng)驗(yàn)的累積，可以為我們的客戶提供豐富的成品數(shù)據(jù)庫(kù)來加快其AI產(chǎn)品的開發(fā)及迭代。

* 語(yǔ)音識(shí)別庫(kù)（ASR）64種語(yǔ)言， 21,000小時(shí) * 合成語(yǔ)音庫(kù)（TTS）3種語(yǔ)言4種音色 * 發(fā)音詞典98種語(yǔ)言，460萬詞條 * 詞性詞典21種語(yǔ)言，190萬詞條 * 命名實(shí)體庫(kù)（NER）8種語(yǔ)言 * 詞形分析器3種語(yǔ)言 * 黑人面部圖片1000人13萬張 * 中國(guó)人帶口罩面部圖片1000人7000張 * OCR圖片泰語(yǔ)、芬蘭語(yǔ)、中文各5000張 * 嬰兒啼哭音頻數(shù)據(jù)300人300分鐘 * 家貓表情動(dòng)作視頻1000只除了這里列出的數(shù)據(jù)庫(kù)以外，我們還在持續(xù)制作新的數(shù)據(jù)庫(kù)來滿足市場(chǎng)需求，也非常歡迎戰(zhàn)斗在AI技術(shù)一線的同行們向我們提出數(shù)據(jù)庫(kù)的期望。

雷鋒網(wǎng)AI 科技評(píng)論注：欲了解澳鵬在成品數(shù)據(jù)庫(kù)方面的工作，可以訪問此鏈接， https://www.appen.com.cn/off-the-shelf-linguistic-resources/