什么是機器學(xué)習(xí)？看完就明白了

情感導(dǎo)師 2023-05-13 8799

添加導(dǎo)師微信MurieL0304

獲取更多愛情挽回攻略婚姻修復(fù)技巧戀愛脫單干貨

說到人工智能必然要了解機器學(xué)習(xí)，從信息化軟件，到電子商務(wù)，然后到高速發(fā)展互聯(lián)網(wǎng)時代，到至今的云計算、大數(shù)據(jù)等，滲透到我們的生活、工作之中，在互聯(lián)網(wǎng)的驅(qū)動下，人們更清晰的認(rèn)識和使用數(shù)據(jù)，不僅僅是數(shù)據(jù)統(tǒng)計、分析，我們還強調(diào)數(shù)據(jù)挖掘、預(yù)測。

一、什么是機器學(xué)習(xí)

1. 機器學(xué)習(xí)概念

機器學(xué)習(xí)就是對計算機一部分?jǐn)?shù)據(jù)進(jìn)行學(xué)習(xí)，然后對另外一些數(shù)據(jù)進(jìn)行預(yù)測與判斷。

機器學(xué)習(xí)的核心是“使用算法解析數(shù)據(jù)，從中學(xué)習(xí)，然后對新數(shù)據(jù)做出決定或預(yù)測”。也就是說計算機利用以獲取的數(shù)據(jù)得出某一模型，然后利用此模型進(jìn)行預(yù)測的一種方法，這個過程跟人的學(xué)習(xí)過程有些類似，比如人獲取一定的經(jīng)驗，可以對新問題進(jìn)行預(yù)測。

我們舉個例子，我們都知道支付寶春節(jié)的“集五福”活動，我們用手機掃“福”字照片識別福字，這個就是用了機器學(xué)習(xí)的方法。我們可以為計算機提供“?！弊值恼掌瑪?shù)據(jù)，通過算法模型機型訓(xùn)練，系統(tǒng)不斷更新學(xué)習(xí)，然后輸入一張新的福字照片，機器自動識別這張照片上是否有福字。

機器學(xué)習(xí)是一門多領(lǐng)域交叉學(xué)科，涉及概率論、統(tǒng)計學(xué)、計算機科學(xué)等多門學(xué)科。機器學(xué)習(xí)的概念就是通過輸入海量訓(xùn)練數(shù)據(jù)對模型進(jìn)行訓(xùn)練，使模型掌握數(shù)據(jù)所蘊含的潛在規(guī)律，進(jìn)而對新輸入的數(shù)據(jù)進(jìn)行準(zhǔn)確的分類或預(yù)測。如下圖所示：

2. 機器學(xué)習(xí)分類

我們了解了機器學(xué)習(xí)的概念，通過建立模型進(jìn)行自我學(xué)習(xí)，那么學(xué)習(xí)方法有哪些呢？

（1）監(jiān)督學(xué)習(xí)

監(jiān)督學(xué)習(xí)就是訓(xùn)練機器學(xué)習(xí)的模型的訓(xùn)練樣本數(shù)據(jù)有對應(yīng)的目標(biāo)值，監(jiān)督學(xué)習(xí)就是通過對數(shù)據(jù)樣本因子和已知的結(jié)果建立聯(lián)系，提取特征值和映射關(guān)系，通過已知的結(jié)果，已知數(shù)據(jù)樣本不斷的學(xué)習(xí)和訓(xùn)練，對新的數(shù)據(jù)進(jìn)行結(jié)果的預(yù)測。

監(jiān)督學(xué)習(xí)通常用在分類和回歸。比如手機識別垃圾短信，電子郵箱識別垃圾郵件，都是通過對一些歷史短信、歷史郵件做垃圾分類的標(biāo)記，對這些帶有標(biāo)記的數(shù)據(jù)進(jìn)行模型訓(xùn)練，然后獲取到新的短信或是新的郵件時，進(jìn)行模型匹配，來識別此郵件是或是不是，這就是監(jiān)督學(xué)習(xí)下分類的預(yù)測。

再舉一個回歸的例子，比如我們要預(yù)測公司凈利潤的數(shù)據(jù)，我們可以通過歷史上公司利潤（目標(biāo)值），以及跟利潤相關(guān)的指標(biāo)，比如營業(yè)收入、資產(chǎn)負(fù)債情況、管理費用等數(shù)據(jù)，通過回歸的方式我們回到的一個回歸方程，建立公司利潤與相關(guān)因此的方程式，通過輸入因子數(shù)據(jù)，來預(yù)測公司利潤。

監(jiān)督學(xué)習(xí)難點是獲取具有目標(biāo)值的樣本數(shù)據(jù)成本較高，成本高的原因在于這些訓(xùn)練集的要依賴人工標(biāo)注工作。

（2）無監(jiān)督學(xué)習(xí)

無監(jiān)督學(xué)習(xí)跟監(jiān)督學(xué)習(xí)的區(qū)別就是選取的樣本數(shù)據(jù)無需有目標(biāo)值，我們無需分析這些數(shù)據(jù)對某些結(jié)果的影響，只是分析這些數(shù)據(jù)內(nèi)在的規(guī)律。

無監(jiān)督學(xué)習(xí)常用在聚類分析上面。比如客戶分群、因子降維等。比如RFM模型的使用，通過客戶的銷售行為（消費次數(shù)、最近消費時間、消費金額）指標(biāo)，來對客戶數(shù)據(jù)進(jìn)行聚類：

重要價值客戶：最近消費時間近、消費頻次和消費金額都很高；重要保持客戶：最近消費時間較遠(yuǎn)，但消費頻次和金額都很高，說明這是個一段時間沒來的忠誠客戶，我們需要主動和他保持聯(lián)系；重要發(fā)展客戶：最近消費時間較近、消費金額高，但頻次不高，忠誠度不高，很有潛力的用戶，必須重點發(fā)展；重要挽留客戶：最近消費時間較遠(yuǎn)、消費頻次不高，但消費金額高的用戶，可能是將要流失或者已經(jīng)要流失的用戶，應(yīng)當(dāng)基于挽留措施。除此之外，無監(jiān)督學(xué)習(xí)也適用于降維，無監(jiān)督學(xué)習(xí)比監(jiān)督學(xué)習(xí)好處是數(shù)據(jù)不需要人工打標(biāo)記，數(shù)據(jù)獲取成本低。

（3）半監(jiān)督學(xué)習(xí)

半監(jiān)督學(xué)習(xí)是監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)相互結(jié)合的一種學(xué)習(xí)方法，通過半監(jiān)督學(xué)習(xí)的方法可以實現(xiàn)分類、回歸、聚類的結(jié)合使用。

半監(jiān)督分類：是在無類標(biāo)簽的樣例的幫助下訓(xùn)練有類標(biāo)簽的樣本，獲得比只用有類標(biāo)簽的樣本訓(xùn)練得到更優(yōu)的分類；半監(jiān)督回歸：在無輸出的輸入的幫助下訓(xùn)練有輸出的輸入，獲得比只用有輸出的輸入訓(xùn)練得到的回歸器性能更好的回歸；半監(jiān)督聚類：在有類標(biāo)簽的樣本的信息幫助下獲得比只用無類標(biāo)簽的樣例得到的結(jié)果更好的簇，提高聚類方法的精度；半監(jiān)督降維：在有類標(biāo)簽的樣本的信息幫助下找到高維輸入數(shù)據(jù)的低維結(jié)構(gòu)，同時保持原始高維數(shù)據(jù)和成對約束的結(jié)構(gòu)不變。半監(jiān)督學(xué)習(xí)是最近比較流行的方法。

（4）強化學(xué)習(xí)

強化學(xué)習(xí)是一種比較復(fù)雜的機器學(xué)習(xí)方法，強調(diào)系統(tǒng)與外界不斷的交互反饋，它主要是針對流程中不斷需要推理的場景，比如無人汽車駕駛，它更多關(guān)注性能。它是機器學(xué)習(xí)中的熱點學(xué)習(xí)方法。

3. 關(guān)于深度學(xué)習(xí)

深度學(xué)習(xí)是目前關(guān)注度很高的一類算法，深度學(xué)習(xí)(DeepLearning，DL)屬于機器學(xué)習(xí)的子類。它的靈感來源于人類大腦的工作方式，是利用深度神經(jīng)網(wǎng)絡(luò)來解決特征表達(dá)的一種學(xué)習(xí)過程。

人工智能、機器學(xué)習(xí)、深度學(xué)習(xí)關(guān)系如下圖所示：

深度學(xué)習(xí)歸根結(jié)底也是機器學(xué)習(xí)，不過它不同于監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、強化學(xué)習(xí)的這種分類方法，它是另一種分類方法，基于算法神經(jīng)網(wǎng)絡(luò)的深度，可以分成淺層學(xué)習(xí)算法和深度學(xué)習(xí)算法。

淺層學(xué)習(xí)算法主要是對一些結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)一些場景的預(yù)測，深度學(xué)習(xí)主要解決復(fù)雜的場景，比如圖像、文本、語音識別與分析等。

4. 了解機器學(xué)習(xí)概念對產(chǎn)品經(jīng)理意義

本節(jié)主要在于理清一些機器學(xué)習(xí)基本概念，簡單介紹一下應(yīng)用場景，重點在于理解機器學(xué)習(xí)本質(zhì)上還是對于數(shù)據(jù)的的一種處理方式，數(shù)據(jù)的使用方式，通過數(shù)據(jù)解析其中的規(guī)律，來預(yù)測未來數(shù)據(jù)結(jié)果。

二、機器學(xué)習(xí)的應(yīng)用

我們在說機器學(xué)習(xí)分類的時候，簡單介紹了一下不同機器學(xué)習(xí)方法，主要是解決是什么問題，在本節(jié)中具體介紹一些常用的應(yīng)用場景，主要說明這些應(yīng)用到底怎么用，不對其中的算法以及原理做深入的介紹。

1. 分類和聚類

分類和聚類機器學(xué)習(xí)最常用的應(yīng)用場景，分類和聚類都是對數(shù)據(jù)的分組，我們剛接觸的時候，很容易混淆這兩個應(yīng)用的概念，覺得分類就是聚類，其實他們有很多的不同。

分類是我們知道有哪些組，然后對數(shù)據(jù)進(jìn)行判斷，判斷這些數(shù)據(jù)到底是預(yù)先知道的那些組。舉個很簡單的例子，比如我們在軍訓(xùn)排隊時要求男生一組，女生一組，這就是一種分類，我們提前知道要分那些組，然后通過一種算法對輸入的數(shù)據(jù)判定，來分類到已知的類別下，這個就是分類。

分類從數(shù)學(xué)函數(shù)角度來說:分類任務(wù)就是通過學(xué)習(xí)得到一個目標(biāo)函數(shù)f，把每個屬性集x映射到一個預(yù)先定義的類標(biāo)號y中。就是我們根據(jù)已知的一些樣本（包括屬性與類標(biāo)號）來得到分類模型（即得到樣本屬性與類標(biāo)號之間的函數(shù)），然后通過此目標(biāo)函數(shù)來對只包含屬性的樣本數(shù)據(jù)進(jìn)行分類。

所以分類屬于監(jiān)督學(xué)習(xí)方法，比如圖像識別，比如我們從一些圖像中識別是貓還是狗的照片等，它解決的是“是或否”的問題，就是將需要被分析的數(shù)據(jù)跟已知的類別結(jié)果做判斷，看這些數(shù)據(jù)到底是那個類別數(shù)據(jù)。

在分類中，對于目標(biāo)數(shù)據(jù)中存在哪些類是知道的，要做的就是將每一條記錄分別屬于哪一類標(biāo)記出來。但是聚類解決的就是在不知道類的情況下，如何把數(shù)據(jù)參數(shù)做一個劃分。

聚類是實現(xiàn)不知道這批數(shù)據(jù)有哪些類別或標(biāo)簽，然后通過算法的選擇，分析數(shù)據(jù)參數(shù)的特征值，然后進(jìn)行機器的數(shù)據(jù)劃分，把相似的數(shù)據(jù)聚到一起，所以它是無監(jiān)督學(xué)習(xí)；

比如RFM模型中我們通過客戶銷售數(shù)據(jù)，通過這些數(shù)據(jù)對客戶分群，然后通過聚類的方法，將相似度高的數(shù)據(jù)聚類到一起，通過分析出來的數(shù)據(jù)我們可以對數(shù)據(jù)特性在定義標(biāo)簽，它解決的是相似度的問題，將相似度高的聚集到一起。

我們舉個例子來總結(jié)一下分類和聚類都是什么用途：

比如我們有1000張照片，假設(shè)我們之前已經(jīng)定義好貓、狗的照片，做了訓(xùn)練，如果從這1000張照片中區(qū)分出來貓、狗的照片，那么這就是分類；

假設(shè)我們沒做過貓狗的照片，我們只是對1000張照片的數(shù)據(jù)做一個歸類，看看那些照片相似度高，分類完成后，在通過相似度比較高的幾類，我們再定義這些類別的是貓、狗或是其他圖片什么的。

2. 回歸

回歸在統(tǒng)計學(xué)角度，指的是確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計分析方法。回歸分析按照涉及的變量的多少，分為一元回歸和多元回歸分析；按照因變量的多少，可分為簡單回歸分析和多重回歸分析；按照自變量和因變量之間的關(guān)系類型，可分為線性回歸分析和非線性回歸分析。

在大數(shù)據(jù)分析中，回歸分析是一種預(yù)測性的建模技術(shù)，它研究的是因變量（目標(biāo)）和自變量（預(yù)測器）之間的關(guān)系。這種技術(shù)通常用于預(yù)測分析，時間序列模型以及發(fā)現(xiàn)變量之間的因果關(guān)系。

回歸從數(shù)學(xué)角度來看是一種方程式，是一種解題方法，一種通過一些函數(shù)因子的關(guān)系的一種學(xué)習(xí)方法。比如以下簡單的一個函數(shù)：

回歸從算法角度來說，它是對有監(jiān)督的連續(xù)數(shù)據(jù)結(jié)果的預(yù)測，比如通過一個人過去年份工資收入相關(guān)的影響參數(shù)，建立回歸模型，然后通過相關(guān)的參數(shù)的變更來預(yù)測他未來工資收入。

當(dāng)然通過建立回歸模型，再結(jié)合數(shù)學(xué)上對方程式的解析，我們也可以倒退出來為了一個預(yù)定的結(jié)果我們需要對那些參數(shù)值做優(yōu)化?；貧w最終要的是得到相關(guān)的參數(shù)和參數(shù)的特征值，因此我們通常在做回歸分析時通常會做目標(biāo)參數(shù)相關(guān)性分析。

只要我們有足夠的數(shù)據(jù)，都可以做一些回歸分析幫助我們做預(yù)測與決策。比如我們上線了一些功能，可以通過點擊率、打開率、分享情況等等跟產(chǎn)生的業(yè)務(wù)結(jié)果做回歸分析，如果建立了函數(shù)關(guān)系，我們就可以預(yù)測一些結(jié)果，再比如我們通過歷史上年齡、體重、血壓指標(biāo)、血脂指標(biāo)、是否抽煙、是否喝酒等指標(biāo)跟某種疾病做回歸分析，可以預(yù)測某一名人員是否有此疾病的風(fēng)險等。

所以回歸的主要目的在于對連續(xù)數(shù)據(jù)產(chǎn)生的規(guī)律之后對新數(shù)據(jù)可能產(chǎn)生某種結(jié)果的預(yù)測。

3. 降維

降維就是去除冗余的特征，降低特征參數(shù)的維度降低，用更加少的維度來表示特征，比如圖像識別中將一幅圖像轉(zhuǎn)換成高緯度的數(shù)據(jù)集合，因為高緯度數(shù)據(jù)處理復(fù)雜度很高，我們就需要進(jìn)行降維處理，降低了計算機處理高維度的圖像數(shù)據(jù)的復(fù)雜性，減少了冗余數(shù)據(jù)造成的識別誤差，提高識別經(jīng)度。

我們從統(tǒng)計學(xué)角度在理解一下機器學(xué)習(xí)的這四大應(yīng)用，如果我們有一批樣本，希望能夠預(yù)測是都屬于某相關(guān)屬性，如果樣本值是離散的，我們就可以使用分類的方法，如果是連續(xù)的我們就可以使用回歸的方法，如果我們這批樣本沒有對應(yīng)的屬性，而是想挖掘其中的相關(guān)性，那么就用聚類的方式。

如果我們涉及到的參數(shù)很多，維度很多，我們就可以用降維的方法去尋找更精準(zhǔn)的參數(shù)，不管是做分類、聚類還是回歸，都能達(dá)到更精確的判斷和預(yù)測。

除此之外，語音識別、圖像識別、文本識別、語義分析等都是通過機器學(xué)習(xí)基本方法的綜合利用。

4. 不同應(yīng)用場景算法舉例

下圖中針對不同應(yīng)用場景做的算法舉例，大家感興趣可自行了解各個算法的原理。

5. 理解機器學(xué)習(xí)應(yīng)用對產(chǎn)品經(jīng)理的意義

理解機器學(xué)習(xí)應(yīng)用對產(chǎn)品經(jīng)理非常有意義：

一方面產(chǎn)品經(jīng)理需要理解機器學(xué)習(xí)到底能解決什么問題，面對我們的業(yè)務(wù)需求，是否可以通過機器學(xué)習(xí)的方式去滿足我們的需求；同時理解了機器學(xué)習(xí)的應(yīng)用也就是理解AI為什么中臺作用這么明顯。

比如我們在面臨的人群劃分、或是商品標(biāo)簽劃分，可以考慮一下聚類方法；在面對APP功能點擊預(yù)測、分享預(yù)測我們可以考慮一下分類方法；面對商品購買預(yù)測我們可以考慮回歸的方法等；

另一方面通過機器學(xué)習(xí)應(yīng)用我們可以看到數(shù)據(jù)的重要性，要求我們產(chǎn)品經(jīng)理能更好的利用數(shù)據(jù)，數(shù)據(jù)可以通過一些算法來解決一些預(yù)測、判斷的問題。

三、機器學(xué)習(xí)流程

人們在使用機器學(xué)習(xí)的時候，把很大的精力放在了選擇算法、優(yōu)化算法上面，其實算法的選擇只是機器學(xué)習(xí)其中的一個步驟，但是機器學(xué)習(xí)其他的步驟也是很關(guān)鍵的，尤其是作為產(chǎn)品經(jīng)理，了解這個機器學(xué)習(xí)流程也是至關(guān)重要的。

機器學(xué)習(xí)的流程本質(zhì)上就是數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)分析、數(shù)據(jù)處理、結(jié)果反饋的過程，按照這個思路，我們可以把機器學(xué)習(xí)分為如下步驟：業(yè)務(wù)場景分析、數(shù)據(jù)處理、特征工程、算法模型訓(xùn)練、應(yīng)用服務(wù)。下面具體介紹一下這幾個步驟。

1. 業(yè)務(wù)場景分析

業(yè)務(wù)場景分析就是將我們的業(yè)務(wù)需求、使用場景轉(zhuǎn)換成機器學(xué)習(xí)的需求語言，然后分析數(shù)據(jù)，選擇算法的過程。這個是機器學(xué)習(xí)的準(zhǔn)備階段，主要包括以下3點：業(yè)務(wù)抽象、數(shù)據(jù)準(zhǔn)備、選擇算法。

（1）業(yè)務(wù)抽象

業(yè)務(wù)抽象說白了就是針對于業(yè)務(wù)需求，抽象成機器學(xué)習(xí)的應(yīng)用場景的問題，我們上節(jié)中講了機器學(xué)習(xí)的分類、聚類、回歸、降維的應(yīng)用場景，其實業(yè)務(wù)抽象就是把我們遇到的業(yè)務(wù)需求抽象成上述應(yīng)用場景。

比如我們要做產(chǎn)品推薦的需求，我們要把指定的產(chǎn)品推薦給相應(yīng)的用戶，也就是如何精準(zhǔn)營銷，給用戶推薦是合適的產(chǎn)品。

我們抽象成機器學(xué)習(xí)的語言就是一個產(chǎn)品A是否要推薦給用戶a，這就是一個是或者否的問題，也就是一個分類應(yīng)用場景。這就是業(yè)務(wù)抽象，就是把業(yè)務(wù)需求抽象成機器學(xué)習(xí)的應(yīng)用場景。

（2）數(shù)據(jù)準(zhǔn)備

機器學(xué)習(xí)的基礎(chǔ)就是數(shù)據(jù)，沒有數(shù)據(jù)是無法訓(xùn)練模型，也就是機器是無法學(xué)習(xí)的，所以數(shù)據(jù)準(zhǔn)備就是識別、收集、加工數(shù)據(jù)階段。

通過圖譜我們了解到，我們能獲取到的數(shù)據(jù)有機構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)，機器學(xué)習(xí)同樣的是這些數(shù)據(jù)，這些數(shù)據(jù)類型在知識圖譜有講解，不在贅述，這里主要講一下作為產(chǎn)品經(jīng)理進(jìn)行數(shù)據(jù)準(zhǔn)備時需要考慮的因素。

1）數(shù)據(jù)字段的考慮

關(guān)于數(shù)據(jù)字段考慮就是說我們在準(zhǔn)備數(shù)據(jù)時，無論是結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)話數(shù)據(jù)，我們都要抽象成一個二維表，二維表表頭就是這些數(shù)據(jù)的表示或是數(shù)據(jù)的名稱，這個就是數(shù)據(jù)字段。

對于數(shù)據(jù)字段涉及到兩方面：

一方面就是數(shù)據(jù)字段范圍，也就是我們在做業(yè)務(wù)需求的時候需要哪些字段作為機器學(xué)習(xí)參數(shù)，這跟我們做后臺產(chǎn)品經(jīng)理類似。

做后臺涉及需要進(jìn)行數(shù)據(jù)項字段的設(shè)計，這些字段有業(yè)務(wù)字段、邏輯字段、系統(tǒng)字段等，對于機器學(xué)習(xí)字段考慮要比后臺設(shè)計的字段考慮更深一些，他不僅僅是后臺產(chǎn)生的這寫數(shù)據(jù)，還包括一些過程數(shù)據(jù)、結(jié)果數(shù)據(jù)、埋點數(shù)據(jù)、轉(zhuǎn)換數(shù)據(jù)（定性轉(zhuǎn)定量）等，具體我們可以參考一些統(tǒng)計學(xué)的方法，去收集、制定機器學(xué)習(xí)的字段。

一方面就是字段類型的判定，比如到底是字符串型的還是數(shù)值型的。

我們做回歸分析，需要的必須是數(shù)值型的，因為回歸是連續(xù)變量的分析，假如你要分析性別這個字段，那么必須把他的字段值定義成數(shù)值型的，例如0和1，這樣才算是連續(xù)變量，才能做回歸分析，假如要做分類，我們就可以把性別的字段設(shè)定成字符串，例如男和女。

2）數(shù)據(jù)的考慮

關(guān)于數(shù)據(jù)的考慮就是你能獲取到的數(shù)據(jù)案例，就是二維表中除了表頭數(shù)據(jù)字段名稱剩下的真實數(shù)據(jù)了，對于數(shù)據(jù)考慮，作為產(chǎn)品經(jīng)理我們要考慮兩點：

一個是數(shù)據(jù)量，在機器學(xué)習(xí)中，數(shù)據(jù)需要一定的量，希望可以盡可能的大；

一個是數(shù)據(jù)的缺省，這個是數(shù)據(jù)質(zhì)量問題，要求我們盡可能完善的收集數(shù)據(jù)，如果數(shù)據(jù)缺失比較多或者數(shù)據(jù)亂碼比較多的字段，可以不參與模型測算，否則會影響結(jié)果，

（3）算法選擇

算法選擇確定了機器學(xué)習(xí)的需求、確定了數(shù)據(jù)項，選擇何種算法模型的問題，此階段由算法工程師主導(dǎo)的，我們知道機器學(xué)習(xí)有很多的算法，所以算法選擇也具有多樣性；

同樣一個問題可以多種算法解決，隨著計算機科學(xué)的發(fā)展，為了也會有更多的算法支持，同時同一種算法也可以通過調(diào)參進(jìn)行優(yōu)化。

2. 數(shù)據(jù)處理

數(shù)據(jù)處理就是數(shù)據(jù)的選擇和清洗的過程，數(shù)據(jù)準(zhǔn)備好后，確定了算法，確定了需求，就需要對數(shù)據(jù)進(jìn)行處理，數(shù)據(jù)處理的目的就是盡可能降低對算法的干擾。在數(shù)據(jù)處理中我們會經(jīng)常用到“去噪”和“歸一”。

去噪就是去除數(shù)中干擾的數(shù)據(jù)，也就是說你的數(shù)據(jù)案例中存在特別情況的，或者是不正常的數(shù)據(jù)，一方面要求我們產(chǎn)品經(jīng)理拿到的數(shù)據(jù)是反映真實世界的數(shù)據(jù)，一方面我們通過算法可以識別干擾的數(shù)據(jù)，比如對于數(shù)據(jù)有正態(tài)分布效果的我們可以通過3標(biāo)準(zhǔn)差去噪，因此去噪的目的就是去除掉數(shù)據(jù)中異常的數(shù)據(jù)。

歸一就是將數(shù)據(jù)進(jìn)行簡化，一般將數(shù)據(jù)簡化在【0,1】，數(shù)據(jù)歸一化主要是幫助算法能夠很好的尋找最優(yōu)解。

一方面解決的是對于一個數(shù)據(jù)字段可有多重標(biāo)示方式，然后數(shù)據(jù)拿到的多重標(biāo)示方式的時候，比如一群羊有30只羊，然后你那到的數(shù)據(jù)有以群為單位的，有以只為單位的，那么著數(shù)據(jù)必然有誤差；

再比如形容一個小時，我們可以以小時單位，也可以以分鐘為單位，也可以以秒單位，因為數(shù)據(jù)分析是不分析單位的，就需要歸一化處理，這也就是歸一化解決的第一個問題“去量綱”這需要產(chǎn)品經(jīng)理在獲取數(shù)據(jù)的時候，統(tǒng)一數(shù)據(jù)計量單位；

歸一化另外一個問題就是解決算法“收斂”的問題，這個需要算法去實現(xiàn)，比如你要分析X和Y，X的數(shù)據(jù)范圍是【0-10】，Y的數(shù)據(jù)范圍是【0-100000】算法在處理時考慮到數(shù)據(jù)收斂問題，會對數(shù)據(jù)標(biāo)準(zhǔn)化處理。

當(dāng)然在數(shù)據(jù)處理中有很多手段，并且有很多算法協(xié)助去處理，數(shù)據(jù)梳理的目的就是按照業(yè)務(wù)場景將數(shù)據(jù)優(yōu)化成對算法模型干擾最小的階段。

3. 特征工程

在機器學(xué)習(xí)中有這么一種說法，數(shù)據(jù)和特征決定了機器學(xué)習(xí)的上限，模型和算法只是逼近這個上限，數(shù)據(jù)和特征是算法模型的基礎(chǔ)，所謂特征工程就是對處理完成后的數(shù)據(jù)進(jìn)行特征提取，轉(zhuǎn)換成算法模型可以使用的數(shù)據(jù)。

特征功能的目的有以下幾個方面：

從數(shù)據(jù)抽取出對預(yù)測結(jié)果有用的數(shù)據(jù)；從數(shù)據(jù)中構(gòu)建衍生出對結(jié)果有用的信息；尋找更好的特征提高算法高效性；尋找更好的特征可以選擇簡單的模型就能出具更好的擬合效果。一般情況下在數(shù)據(jù)處理過程中就可以進(jìn)行特征工程的工作，比如歸一化處理，我們可能在進(jìn)行特征發(fā)現(xiàn)的時候，還需要進(jìn)一步進(jìn)行數(shù)據(jù)處理。

什么是特征？特征就是在原始數(shù)據(jù)可測量的屬性，可測量可以理解成這個數(shù)據(jù)指標(biāo)可以被統(tǒng)計，可以被運算或是計算，比如時間戳數(shù)據(jù)，我們通常獲取的數(shù)據(jù)就是年月日時分秒的結(jié)構(gòu)，比如2019-01-09；12:30:45，這樣一個數(shù)據(jù)是無法被機器學(xué)習(xí)所運算的，所以需要對這個數(shù)進(jìn)行特征轉(zhuǎn)換，轉(zhuǎn)換成一些數(shù)值的表達(dá)式，以便于算法理解。

特征工程處理過程包括特征的抽象、特征的評估與選擇（同一數(shù)據(jù)可以抽象成多種特征，對多種特征進(jìn)行評估和選擇）、特征的衍生（特征與特征之間進(jìn)行組合使用）。特征工程是特征業(yè)務(wù)定義、算法、數(shù)據(jù)處理綜合的應(yīng)用。

作為產(chǎn)品經(jīng)理，我們重點說明一下特征的抽象。特征的抽象就是對原數(shù)據(jù)轉(zhuǎn)換成特征數(shù)據(jù)的過程。

我們舉幾個例子來說明一下：比如你收集到的數(shù)據(jù)值字符型的數(shù)據(jù)，比如你收集到的數(shù)據(jù)是“是和否”型的數(shù)據(jù)，這種數(shù)據(jù)機器是無法運算的，那么我們可以轉(zhuǎn)換成“0和1”這樣講數(shù)據(jù)進(jìn)行特征抽象后就可以機器學(xué)習(xí)了。

特征工程是機器學(xué)習(xí)很重要的一環(huán)，特征的好壞直接影響了機器學(xué)些的結(jié)果，對于同一組數(shù)據(jù)，我們可能用了相同的算法，但是因為特征選擇的不同，我們最終得出的質(zhì)量也會有很大的差別。所以對特征工程有興趣的可以參考相關(guān)其他相關(guān)更詳細(xì)的資料。

4. 模型訓(xùn)練與應(yīng)用服務(wù)

模型訓(xùn)練就是經(jīng)歷了數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)處理、特征工程之后，根據(jù)選擇好的算法，進(jìn)行訓(xùn)練與評估，通過算法訓(xùn)練得到算法模型，通過新數(shù)據(jù)測試完成模型質(zhì)量的評估，這款主要工作在算法工程師這里，產(chǎn)品經(jīng)理重點關(guān)注模型在新數(shù)據(jù)不斷注入的情況下是可以反復(fù)訓(xùn)練的。

應(yīng)用服務(wù)就是說模型訓(xùn)練好了，如何輸出的問題，以及如何快速訓(xùn)練模型、配置模型相關(guān)參數(shù)的問題，對于模型的應(yīng)用可以通過API的方式供應(yīng)用層調(diào)用，應(yīng)用層也可以通過配置頁面來配置模型相關(guān)參數(shù)，比如置信度等。

5. 了解機器學(xué)習(xí)流程對產(chǎn)品經(jīng)理意義

通過簡單直白的介紹機器學(xué)習(xí)流程，對我們產(chǎn)品經(jīng)理有以下意義：

機器學(xué)習(xí)過程，不是一個簡單的過程，不是說定好了需求，直接交給算法工程師就可以了，產(chǎn)品經(jīng)理要把握機器學(xué)習(xí)業(yè)務(wù)場景抽象；要對原始數(shù)據(jù)質(zhì)量、數(shù)量有很好的把控；對特征的抽象需要有深入的了解；機器學(xué)習(xí)的基礎(chǔ)是數(shù)據(jù)、以及數(shù)據(jù)特征的轉(zhuǎn)換，需要我們對處理的處理過程有更深層次的了解與掌握，需要多學(xué)一些數(shù)據(jù)、統(tǒng)計學(xué)、計量學(xué)相關(guān)知識；機器學(xué)習(xí)的需求也不僅僅是通過原型、文檔就能解決的，需要產(chǎn)品經(jīng)理與工程師深度的合作，參與到機器學(xué)習(xí)的過程中。本文由 @羅飛原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可，禁止轉(zhuǎn)載

題圖來自 Unsplash ，基于 CC0 協(xié)議

什么是機器學(xué)習(xí)？看完就明白了

什么是機器學(xué)習(xí)？看完就明白了