什么是機器學(xué)習(xí)?看完就明白了

情感導(dǎo)師 8799

 添加導(dǎo)師微信MurieL0304

獲取更多愛情挽回攻略 婚姻修復(fù)技巧 戀愛脫單干貨

說到人工智能必然要了解機器學(xué)習(xí),從信息化軟件,到電子商務(wù),然后到高速發(fā)展互聯(lián)網(wǎng)時代,到至今的云計算、大數(shù)據(jù)等,滲透到我們的生活、工作之中,在互聯(lián)網(wǎng)的驅(qū)動下,人們更清晰的認(rèn)識和使用數(shù)據(jù),不僅僅是數(shù)據(jù)統(tǒng)計、分析,我們還強調(diào)數(shù)據(jù)挖掘、預(yù)測。

一、什么是機器學(xué)習(xí)

1. 機器學(xué)習(xí)概念

機器學(xué)習(xí)就是對計算機一部分?jǐn)?shù)據(jù)進(jìn)行學(xué)習(xí),然后對另外一些數(shù)據(jù)進(jìn)行預(yù)測與判斷。

什么是機器學(xué)習(xí)?看完就明白了

機器學(xué)習(xí)的核心是“使用算法解析數(shù)據(jù),從中學(xué)習(xí),然后對新數(shù)據(jù)做出決定或預(yù)測”。也就是說計算機利用以獲取的數(shù)據(jù)得出某一模型,然后利用此模型進(jìn)行預(yù)測的一種方法,這個過程跟人的學(xué)習(xí)過程有些類似,比如人獲取一定的經(jīng)驗,可以對新問題進(jìn)行預(yù)測。

我們舉個例子,我們都知道支付寶春節(jié)的“集五福”活動,我們用手機掃“福”字照片識別福字,這個就是用了機器學(xué)習(xí)的方法。我們可以為計算機提供“?!弊值恼掌瑪?shù)據(jù),通過算法模型機型訓(xùn)練,系統(tǒng)不斷更新學(xué)習(xí),然后輸入一張新的福字照片,機器自動識別這張照片上是否有福字。

機器學(xué)習(xí)是一門多領(lǐng)域交叉學(xué)科,涉及概率論、統(tǒng)計學(xué)、計算機科學(xué)等多門學(xué)科。機器學(xué)習(xí)的概念就是通過輸入海量訓(xùn)練數(shù)據(jù)對模型進(jìn)行訓(xùn)練,使模型掌握數(shù)據(jù)所蘊含的潛在規(guī)律,進(jìn)而對新輸入的數(shù)據(jù)進(jìn)行準(zhǔn)確的分類或預(yù)測。如下圖所示:

2. 機器學(xué)習(xí)分類

我們了解了機器學(xué)習(xí)的概念,通過建立模型進(jìn)行自我學(xué)習(xí),那么學(xué)習(xí)方法有哪些呢?

(1)監(jiān)督學(xué)習(xí)

監(jiān)督學(xué)習(xí)就是訓(xùn)練機器學(xué)習(xí)的模型的訓(xùn)練樣本數(shù)據(jù)有對應(yīng)的目標(biāo)值,監(jiān)督學(xué)習(xí)就是通過對數(shù)據(jù)樣本因子和已知的結(jié)果建立聯(lián)系,提取特征值和映射關(guān)系,通過已知的結(jié)果,已知數(shù)據(jù)樣本不斷的學(xué)習(xí)和訓(xùn)練,對新的數(shù)據(jù)進(jìn)行結(jié)果的預(yù)測。

監(jiān)督學(xué)習(xí)通常用在分類和回歸。比如手機識別垃圾短信,電子郵箱識別垃圾郵件,都是通過對一些歷史短信、歷史郵件做垃圾分類的標(biāo)記,對這些帶有標(biāo)記的數(shù)據(jù)進(jìn)行模型訓(xùn)練,然后獲取到新的短信或是新的郵件時,進(jìn)行模型匹配,來識別此郵件是或是不是,這就是監(jiān)督學(xué)習(xí)下分類的預(yù)測。

再舉一個回歸的例子,比如我們要預(yù)測公司凈利潤的數(shù)據(jù),我們可以通過歷史上公司利潤(目標(biāo)值),以及跟利潤相關(guān)的指標(biāo),比如營業(yè)收入、資產(chǎn)負(fù)債情況、管理費用等數(shù)據(jù),通過回歸的方式我們回到的一個回歸方程,建立公司利潤與相關(guān)因此的方程式,通過輸入因子數(shù)據(jù),來預(yù)測公司利潤。

監(jiān)督學(xué)習(xí)難點是獲取具有目標(biāo)值的樣本數(shù)據(jù)成本較高,成本高的原因在于這些訓(xùn)練集的要依賴人工標(biāo)注工作。

(2)無監(jiān)督學(xué)習(xí)

無監(jiān)督學(xué)習(xí)跟監(jiān)督學(xué)習(xí)的區(qū)別就是選取的樣本數(shù)據(jù)無需有目標(biāo)值,我們無需分析這些數(shù)據(jù)對某些結(jié)果的影響,只是分析這些數(shù)據(jù)內(nèi)在的規(guī)律。

無監(jiān)督學(xué)習(xí)常用在聚類分析上面。比如客戶分群、因子降維等。比如RFM模型的使用,通過客戶的銷售行為(消費次數(shù)、最近消費時間、消費金額)指標(biāo),來對客戶數(shù)據(jù)進(jìn)行聚類:

重要價值客戶:最近消費時間近、消費頻次和消費金額都很高;重要保持客戶:最近消費時間較遠(yuǎn),但消費頻次和金額都很高,說明這是個一段時間沒來的忠誠客戶,我們需要主動和他保持聯(lián)系;重要發(fā)展客戶:最近消費時間較近、消費金額高,但頻次不高,忠誠度不高,很有潛力的用戶,必須重點發(fā)展;重要挽留客戶:最近消費時間較遠(yuǎn)、消費頻次不高,但消費金額高的用戶,可能是將要流失或者已經(jīng)要流失的用戶,應(yīng)當(dāng)基于挽留措施。除此之外,無監(jiān)督學(xué)習(xí)也適用于降維,無監(jiān)督學(xué)習(xí)比監(jiān)督學(xué)習(xí)好處是數(shù)據(jù)不需要人工打標(biāo)記,數(shù)據(jù)獲取成本低。

(3)半監(jiān)督學(xué)習(xí)

半監(jiān)督學(xué)習(xí)是監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)相互結(jié)合的一種學(xué)習(xí)方法,通過半監(jiān)督學(xué)習(xí)的方法可以實現(xiàn)分類、回歸、聚類的結(jié)合使用。

半監(jiān)督分類:是在無類標(biāo)簽的樣例的幫助下訓(xùn)練有類標(biāo)簽的樣本,獲得比只用有類標(biāo)簽的樣本訓(xùn)練得到更優(yōu)的分類;半監(jiān)督回歸:在無輸出的輸入的幫助下訓(xùn)練有輸出的輸入,獲得比只用有輸出的輸入訓(xùn)練得到的回歸器性能更好的回歸;半監(jiān)督聚類:在有類標(biāo)簽的樣本的信息幫助下獲得比只用無類標(biāo)簽的樣例得到的結(jié)果更好的簇,提高聚類方法的精度;半監(jiān)督降維:在有類標(biāo)簽的樣本的信息幫助下找到高維輸入數(shù)據(jù)的低維結(jié)構(gòu),同時保持原始高維數(shù)據(jù)和成對約束的結(jié)構(gòu)不變。半監(jiān)督學(xué)習(xí)是最近比較流行的方法。

(4)強化學(xué)習(xí)

強化學(xué)習(xí)是一種比較復(fù)雜的機器學(xué)習(xí)方法,強調(diào)系統(tǒng)與外界不斷的交互反饋,它主要是針對流程中不斷需要推理的場景,比如無人汽車駕駛,它更多關(guān)注性能。它是機器學(xué)習(xí)中的熱點學(xué)習(xí)方法。

3. 關(guān)于深度學(xué)習(xí)

深度學(xué)習(xí)是目前關(guān)注度很高的一類算法,深度學(xué)習(xí)(DeepLearning,DL)屬于機器學(xué)習(xí)的子類。它的靈感來源于人類大腦的工作方式,是利用深度神經(jīng)網(wǎng)絡(luò)來解決特征表達(dá)的一種學(xué)習(xí)過程。

人工智能、機器學(xué)習(xí)、深度學(xué)習(xí)關(guān)系如下圖所示:

深度學(xué)習(xí)歸根結(jié)底也是機器學(xué)習(xí),不過它不同于監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、強化學(xué)習(xí)的這種分類方法,它是另一種分類方法,基于算法神經(jīng)網(wǎng)絡(luò)的深度,可以分成淺層學(xué)習(xí)算法和深度學(xué)習(xí)算法。

淺層學(xué)習(xí)算法主要是對一些結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)一些場景的預(yù)測,深度學(xué)習(xí)主要解決復(fù)雜的場景,比如圖像、文本、語音識別與分析等。

4. 了解機器學(xué)習(xí)概念對產(chǎn)品經(jīng)理意義

本節(jié)主要在于理清一些機器學(xué)習(xí)基本概念,簡單介紹一下應(yīng)用場景,重點在于理解機器學(xué)習(xí)本質(zhì)上還是對于數(shù)據(jù)的的一種處理方式,數(shù)據(jù)的使用方式,通過數(shù)據(jù)解析其中的規(guī)律,來預(yù)測未來數(shù)據(jù)結(jié)果。

二、機器學(xué)習(xí)的應(yīng)用

我們在說機器學(xué)習(xí)分類的時候,簡單介紹了一下不同機器學(xué)習(xí)方法,主要是解決是什么問題,在本節(jié)中具體介紹一些常用的應(yīng)用場景,主要說明這些應(yīng)用到底怎么用,不對其中的算法以及原理做深入的介紹。

1. 分類和聚類

分類和聚類機器學(xué)習(xí)最常用的應(yīng)用場景,分類和聚類都是對數(shù)據(jù)的分組,我們剛接觸的時候,很容易混淆這兩個應(yīng)用的概念,覺得分類就是聚類,其實他們有很多的不同。

分類是我們知道有哪些組,然后對數(shù)據(jù)進(jìn)行判斷,判斷這些數(shù)據(jù)到底是預(yù)先知道的那些組。舉個很簡單的例子,比如我們在軍訓(xùn)排隊時要求男生一組,女生一組,這就是一種分類,我們提前知道要分那些組,然后通過一種算法對輸入的數(shù)據(jù)判定,來分類到已知的類別下,這個就是分類。

分類從數(shù)學(xué)函數(shù)角度來說:分類任務(wù)就是通過學(xué)習(xí)得到一個目標(biāo)函數(shù)f,把每個屬性集x映射到一個預(yù)先定義的類標(biāo)號y中。就是我們根據(jù)已知的一些樣本(包括屬性與類標(biāo)號)來得到分類模型(即得到樣本屬性與類標(biāo)號之間的函數(shù)),然后通過此目標(biāo)函數(shù)來對只包含屬性的樣本數(shù)據(jù)進(jìn)行分類。

所以分類屬于監(jiān)督學(xué)習(xí)方法,比如圖像識別,比如我們從一些圖像中識別是貓還是狗的照片等,它解決的是“是或否”的問題,就是將需要被分析的數(shù)據(jù)跟已知的類別結(jié)果做判斷,看這些數(shù)據(jù)到底是那個類別數(shù)據(jù)。

在分類中,對于目標(biāo)數(shù)據(jù)中存在哪些類是知道的,要做的就是將每一條記錄分別屬于哪一類標(biāo)記出來。但是聚類解決的就是在不知道類的情況下,如何把數(shù)據(jù)參數(shù)做一個劃分。

聚類是實現(xiàn)不知道這批數(shù)據(jù)有哪些類別或標(biāo)簽,然后通過算法的選擇,分析數(shù)據(jù)參數(shù)的特征值,然后進(jìn)行機器的數(shù)據(jù)劃分,把相似的數(shù)據(jù)聚到一起,所以它是無監(jiān)督學(xué)習(xí);

比如RFM模型中我們通過客戶銷售數(shù)據(jù),通過這些數(shù)據(jù)對客戶分群,然后通過聚類的方法,將相似度高的數(shù)據(jù)聚類到一起,通過分析出來的數(shù)據(jù)我們可以對數(shù)據(jù)特性在定義標(biāo)簽,它解決的是相似度的問題,將相似度高的聚集到一起。

我們舉個例子來總結(jié)一下分類和聚類都是什么用途:

比如我們有1000張照片,假設(shè)我們之前已經(jīng)定義好貓、狗的照片,做了訓(xùn)練,如果從這1000張照片中區(qū)分出來貓、狗的照片,那么這就是分類;

假設(shè)我們沒做過貓狗的照片,我們只是對1000張照片的數(shù)據(jù)做一個歸類,看看那些照片相似度高,分類完成后,在通過相似度比較高的幾類,我們再定義這些類別的是貓、狗或是其他圖片什么的。

2. 回歸

回歸在統(tǒng)計學(xué)角度,指的是確定兩種或兩種以上變量間相互依賴的定量關(guān)系的一種統(tǒng)計分析方法。回歸分析按照涉及的變量的多少,分為一元回歸和多元回歸分析;按照因變量的多少,可分為簡單回歸分析和多重回歸分析;按照自變量和因變量之間的關(guān)系類型,可分為線性回歸分析和非線性回歸分析。

在大數(shù)據(jù)分析中,回歸分析是一種預(yù)測性的建模技術(shù),它研究的是因變量(目標(biāo))和自變量(預(yù)測器)之間的關(guān)系。這種技術(shù)通常用于預(yù)測分析,時間序列模型以及發(fā)現(xiàn)變量之間的因果關(guān)系。

回歸從數(shù)學(xué)角度來看是一種方程式,是一種解題方法,一種通過一些函數(shù)因子的關(guān)系的一種學(xué)習(xí)方法。比如以下簡單的一個函數(shù):

回歸從算法角度來說,它是對有監(jiān)督的連續(xù)數(shù)據(jù)結(jié)果的預(yù)測,比如通過一個人過去年份工資收入相關(guān)的影響參數(shù),建立回歸模型,然后通過相關(guān)的參數(shù)的變更來預(yù)測他未來工資收入。

當(dāng)然通過建立回歸模型,再結(jié)合數(shù)學(xué)上對方程式的解析,我們也可以倒退出來為了一個預(yù)定的結(jié)果我們需要對那些參數(shù)值做優(yōu)化?;貧w最終要的是得到相關(guān)的參數(shù)和參數(shù)的特征值,因此我們通常在做回歸分析時通常會做目標(biāo)參數(shù)相關(guān)性分析。

只要我們有足夠的數(shù)據(jù),都可以做一些回歸分析幫助我們做預(yù)測與決策。比如我們上線了一些功能,可以通過點擊率、打開率、分享情況等等跟產(chǎn)生的業(yè)務(wù)結(jié)果做回歸分析,如果建立了函數(shù)關(guān)系,我們就可以預(yù)測一些結(jié)果,再比如我們通過歷史上年齡、體重、血壓指標(biāo)、血脂指標(biāo)、是否抽煙、是否喝酒等指標(biāo)跟某種疾病做回歸分析,可以預(yù)測某一名人員是否有此疾病的風(fēng)險等。

所以回歸的主要目的在于對連續(xù)數(shù)據(jù)產(chǎn)生的規(guī)律之后對新數(shù)據(jù)可能產(chǎn)生某種結(jié)果的預(yù)測。

3. 降維

降維就是去除冗余的特征,降低特征參數(shù)的維度降低,用更加少的維度來表示特征,比如圖像識別中將一幅圖像轉(zhuǎn)換成高緯度的數(shù)據(jù)集合,因為高緯度數(shù)據(jù)處理復(fù)雜度很高,我們就需要進(jìn)行降維處理,降低了計算機處理高維度的圖像數(shù)據(jù)的復(fù)雜性,減少了冗余數(shù)據(jù)造成的識別誤差,提高識別經(jīng)度。

我們從統(tǒng)計學(xué)角度在理解一下機器學(xué)習(xí)的這四大應(yīng)用,如果我們有一批樣本,希望能夠預(yù)測是都屬于某相關(guān)屬性,如果樣本值是離散的,我們就可以使用分類的方法,如果是連續(xù)的我們就可以使用回歸的方法,如果我們這批樣本沒有對應(yīng)的屬性,而是想挖掘其中的相關(guān)性,那么就用聚類的方式。

如果我們涉及到的參數(shù)很多,維度很多,我們就可以用降維的方法去尋找更精準(zhǔn)的參數(shù),不管是做分類、聚類還是回歸,都能達(dá)到更精確的判斷和預(yù)測。

除此之外,語音識別、圖像識別、文本識別、語義分析等都是通過機器學(xué)習(xí)基本方法的綜合利用。

4. 不同應(yīng)用場景算法舉例

下圖中針對不同應(yīng)用場景做的算法舉例,大家感興趣可自行了解各個算法的原理。

5. 理解機器學(xué)習(xí)應(yīng)用對產(chǎn)品經(jīng)理的意義

理解機器學(xué)習(xí)應(yīng)用對產(chǎn)品經(jīng)理非常有意義:

一方面產(chǎn)品經(jīng)理需要理解機器學(xué)習(xí)到底能解決什么問題,面對我們的業(yè)務(wù)需求,是否可以通過機器學(xué)習(xí)的方式去滿足我們的需求;同時理解了機器學(xué)習(xí)的應(yīng)用也就是理解AI為什么中臺作用這么明顯。

比如我們在面臨的人群劃分、或是商品標(biāo)簽劃分,可以考慮一下聚類方法;在面對APP功能點擊預(yù)測、分享預(yù)測我們可以考慮一下分類方法;面對商品購買預(yù)測我們可以考慮回歸的方法等;

另一方面通過機器學(xué)習(xí)應(yīng)用我們可以看到數(shù)據(jù)的重要性,要求我們產(chǎn)品經(jīng)理能更好的利用數(shù)據(jù),數(shù)據(jù)可以通過一些算法來解決一些預(yù)測、判斷的問題。

三、機器學(xué)習(xí)流程

人們在使用機器學(xué)習(xí)的時候,把很大的精力放在了選擇算法、優(yōu)化算法上面,其實算法的選擇只是機器學(xué)習(xí)其中的一個步驟,但是機器學(xué)習(xí)其他的步驟也是很關(guān)鍵的,尤其是作為產(chǎn)品經(jīng)理,了解這個機器學(xué)習(xí)流程也是至關(guān)重要的。

機器學(xué)習(xí)的流程本質(zhì)上就是數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)分析、數(shù)據(jù)處理、結(jié)果反饋的過程,按照這個思路,我們可以把機器學(xué)習(xí)分為如下步驟:業(yè)務(wù)場景分析、數(shù)據(jù)處理、特征工程、算法模型訓(xùn)練、應(yīng)用服務(wù)。下面具體介紹一下這幾個步驟。

1. 業(yè)務(wù)場景分析

業(yè)務(wù)場景分析就是將我們的業(yè)務(wù)需求、使用場景轉(zhuǎn)換成機器學(xué)習(xí)的需求語言,然后分析數(shù)據(jù),選擇算法的過程。這個是機器學(xué)習(xí)的準(zhǔn)備階段,主要包括以下3點:業(yè)務(wù)抽象、數(shù)據(jù)準(zhǔn)備、選擇算法。

(1)業(yè)務(wù)抽象

業(yè)務(wù)抽象說白了就是針對于業(yè)務(wù)需求,抽象成機器學(xué)習(xí)的應(yīng)用場景的問題,我們上節(jié)中講了機器學(xué)習(xí)的分類、聚類、回歸、降維的應(yīng)用場景,其實業(yè)務(wù)抽象就是把我們遇到的業(yè)務(wù)需求抽象成上述應(yīng)用場景。

比如我們要做產(chǎn)品推薦的需求,我們要把指定的產(chǎn)品推薦給相應(yīng)的用戶,也就是如何精準(zhǔn)營銷,給用戶推薦是合適的產(chǎn)品。

我們抽象成機器學(xué)習(xí)的語言就是一個產(chǎn)品A是否要推薦給用戶a,這就是一個是或者否的問題,也就是一個分類應(yīng)用場景。這就是業(yè)務(wù)抽象,就是把業(yè)務(wù)需求抽象成機器學(xué)習(xí)的應(yīng)用場景。

(2)數(shù)據(jù)準(zhǔn)備

機器學(xué)習(xí)的基礎(chǔ)就是數(shù)據(jù),沒有數(shù)據(jù)是無法訓(xùn)練模型,也就是機器是無法學(xué)習(xí)的,所以數(shù)據(jù)準(zhǔn)備就是識別、收集、加工數(shù)據(jù)階段。

通過圖譜我們了解到,我們能獲取到的數(shù)據(jù)有機構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù),機器學(xué)習(xí)同樣的是這些數(shù)據(jù),這些數(shù)據(jù)類型在知識圖譜有講解,不在贅述,這里主要講一下作為產(chǎn)品經(jīng)理進(jìn)行數(shù)據(jù)準(zhǔn)備時需要考慮的因素。

1)數(shù)據(jù)字段的考慮

關(guān)于數(shù)據(jù)字段考慮就是說我們在準(zhǔn)備數(shù)據(jù)時,無論是結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)話數(shù)據(jù),我們都要抽象成一個二維表,二維表表頭就是這些數(shù)據(jù)的表示或是數(shù)據(jù)的名稱,這個就是數(shù)據(jù)字段。

對于數(shù)據(jù)字段涉及到兩方面:

一方面就是數(shù)據(jù)字段范圍,也就是我們在做業(yè)務(wù)需求的時候需要哪些字段作為機器學(xué)習(xí)參數(shù),這跟我們做后臺產(chǎn)品經(jīng)理類似。

做后臺涉及需要進(jìn)行數(shù)據(jù)項字段的設(shè)計,這些字段有業(yè)務(wù)字段、邏輯字段、系統(tǒng)字段等,對于機器學(xué)習(xí)字段考慮要比后臺設(shè)計的字段考慮更深一些,他不僅僅是后臺產(chǎn)生的這寫數(shù)據(jù),還包括一些過程數(shù)據(jù)、結(jié)果數(shù)據(jù)、埋點數(shù)據(jù)、轉(zhuǎn)換數(shù)據(jù)(定性轉(zhuǎn)定量)等,具體我們可以參考一些統(tǒng)計學(xué)的方法,去收集、制定機器學(xué)習(xí)的字段。

一方面就是字段類型的判定,比如到底是字符串型的還是數(shù)值型的。

我們做回歸分析,需要的必須是數(shù)值型的,因為回歸是連續(xù)變量的分析,假如你要分析性別這個字段,那么必須把他的字段值定義成數(shù)值型的,例如0和1,這樣才算是連續(xù)變量,才能做回歸分析,假如要做分類,我們就可以把性別的字段設(shè)定成字符串,例如男和女。

2)數(shù)據(jù)的考慮

關(guān)于數(shù)據(jù)的考慮就是你能獲取到的數(shù)據(jù)案例,就是二維表中除了表頭數(shù)據(jù)字段名稱剩下的真實數(shù)據(jù)了,對于數(shù)據(jù)考慮,作為產(chǎn)品經(jīng)理我們要考慮兩點:

一個是數(shù)據(jù)量,在機器學(xué)習(xí)中,數(shù)據(jù)需要一定的量,希望可以盡可能的大;

一個是數(shù)據(jù)的缺省,這個是數(shù)據(jù)質(zhì)量問題,要求我們盡可能完善的收集數(shù)據(jù),如果數(shù)據(jù)缺失比較多或者數(shù)據(jù)亂碼比較多的字段,可以不參與模型測算,否則會影響結(jié)果,

(3)算法選擇

算法選擇確定了機器學(xué)習(xí)的需求、確定了數(shù)據(jù)項,選擇何種算法模型的問題,此階段由算法工程師主導(dǎo)的,我們知道機器學(xué)習(xí)有很多的算法,所以算法選擇也具有多樣性;

同樣一個問題可以多種算法解決,隨著計算機科學(xué)的發(fā)展,為了也會有更多的算法支持,同時同一種算法也可以通過調(diào)參進(jìn)行優(yōu)化。

2. 數(shù)據(jù)處理

數(shù)據(jù)處理就是數(shù)據(jù)的選擇和清洗的過程,數(shù)據(jù)準(zhǔn)備好后,確定了算法,確定了需求,就需要對數(shù)據(jù)進(jìn)行處理,數(shù)據(jù)處理的目的就是盡可能降低對算法的干擾。在數(shù)據(jù)處理中我們會經(jīng)常用到“去噪”和“歸一”。

去噪就是去除數(shù)中干擾的數(shù)據(jù),也就是說你的數(shù)據(jù)案例中存在特別情況的,或者是不正常的數(shù)據(jù),一方面要求我們產(chǎn)品經(jīng)理拿到的數(shù)據(jù)是反映真實世界的數(shù)據(jù),一方面我們通過算法可以識別干擾的數(shù)據(jù),比如對于數(shù)據(jù)有正態(tài)分布效果的我們可以通過3標(biāo)準(zhǔn)差去噪,因此去噪的目的就是去除掉數(shù)據(jù)中異常的數(shù)據(jù)。

歸一就是將數(shù)據(jù)進(jìn)行簡化,一般將數(shù)據(jù)簡化在【0,1】,數(shù)據(jù)歸一化主要是幫助算法能夠很好的尋找最優(yōu)解。

一方面解決的是對于一個數(shù)據(jù)字段可有多重標(biāo)示方式,然后數(shù)據(jù)拿到的多重標(biāo)示方式的時候,比如一群羊有30只羊,然后你那到的數(shù)據(jù)有以群為單位的,有以只為單位的,那么著數(shù)據(jù)必然有誤差;

再比如形容一個小時,我們可以以小時單位,也可以以分鐘為單位,也可以以秒單位,因為數(shù)據(jù)分析是不分析單位的,就需要歸一化處理,這也就是歸一化解決的第一個問題“去量綱”這需要產(chǎn)品經(jīng)理在獲取數(shù)據(jù)的時候,統(tǒng)一數(shù)據(jù)計量單位;

歸一化另外一個問題就是解決算法“收斂”的問題,這個需要算法去實現(xiàn),比如你要分析X和Y,X的數(shù)據(jù)范圍是【0-10】,Y的數(shù)據(jù)范圍是【0-100000】算法在處理時考慮到數(shù)據(jù)收斂問題,會對數(shù)據(jù)標(biāo)準(zhǔn)化處理。

當(dāng)然在數(shù)據(jù)處理中有很多手段,并且有很多算法協(xié)助去處理,數(shù)據(jù)梳理的目的就是按照業(yè)務(wù)場景將數(shù)據(jù)優(yōu)化成對算法模型干擾最小的階段。

3. 特征工程

在機器學(xué)習(xí)中有這么一種說法,數(shù)據(jù)和特征決定了機器學(xué)習(xí)的上限,模型和算法只是逼近這個上限,數(shù)據(jù)和特征是算法模型的基礎(chǔ),所謂特征工程就是對處理完成后的數(shù)據(jù)進(jìn)行特征提取,轉(zhuǎn)換成算法模型可以使用的數(shù)據(jù)。

特征功能的目的有以下幾個方面:

從數(shù)據(jù)抽取出對預(yù)測結(jié)果有用的數(shù)據(jù);從數(shù)據(jù)中構(gòu)建衍生出對結(jié)果有用的信息;尋找更好的特征提高算法高效性;尋找更好的特征可以選擇簡單的模型就能出具更好的擬合效果。一般情況下在數(shù)據(jù)處理過程中就可以進(jìn)行特征工程的工作,比如歸一化處理,我們可能在進(jìn)行特征發(fā)現(xiàn)的時候,還需要進(jìn)一步進(jìn)行數(shù)據(jù)處理。

什么是特征?特征就是在原始數(shù)據(jù)可測量的屬性,可測量可以理解成這個數(shù)據(jù)指標(biāo)可以被統(tǒng)計,可以被運算或是計算,比如時間戳數(shù)據(jù),我們通常獲取的數(shù)據(jù)就是年月日時分秒的結(jié)構(gòu),比如2019-01-09;12:30:45,這樣一個數(shù)據(jù)是無法被機器學(xué)習(xí)所運算的,所以需要對這個數(shù)進(jìn)行特征轉(zhuǎn)換,轉(zhuǎn)換成一些數(shù)值的表達(dá)式,以便于算法理解。

特征工程處理過程包括特征的抽象、特征的評估與選擇(同一數(shù)據(jù)可以抽象成多種特征,對多種特征進(jìn)行評估和選擇)、特征的衍生(特征與特征之間進(jìn)行組合使用)。特征工程是特征業(yè)務(wù)定義、算法、數(shù)據(jù)處理綜合的應(yīng)用。

作為產(chǎn)品經(jīng)理,我們重點說明一下特征的抽象。特征的抽象就是對原數(shù)據(jù)轉(zhuǎn)換成特征數(shù)據(jù)的過程。

我們舉幾個例子來說明一下:比如你收集到的數(shù)據(jù)值字符型的數(shù)據(jù),比如你收集到的數(shù)據(jù)是“是和否”型的數(shù)據(jù),這種數(shù)據(jù)機器是無法運算的,那么我們可以轉(zhuǎn)換成“0和1”這樣講數(shù)據(jù)進(jìn)行特征抽象后就可以機器學(xué)習(xí)了。

特征工程是機器學(xué)習(xí)很重要的一環(huán),特征的好壞直接影響了機器學(xué)些的結(jié)果,對于同一組數(shù)據(jù),我們可能用了相同的算法,但是因為特征選擇的不同,我們最終得出的質(zhì)量也會有很大的差別。所以對特征工程有興趣的可以參考相關(guān)其他相關(guān)更詳細(xì)的資料。

4. 模型訓(xùn)練與應(yīng)用服務(wù)

模型訓(xùn)練就是經(jīng)歷了數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)處理、特征工程之后,根據(jù)選擇好的算法,進(jìn)行訓(xùn)練與評估,通過算法訓(xùn)練得到算法模型,通過新數(shù)據(jù)測試完成模型質(zhì)量的評估,這款主要工作在算法工程師這里,產(chǎn)品經(jīng)理重點關(guān)注模型在新數(shù)據(jù)不斷注入的情況下是可以反復(fù)訓(xùn)練的。

應(yīng)用服務(wù)就是說模型訓(xùn)練好了,如何輸出的問題,以及如何快速訓(xùn)練模型、配置模型相關(guān)參數(shù)的問題,對于模型的應(yīng)用可以通過API的方式供應(yīng)用層調(diào)用,應(yīng)用層也可以通過配置頁面來配置模型相關(guān)參數(shù),比如置信度等。

5. 了解機器學(xué)習(xí)流程對產(chǎn)品經(jīng)理意義

通過簡單直白的介紹機器學(xué)習(xí)流程,對我們產(chǎn)品經(jīng)理有以下意義:

機器學(xué)習(xí)過程,不是一個簡單的過程,不是說定好了需求,直接交給算法工程師就可以了,產(chǎn)品經(jīng)理要把握機器學(xué)習(xí)業(yè)務(wù)場景抽象;要對原始數(shù)據(jù)質(zhì)量、數(shù)量有很好的把控;對特征的抽象需要有深入的了解;機器學(xué)習(xí)的基礎(chǔ)是數(shù)據(jù)、以及數(shù)據(jù)特征的轉(zhuǎn)換,需要我們對處理的處理過程有更深層次的了解與掌握,需要多學(xué)一些數(shù)據(jù)、統(tǒng)計學(xué)、計量學(xué)相關(guān)知識;機器學(xué)習(xí)的需求也不僅僅是通過原型、文檔就能解決的,需要產(chǎn)品經(jīng)理與工程師深度的合作,參與到機器學(xué)習(xí)的過程中。本文由 @羅飛 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自 Unsplash ,基于 CC0 協(xié)議

評論列表

頭像
2024-06-23 06:06:58

我對比過很多家,你們家的服務(wù)真的很不錯,很慶幸選擇你們幫忙挽回!

頭像
2024-02-02 13:02:27

求助

頭像
2024-01-08 13:01:59

如果發(fā)信息不回,怎麼辦?

 添加導(dǎo)師微信MurieL0304

獲取更多愛情挽回攻略 婚姻修復(fù)技巧 戀愛脫單干貨

發(fā)表評論 (已有3條評論)