萬字長(zhǎng)文:漫話人工智能算法在智能風(fēng)控領(lǐng)域中的應(yīng)用

情感導(dǎo)師 8748

 添加導(dǎo)師微信MurieL0304

獲取更多愛情挽回攻略 婚姻修復(fù)技巧 戀愛脫單干貨

來源 | 現(xiàn)代金融風(fēng)險(xiǎn)管理

作者 | 祝世虎 成學(xué)軍

萬字長(zhǎng)文:漫話人工智能算法在智能風(fēng)控領(lǐng)域中的應(yīng)用

在金融科技的浪潮下,金融機(jī)構(gòu)紛紛啟動(dòng)了智能風(fēng)控體系的建設(shè),但是金融機(jī)構(gòu)的關(guān)注點(diǎn)多在于業(yè)務(wù)規(guī)模、科技系統(tǒng)等硬實(shí)力的建設(shè),而忽略了算法能力、智能風(fēng)控文化等軟實(shí)力的建設(shè)。

本文聚焦智能風(fēng)控的“算法能力”的建設(shè),用通俗的語言“漫話算法”,首先講解算法的邏輯、筆者對(duì)算法的理解、算法在智能風(fēng)控領(lǐng)域的應(yīng)用經(jīng)驗(yàn),而后講解如何在實(shí)戰(zhàn)中通過場(chǎng)景因素、數(shù)據(jù)因素、算力因素來選擇合適的算法。

本文結(jié)構(gòu)如下:

1. 第一部分,在智能風(fēng)控體系建設(shè)的這個(gè)后浪追逐前浪的過程中,和算法能力建設(shè)相關(guān)的四個(gè)筆者個(gè)人觀點(diǎn):

(1) 觀點(diǎn)一:后浪要重視數(shù)據(jù)及算法能力的建設(shè),避免落入“后發(fā)劣勢(shì)陷阱”。

(2) 觀點(diǎn)二:前浪不能安于現(xiàn)狀而固步自封,避免陷入“建模套路化”。

(3) 觀點(diǎn)三:智能風(fēng)控領(lǐng)域模型算法的發(fā)展三階段為“專家評(píng)分卡——>邏輯回歸(高維邏輯回歸)——>集成學(xué)習(xí)、深度學(xué)習(xí)”。

(4) 觀點(diǎn)四:算法的選擇,要根據(jù)“場(chǎng)景需求”對(duì)癥下藥,根據(jù)“數(shù)據(jù)基礎(chǔ)”量體裁衣,根據(jù)“科技算力”量力而為,“理性”選擇算法。

2. 第二部分,人工智能的發(fā)展與算法的進(jìn)化。主要介紹人工智能的發(fā)展背景以及在金融領(lǐng)域中的應(yīng)用。

3. 第三部分,人工智能算法在智能風(fēng)控領(lǐng)域的經(jīng)驗(yàn)與思考。先介紹了如何根據(jù)場(chǎng)景、數(shù)據(jù)、算力選擇合適的算法,而后根據(jù)筆者經(jīng)驗(yàn)總結(jié)出人工智能算法在智能風(fēng)控領(lǐng)域的發(fā)展趨勢(shì)。

(1) 趨勢(shì)1:深度學(xué)習(xí)算法將會(huì)被廣泛采用。

(2) 趨勢(shì)2:多模態(tài)數(shù)據(jù)將會(huì)被廣泛應(yīng)用。

(3) 趨勢(shì)3:圖數(shù)據(jù)庫與圖深度網(wǎng)絡(luò)將會(huì)大規(guī)模落地。

(4) 趨勢(shì)4:聯(lián)邦學(xué)習(xí)將會(huì)大規(guī)模落地。

(5) 趨勢(shì)5:自動(dòng)化建模平臺(tái)將會(huì)升級(jí)為模型風(fēng)險(xiǎn)管理平臺(tái)。

(6) 趨勢(shì)6:算法的可解釋性將會(huì)被逐步重視。

4. 第四部分,算法工程師必備算法知識(shí)與文獻(xiàn)推薦。筆者按照算法領(lǐng)域熱度與應(yīng)用領(lǐng)域熱度挑選了一些常用算法,并分別介紹了算法的原理以及在智能風(fēng)控領(lǐng)域的應(yīng)用經(jīng)驗(yàn)。

(1) 圖學(xué)習(xí)算法、經(jīng)驗(yàn)及應(yīng)用

(2) 聯(lián)邦學(xué)習(xí)算法、經(jīng)驗(yàn)及應(yīng)用

(3) 集成學(xué)習(xí)算法、經(jīng)驗(yàn)及應(yīng)用

(4) 自動(dòng)化機(jī)器學(xué)習(xí)算法、經(jīng)驗(yàn)及應(yīng)用

(5) 因子分解機(jī)算法、經(jīng)驗(yàn)及應(yīng)用

(6) 結(jié)構(gòu)化數(shù)據(jù)深度學(xué)習(xí)算法、經(jīng)驗(yàn)及應(yīng)用

(7) 概率預(yù)測(cè)算法、經(jīng)驗(yàn)及應(yīng)用

(8) 遷移學(xué)習(xí)/元學(xué)習(xí)算法、經(jīng)驗(yàn)及應(yīng)用

(9) 半監(jiān)督學(xué)習(xí)算法、經(jīng)驗(yàn)及應(yīng)用

(10)強(qiáng)化學(xué)習(xí)算法、經(jīng)驗(yàn)及應(yīng)用

(11)運(yùn)籌優(yōu)化算法、經(jīng)驗(yàn)及應(yīng)用

(12)運(yùn)籌優(yōu)化算法、經(jīng)驗(yàn)及應(yīng)用

聲明:本文觀點(diǎn)皆為世虎“一得之見”,壘土之作,投礫引珠而已!

一. 關(guān)于智能風(fēng)控領(lǐng)域算法的四個(gè)觀點(diǎn)

在金融科技的浪潮下,金融機(jī)構(gòu)紛紛啟動(dòng)了智能風(fēng)控體系的建設(shè),在這個(gè)后浪追逐前浪的浪潮中,筆者明顯感覺無論是前浪還是后浪,均對(duì)算法人才的培養(yǎng)及算法能力的建設(shè)不夠重視。

這將導(dǎo)致兩個(gè)誤區(qū):一是,后浪盲目地模仿前浪,照貓畫虎而陷入了“后發(fā)劣勢(shì)陷阱”;二是,前浪安于現(xiàn)狀而固步自封,算法能力遲滯不前,陷入“建模套路化”。算法能力的建設(shè)則是走出上述誤區(qū)的關(guān)鍵環(huán)節(jié)之一。

(一)觀點(diǎn)一:后浪要避免“后發(fā)劣勢(shì)陷阱”,重視數(shù)據(jù)及算法能力的建設(shè)

筆者提及的“后發(fā)劣勢(shì)陷阱”主要體現(xiàn)在,后浪由于缺乏業(yè)務(wù)的實(shí)踐經(jīng)驗(yàn),對(duì)智能風(fēng)控體系建設(shè)的要點(diǎn)理解并不充分,所以在學(xué)習(xí)前浪的過程中,僅僅模仿前浪表面的、容易實(shí)現(xiàn)的、容易出成果的部分,而選擇性地忽略了那些需要花時(shí)間、下苦功的基礎(chǔ)工作。

比較明顯的“后發(fā)劣勢(shì)陷阱”是,后浪一蜂窩地照貓畫虎進(jìn)行IT系統(tǒng)的產(chǎn)品采購這個(gè)相對(duì)簡(jiǎn)單的事情,而忽略了基礎(chǔ)數(shù)據(jù)、科技整合、算法能力等:

在數(shù)據(jù)基礎(chǔ)方面:要“俯首甘為孺子?!保龃罅康?、耗時(shí)間的數(shù)據(jù)工作,以實(shí)現(xiàn)模型效能的提升;

在科技整合方面:要“橫眉冷對(duì)千夫指”,做革命性的、顛覆性的科技系統(tǒng)和科技流程的改造,進(jìn)而實(shí)現(xiàn)對(duì)業(yè)務(wù)的敏捷支持;

在算法能力方面:要“甘做幕后英雄”,逐步建立算法研究能力,進(jìn)而“隨風(fēng)潛入夜,潤(rùn)物細(xì)無聲”地實(shí)現(xiàn)智能風(fēng)控對(duì)業(yè)務(wù)的完美支持。

后浪要重視數(shù)據(jù)及算法能力的建設(shè),避免“金玉其外,敗絮其中”,這樣才能行長(zhǎng)致遠(yuǎn),才能將金融科技真正打造為核心競(jìng)爭(zhēng)力。

(二)觀點(diǎn)二:前浪不能安于現(xiàn)狀而固步自封,對(duì)于變化最快的算法領(lǐng)域要做到與時(shí)俱進(jìn),同時(shí)避免“建模套路化”

“建模套路化”的現(xiàn)象指的是,一些金融機(jī)構(gòu)在業(yè)務(wù)實(shí)踐中,用“一套數(shù)據(jù)、一套算法、一套流程”應(yīng)對(duì)幾乎所有業(yè)務(wù)場(chǎng)景和風(fēng)控場(chǎng)景。

筆者認(rèn)為,在場(chǎng)景金融中,場(chǎng)景方的流量分發(fā)模型與金融機(jī)構(gòu)的流量準(zhǔn)入模型,二者之間是“既合作,又對(duì)抗”的關(guān)系,所以,套路化的模型,會(huì)使得金融機(jī)構(gòu)的風(fēng)控流于形式,無法有效地對(duì)“流量”進(jìn)行實(shí)質(zhì)甄別。

(三)觀點(diǎn)三:智能風(fēng)控領(lǐng)域模型算法的發(fā)展三階段為“專家評(píng)分卡——>邏輯回歸(高維邏輯回歸)——>集成學(xué)習(xí)、深度學(xué)習(xí)”

人工智能算法在風(fēng)險(xiǎn)評(píng)估領(lǐng)域的發(fā)展可以分為三個(gè)階段:

第一階段,規(guī)則驅(qū)動(dòng),多采用專家打分卡算法;

第二階段,規(guī)則+數(shù)據(jù)驅(qū)動(dòng),多采用邏輯回歸與高維邏輯回歸算法;

第三階段,大數(shù)據(jù)驅(qū)動(dòng),多采用集成學(xué)習(xí)與深度學(xué)習(xí)算法。

(四)觀點(diǎn)四:算法的選擇,要根據(jù)“場(chǎng)景需求”對(duì)癥下藥,根據(jù)“數(shù)據(jù)基礎(chǔ)”量體裁衣,根據(jù)“科技算力”量力而為,“理性”選擇算法

如何根據(jù)場(chǎng)景、數(shù)據(jù)、算力這些因素“理性”選擇算法,是本文第三章重點(diǎn)說明的問題。在這里主要強(qiáng)調(diào)另外一點(diǎn),理性選擇算法的另一個(gè)障礙——算法工程師的主觀傾向。

筆者自認(rèn)為是一個(gè)“理性的感性人”,每次根據(jù)場(chǎng)景、數(shù)據(jù)、算力這些因素“理性”選擇算法后,總有一些莫名的憂傷,總結(jié)起來就是如下三點(diǎn):對(duì)集成學(xué)習(xí)的依賴、對(duì)深度學(xué)習(xí)的偏愛、對(duì)專家規(guī)則的無奈。

對(duì)于高維邏輯回歸、集成學(xué)習(xí)的依賴

毋庸置疑,高維邏輯回歸和集成學(xué)習(xí)這兩類算法各方面相對(duì)均衡,是目前智能風(fēng)控領(lǐng)域算法的第一梯隊(duì)。

對(duì)于深度學(xué)習(xí)的偏愛

筆者對(duì)深度學(xué)習(xí)算法研究已久,日久生情,每次理性使用高維邏輯回歸和集成學(xué)習(xí)建模以后,便會(huì)感慨道:“曾經(jīng)有一個(gè)模型任務(wù)放在我面前,我沒有選擇深度學(xué)習(xí)算法,等我建完模型的時(shí)候才后悔莫及,人世間最痛苦的事莫過于此。如果上天能夠給我一個(gè)再來一次的機(jī)會(huì),我想對(duì)深度學(xué)習(xí)說三個(gè)字:我選你。如果非要在這個(gè)算法上加上一個(gè)期限,我希望是一萬年!”

對(duì)于專家規(guī)則的無奈

對(duì)于專家規(guī)則,不是愛也不是恨,而是無奈?!鞍?!要是數(shù)據(jù)充分,誰還用專家規(guī)則??!”但是,話說回來,這種無奈的感覺并不是因?yàn)閷<乙?guī)則的效果不好,事實(shí)上,在某些數(shù)據(jù)基礎(chǔ)或者某些特定場(chǎng)景下,專家規(guī)則效果還可以,但是專家規(guī)則的主要缺陷是“無法自動(dòng)更新”!業(yè)務(wù)在變化,風(fēng)險(xiǎn)在變化,專家模型原地不動(dòng),這些固化的規(guī)則就可能由“助力業(yè)務(wù)發(fā)展”變?yōu)椤白璧K業(yè)務(wù)發(fā)展”。

所以,每次我用專家規(guī)則建模后,也會(huì)感慨道:“曾經(jīng)有一個(gè)模型任務(wù)放在我面前,我選擇了專家規(guī)則,等我建完模型的時(shí)候才后悔莫及,人世間最痛苦的事莫過于此。如果上天能夠給我一個(gè)再來一次的機(jī)會(huì),我覺得我會(huì)再看一眼數(shù)據(jù)基礎(chǔ),如果還是選擇專家規(guī)則,我會(huì)給這份無奈加上一個(gè)期限——半年后重檢!”半年后,看看半年中業(yè)務(wù)積累的數(shù)據(jù)情況,然后打開月光寶盒,在月光下大喊“般若波羅蜜”……

二. 人工智能的發(fā)展與算法的進(jìn)化

作為第一批人工智能的博士,畢業(yè)十年后,曾經(jīng)多次感慨人工智能的發(fā)展:“十年前人工智能只在書本里,現(xiàn)在人工智能都在資本里;十年前我只能用人工智能來寫作業(yè),現(xiàn)在人們都在用人工智能來創(chuàng)業(yè)!”十年間,人工智能的發(fā)展實(shí)在是太快了!這個(gè)發(fā)展主要體現(xiàn)在算法、應(yīng)用兩個(gè)方面。

(一)人工智能發(fā)展的背景

1. 人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的概念辨析

(1) 人工智能(Artificial Intelligence)

“人工智能”一詞最初是在1956年Dartmouth學(xué)會(huì)上提出的,希望用計(jì)算機(jī)來構(gòu)造復(fù)雜的、擁有與人類智慧同樣本質(zhì)特性的機(jī)器。最初的人工智能技術(shù)主要包括:機(jī)器人、語言識(shí)別、圖像識(shí)別、自然語言處理和專家系統(tǒng)等。但隨著理論和技術(shù)日益發(fā)展,目前人工智能的五大主流技術(shù)為:生物特征識(shí)別、機(jī)器學(xué)習(xí)、自然語言處理、計(jì)算機(jī)視覺、知識(shí)圖譜。

(2) 機(jī)器學(xué)習(xí)(Machine Learning)

機(jī)器學(xué)習(xí)是一種實(shí)現(xiàn)人工智能的方法。與傳統(tǒng)的為解決特定任務(wù)、流程固定的算法不同,機(jī)器學(xué)習(xí)是用大量的數(shù)據(jù)來“訓(xùn)練”,通過各種算法從數(shù)據(jù)中學(xué)習(xí)如何完成任務(wù)。從學(xué)習(xí)方法的角度,機(jī)器學(xué)習(xí)算法可以分為監(jiān)督學(xué)習(xí)(分類問題)、無監(jiān)督學(xué)習(xí)(聚類問題)、半監(jiān)督學(xué)習(xí)、集成學(xué)習(xí)、深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。

(3) 深度學(xué)習(xí)(Deep Learning)

深度學(xué)習(xí)是一種實(shí)現(xiàn)機(jī)器學(xué)習(xí)的技術(shù)。嚴(yán)格地說,深度學(xué)習(xí)算法屬于機(jī)器學(xué)習(xí)算法的一個(gè)子類,是一種基于神經(jīng)網(wǎng)絡(luò)的算法。最初的深度學(xué)習(xí)算法,由于當(dāng)時(shí)訓(xùn)練數(shù)據(jù)量不足、計(jì)算能力落后,因此最終的效果不盡如人意。但隨著數(shù)據(jù)和算力的飛速發(fā)展,再加上一些特有的算法相繼被提出(如殘差網(wǎng)絡(luò)),深度學(xué)習(xí)的效果脫穎而出,因此越來越多的人將其看作一種“單獨(dú)的”方法。

(4) 人工智能、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)三者的關(guān)系:

機(jī)器學(xué)習(xí)是一種實(shí)現(xiàn)人工智能的方法,深度學(xué)習(xí)是一種實(shí)現(xiàn)機(jī)器學(xué)習(xí)的技術(shù),這三者的關(guān)系并不是“哈爾濱紅腸”的級(jí)聯(lián)關(guān)系,而是“俄羅斯套娃”的包含關(guān)系,如圖所示:

看到這張圖,有人可能會(huì)產(chǎn)生一個(gè)誤解“機(jī)器學(xué)習(xí)的終點(diǎn)是深度學(xué)習(xí)”,對(duì)此,筆者的回答是:技術(shù)無終點(diǎn)。在我們每一個(gè)人工智能研究者的心里,都應(yīng)該牢牢銘記這句話:

Yoshua Bengio:“Science is NOT a battle, it is a collaboration. We all build on each other's ideas. Science is an act of love, not war. Love for the beauty in the world that surrounds us and love to share and build something together. That makes science a highly satisfying activity, emotionally speaking?!边@句話的主旨是:科學(xué)不是戰(zhàn)爭(zhēng)而是合作,任何學(xué)科的發(fā)展就是同行之間互相切磋學(xué)習(xí)。機(jī)器學(xué)習(xí)也是這樣,博采眾長(zhǎng)才能引領(lǐng)風(fēng)騷。

2. 人工智能的主流算法與研究熱點(diǎn)

人工智能傳統(tǒng)的算法包括決策樹、聚類、貝葉斯分類、支持向量機(jī)、EM、Adaboost等。但是,隨著理論和技術(shù)的日益發(fā)展,目前主流的人工智能算法包括如下:

圖學(xué)習(xí)算法

聯(lián)邦學(xué)習(xí)算法

集成學(xué)習(xí)算法

因子分解機(jī)算法

自動(dòng)化機(jī)器學(xué)習(xí)算法

結(jié)構(gòu)化數(shù)據(jù)深度學(xué)習(xí)算法

概率預(yù)測(cè)算法

遷移學(xué)習(xí)/元學(xué)習(xí)算法

半監(jiān)督學(xué)習(xí)算法

強(qiáng)化學(xué)習(xí)算法

運(yùn)籌優(yōu)化算法

在金融領(lǐng)域?qū)τ谌斯ぶ悄艿耐度氩粩嗉哟蟮内厔?shì)下,可以預(yù)見,人工智能會(huì)不斷滲透金融領(lǐng)域中的更多業(yè)務(wù),并且由輔助人工轉(zhuǎn)為價(jià)值創(chuàng)造。有研究人員統(tǒng)計(jì)了人工智能金融的研究熱點(diǎn)排序如下:

金融文本發(fā)掘(Financial Text Mining)

算法交易(Algorithmic Trading)

風(fēng)險(xiǎn)估計(jì)(Risk Assessment)

情感分析(Financial Sentiment Analysis)

投資組合管理(Portfolio Management)

欺詐檢測(cè)(Fraud Detection)

(二)人工智能在金融領(lǐng)域的應(yīng)用

1. 人工智能在金融領(lǐng)域的應(yīng)用簡(jiǎn)析

2. 人工智能在金融領(lǐng)域發(fā)展的驅(qū)動(dòng)因素

人工智能在金融領(lǐng)域的飛速發(fā)展,主要有以下幾個(gè)驅(qū)動(dòng)因素:

(1) 監(jiān)管的政策倡導(dǎo)

政策方面,在“科技向善”的前提下,鼓勵(lì)人工智能、大數(shù)據(jù)等新技術(shù)的落地實(shí)踐,支持金融與科技的深度融合。

(2) 金融機(jī)構(gòu)的認(rèn)可

金融機(jī)構(gòu)認(rèn)可人工智能的技術(shù)價(jià)值,金融業(yè)務(wù)創(chuàng)新越來越依賴于大數(shù)據(jù)和人工智能技術(shù),金融科技水平正在成為金融企業(yè)的核心競(jìng)爭(zhēng)力。

(3) 基礎(chǔ)算法的發(fā)展

人工智能領(lǐng)域匯集了一大批頂尖的研究人員,從理論方面推動(dòng)著算法能力、數(shù)據(jù)能力、科技算力的不斷提升。算法基礎(chǔ)理論的進(jìn)步,推動(dòng)了人工智能在金融領(lǐng)域的應(yīng)用實(shí)踐。

(4) 大數(shù)據(jù)的擴(kuò)域融合

金融數(shù)據(jù)與其他跨域數(shù)據(jù)的融合,不僅使得金融機(jī)構(gòu)的營(yíng)銷與風(fēng)控模型更準(zhǔn)確,同時(shí)也催生出更多基于場(chǎng)景的金融產(chǎn)品,使得行業(yè)之間的交叉更加深入,從而帶來更多的商業(yè)價(jià)值與社會(huì)效益。

(5) 黑產(chǎn)手段的升級(jí)

目前各類金融場(chǎng)景中的欺詐行為逐步呈現(xiàn)出金融欺詐產(chǎn)業(yè)化、犯罪組織職業(yè)化、作案目標(biāo)精準(zhǔn)化、欺詐活動(dòng)移動(dòng)化、欺詐場(chǎng)景多樣化等特征。這種“魔高一尺、道高一丈”的激烈對(duì)抗,更加促進(jìn)了算法技術(shù)的發(fā)展。

三. 人工智能算法在智能風(fēng)控領(lǐng)域的經(jīng)驗(yàn)與思考

(一)智能風(fēng)控領(lǐng)域的算法選擇經(jīng)驗(yàn)

人工智能算法在金融領(lǐng)域的應(yīng)用,需要場(chǎng)景、數(shù)據(jù)、算法、算力的有機(jī)結(jié)合,要做到:根據(jù)場(chǎng)景需求對(duì)癥下藥,根據(jù)數(shù)據(jù)量體裁衣,根據(jù)算力量力而為。

由“場(chǎng)景需求”到“算法要求”

場(chǎng)景和業(yè)務(wù)的需求就是模型的產(chǎn)出,直接決定了模型的算法。由“場(chǎng)景需求”到“算法要求”分為兩步:

第一步,先根據(jù)場(chǎng)景業(yè)務(wù)的特點(diǎn),歸納出場(chǎng)景需求;

第二步,由場(chǎng)景需求抽象成算法因素。

常用的算法因素一般包含如下:樣本量、預(yù)測(cè)時(shí)間、模型周期、泛化能力、優(yōu)化目標(biāo)、可解釋性等。

為了更好地理解場(chǎng)景對(duì)算法選擇的影響,筆者以廣告推薦場(chǎng)景、信用評(píng)估場(chǎng)景、智能投研場(chǎng)景舉例說明如下:

2. 由“數(shù)據(jù)稟賦”到“特征工程”

智能風(fēng)控領(lǐng)域的主流模型均依賴于特征工程,其數(shù)據(jù)源主要包括:征信報(bào)告、資產(chǎn)狀況、基本信息、多頭借貸、運(yùn)營(yíng)商數(shù)據(jù)、地理信息、設(shè)備信息等。通過對(duì)上述數(shù)據(jù)源進(jìn)行特征工程,可以提取統(tǒng)計(jì)量特征、離散化特征、時(shí)間序列特征、組合特征等。筆者在大學(xué)軍訓(xùn)的時(shí)候,教官常說“鐵打的營(yíng)盤,流水的兵”,筆者提及特征工程的經(jīng)常套用這句話提出“流水的數(shù)據(jù)、鐵打的特征”,數(shù)據(jù)是流動(dòng)的,不穩(wěn)定的,容易受污染的,而特征則是相對(duì)穩(wěn)定的,只有特征的穩(wěn)定才能保證模型輸出的穩(wěn)定。

(1) 特征工程的基本流程

筆者在工作中總結(jié)了一套通用的特征處理技巧,并經(jīng)常戲稱為“把大象放在冰箱里統(tǒng)共分三步”,大象就越是龐大的數(shù)據(jù)體系,冰箱就是實(shí)用的特征庫。

第一步:特征探索,從數(shù)據(jù)角度優(yōu)先排除無效的特征;

第二步:特征變換,將特征轉(zhuǎn)換為模型更容易識(shí)別的形式,并進(jìn)行升維;

第三步:特征選擇,從業(yè)務(wù)的角度選擇有效的特征。

(2) 特征工程的經(jīng)驗(yàn)分享

在實(shí)踐中,筆者有一些經(jīng)驗(yàn)可以與讀者分享:

經(jīng)驗(yàn)建議1:關(guān)注數(shù)據(jù)缺失特征

筆者要提醒,千萬別把數(shù)據(jù)缺失認(rèn)為是數(shù)據(jù)質(zhì)量問題,這種缺失本身也是一種特征。所以,在實(shí)踐中要關(guān)注原始數(shù)據(jù)的缺失是否具有業(yè)務(wù)含義,并據(jù)此構(gòu)造相應(yīng)的缺失值特征。例如,筆者在衍生二代征信變量的時(shí)候,構(gòu)造“客戶特征缺失數(shù)量”作為一個(gè)特征,就這個(gè)簡(jiǎn)單的缺失值統(tǒng)計(jì)數(shù)量都可以有效改善模型效果,更何況其他更有實(shí)際意義的數(shù)據(jù)缺失。

經(jīng)驗(yàn)建議2:關(guān)注時(shí)間差特征

時(shí)間差特征值得深入挖掘,時(shí)間差特征主要指客戶兩次行為之間的時(shí)間差,可以是最近一次消費(fèi)(取現(xiàn)/還款)距今時(shí)長(zhǎng),一段時(shí)間內(nèi)最大單筆交易與最小單筆交易的時(shí)間差等。筆者在開發(fā)貸中模型的時(shí)候,通過數(shù)據(jù)挖掘,發(fā)現(xiàn)最近一次消費(fèi)(取現(xiàn)/還款)距今時(shí)長(zhǎng)的變量與客戶是否違約具有較高的相關(guān)性。

經(jīng)驗(yàn)建議3:關(guān)注離散變量與連續(xù)變量的聚合特征

要關(guān)注離散變量與連續(xù)變量的聚合特征。例如,筆者在開發(fā)貸款違約模型過程中,將分類變量(職業(yè)/卡類型/貸款類型)等對(duì)數(shù)值變量(貸款金額/消費(fèi)金額)進(jìn)行聚合匯總,構(gòu)造了不同職業(yè)/業(yè)務(wù)類型的貸款金額的均值/方差/最大值/最小值的統(tǒng)計(jì)量,該類特征的使用有效地提升了模型的效果。

經(jīng)驗(yàn)建議4:關(guān)注外部數(shù)據(jù)的使用

一些外部數(shù)據(jù)是金融數(shù)據(jù)的有效補(bǔ)充,特別是反欺詐和二次營(yíng)銷類的外部數(shù)據(jù),對(duì)于金融機(jī)構(gòu)的模型效果貢獻(xiàn)度很高。

3. 算法選擇經(jīng)驗(yàn)總結(jié)

(1) 基于數(shù)據(jù)類型的算法選擇

金融領(lǐng)域的數(shù)據(jù)特點(diǎn)就是“多源異構(gòu)”,其數(shù)據(jù)類型主要有:時(shí)間序列數(shù)據(jù)、網(wǎng)絡(luò)圖譜數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù)、文本數(shù)據(jù)、圖像數(shù)據(jù)、視頻數(shù)據(jù)、語音數(shù)據(jù)。下面根據(jù)筆者實(shí)踐,給出了針對(duì)不同的數(shù)據(jù)類型,選擇算法的經(jīng)驗(yàn),如下表所示:

(2) 基于數(shù)據(jù)狀況的算法選擇

在實(shí)際工作中,經(jīng)常會(huì)遇到樣本不足(尤其是黑樣本)、數(shù)據(jù)維度不足、人工標(biāo)注成本高、標(biāo)簽少、標(biāo)簽錯(cuò)誤等情況。面對(duì)這些數(shù)據(jù)的“狀況”,選擇合適的算法,可以做到事半功倍。下面根據(jù)筆者實(shí)踐,給出了針對(duì)不同的數(shù)據(jù)狀況,選擇不同算法的經(jīng)驗(yàn),如下表所示。

(3) 關(guān)于數(shù)據(jù),基于經(jīng)驗(yàn)的算法選擇

筆者在智能風(fēng)控方面的算法實(shí)踐,總結(jié)如下經(jīng)驗(yàn):

經(jīng)驗(yàn)建議5:對(duì)于結(jié)構(gòu)化數(shù)據(jù)

當(dāng)連續(xù)特征數(shù)量大于離散特征數(shù)量時(shí),建議優(yōu)先采用集成學(xué)習(xí)。

當(dāng)離散特征數(shù)量大于連續(xù)特征數(shù)量時(shí),集成學(xué)習(xí)與深度學(xué)習(xí)效果相當(dāng)。

當(dāng)離散特征多(如大量ID類特征)時(shí),建議優(yōu)先選擇深度學(xué)習(xí)。

經(jīng)驗(yàn)建議6:對(duì)于時(shí)間序列數(shù)據(jù)

對(duì)于純時(shí)間序列,“時(shí)序特征+集成學(xué)習(xí)”的效果一般優(yōu)于深度學(xué)習(xí)。

對(duì)于高維稀疏時(shí)間序列,深度學(xué)習(xí)與集成學(xué)習(xí)各有千秋。

經(jīng)驗(yàn)建議7:對(duì)于圖數(shù)據(jù)

對(duì)于關(guān)聯(lián)關(guān)系要求高的應(yīng)用場(chǎng)景,例如圖反欺詐場(chǎng)景等,建議特征作為節(jié)點(diǎn)采用GNN模型訓(xùn)練。

對(duì)于關(guān)聯(lián)關(guān)系要求低的應(yīng)用場(chǎng)景,例如圖關(guān)系特征輔助信用評(píng)估等,建議直接學(xué)習(xí)節(jié)點(diǎn)的Vector,然后編碼到原始特征中采用集成學(xué)習(xí)訓(xùn)練。

4. 建模方法論的經(jīng)驗(yàn)總結(jié)

在建模的方法論上,筆者也有一些心得體會(huì)可以和讀者分享,以期批評(píng)指正。

經(jīng)驗(yàn)建議8:關(guān)于數(shù)據(jù)質(zhì)量

數(shù)據(jù)是模型的根基,如果數(shù)據(jù)質(zhì)量存在嚴(yán)重缺陷,后期很難通過算法來進(jìn)行彌補(bǔ),所以在建模前,要關(guān)注數(shù)據(jù)質(zhì)量,準(zhǔn)確評(píng)估數(shù)據(jù)質(zhì)量對(duì)于模型的影響。

經(jīng)驗(yàn)建議9:關(guān)于專家經(jīng)驗(yàn)與專家規(guī)則

專家經(jīng)驗(yàn)與專家規(guī)則的主要缺陷是無法自我更新,但是在“規(guī)則有效期”內(nèi),專家經(jīng)驗(yàn)實(shí)際上是很好的“標(biāo)尺”,所以要根據(jù)這些標(biāo)尺對(duì)算法進(jìn)行一定程度的糾偏。

經(jīng)驗(yàn)建議10:關(guān)于模型迭代與算法創(chuàng)新

創(chuàng)新是算法的生命力,迭代是模型的生命力,但是做這兩件事情之前,首先要確定一個(gè)“及格線”。對(duì)于算法創(chuàng)新,首先要保證經(jīng)典算法(及格線)是有效的;對(duì)于模型迭代,首先要選好基線模型(及格線)。

(二)人工智能算法在智能風(fēng)控領(lǐng)域的發(fā)展趨勢(shì)

筆者結(jié)合工作經(jīng)驗(yàn)拋磚引玉,思考了人工智能算法在智能風(fēng)控領(lǐng)域的發(fā)展方向。

趨勢(shì)1:深度學(xué)習(xí)算法將會(huì)被廣泛采用

(1) 隨著數(shù)據(jù)的豐富與算力的不斷提升,深度學(xué)習(xí)模型的優(yōu)勢(shì)逐步體現(xiàn)。

隨著數(shù)據(jù)的豐富與算力的不斷提升,傳統(tǒng)的評(píng)分卡模型在大數(shù)據(jù)風(fēng)控能力上的缺陷逐漸顯露出來。與此同時(shí),基于DeepFM類與基于Transformer類的深度學(xué)習(xí)算法在智能風(fēng)控領(lǐng)域的優(yōu)勢(shì)也不斷顯示出來。DeepFM類的模型從廣告推薦領(lǐng)域遷移而來,由于其在自動(dòng)化特征組合與客戶ID類數(shù)據(jù)的優(yōu)勢(shì),在用戶行為欺詐領(lǐng)域發(fā)揮越來越重要的作用;而最新的Transformer類模型的發(fā)展,平衡了深度學(xué)習(xí)模型表征能力強(qiáng)與可解釋性差的特點(diǎn),在智能風(fēng)控領(lǐng)域也得到了越來越多的關(guān)注和應(yīng)用。

(2) 深度學(xué)習(xí)模型對(duì)于用戶行為表征能力強(qiáng),既可以實(shí)現(xiàn)自動(dòng)化特征組合,又可以對(duì)用戶的行為進(jìn)行精準(zhǔn)、細(xì)致的刻畫。

一方面,深度學(xué)習(xí)模型通過特征表征、元素點(diǎn)積、注意力機(jī)制等技術(shù),實(shí)現(xiàn)自動(dòng)化的特征組合。另一方面,通過RNN等模型在用戶行為的序列建模,對(duì)用戶的行為序列進(jìn)行更加細(xì)致準(zhǔn)確的刻畫。Tencent、FeedZai等公司均利用RNN類模型進(jìn)行交易反欺詐與信用評(píng)估,該模型因?yàn)槭∪チ颂卣魈幚憝h(huán)節(jié),大大提高了模型效率,且模型精準(zhǔn)度更高。

(3) 深度學(xué)習(xí)模型對(duì)于數(shù)據(jù)的可擴(kuò)展性好,在無標(biāo)注數(shù)據(jù)、標(biāo)注不準(zhǔn)確數(shù)據(jù)、增量數(shù)據(jù)、不同分布數(shù)據(jù)、小樣本數(shù)據(jù)等場(chǎng)景的建模,相比其他算法有獨(dú)特的優(yōu)勢(shì)。

在無標(biāo)注數(shù)據(jù)、標(biāo)注不準(zhǔn)確數(shù)據(jù)、增量數(shù)據(jù)、不同分布數(shù)據(jù)、小樣本數(shù)據(jù)下,傳統(tǒng)算法的效果大打折扣,而深度學(xué)習(xí)模型通過神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)設(shè)計(jì)與損失函數(shù)的優(yōu)化,支持元學(xué)習(xí)、遷移學(xué)習(xí)、在線學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、持續(xù)學(xué)習(xí)等模型的場(chǎng)景應(yīng)用,可探索性與可配置性都很強(qiáng)。

當(dāng)建模樣本不足時(shí),可以采用Transfer Learning或者M(jìn)eta Learning的方式進(jìn)行模型設(shè)計(jì);

當(dāng)樣本標(biāo)注成本高時(shí),可以采用Active Learning的方式進(jìn)行樣本建模;

當(dāng)樣本標(biāo)簽有錯(cuò)誤時(shí),可以通過Learning With Noisy Label的方式進(jìn)行模型訓(xùn)練;

當(dāng)只有部分樣本有標(biāo)簽,可以采用Semi-supervised learning的方式進(jìn)行建模。

2. 趨勢(shì)2:多模態(tài)數(shù)據(jù)將會(huì)被廣泛應(yīng)用

算法的發(fā)展與數(shù)據(jù)的發(fā)展“東成西就”,數(shù)據(jù)成就了算法,算法也促進(jìn)了數(shù)據(jù)。深度學(xué)習(xí)算法的發(fā)展,也將會(huì)有效推動(dòng)多模態(tài)數(shù)據(jù)在風(fēng)控領(lǐng)域的應(yīng)用。

從算法上看,傳統(tǒng)的風(fēng)控模型一般從用戶的信貸記錄上識(shí)別客戶風(fēng)險(xiǎn),深度學(xué)習(xí)模型可以從多模態(tài)的數(shù)據(jù)中挖掘隱藏的風(fēng)險(xiǎn)信息。

從數(shù)據(jù)上看,圖像、語音、文本、圖等不同屬性的數(shù)據(jù)作為結(jié)構(gòu)化數(shù)據(jù)的有效補(bǔ)充,能夠有效地將信貸記錄上未察覺的風(fēng)險(xiǎn)識(shí)別出來。

所以,可以預(yù)見多模態(tài)數(shù)據(jù)將會(huì)在風(fēng)控領(lǐng)域發(fā)揮越來越大的價(jià)值。

3. 趨勢(shì)3:圖數(shù)據(jù)庫與圖深度網(wǎng)絡(luò)將會(huì)大規(guī)模落地。

(1) 網(wǎng)絡(luò)圖譜以顛覆性的“關(guān)系視角”來解決反欺詐問題

網(wǎng)絡(luò)圖譜用“事物間關(guān)系屬性”來代替“事物本身的屬性”,來表征事物的特征。

從這個(gè)顛覆性的視角,使得網(wǎng)絡(luò)圖譜在識(shí)別團(tuán)伙欺詐、線上反欺詐領(lǐng)域發(fā)揮著重要的作用。例如,相對(duì)金融機(jī)構(gòu)熟悉的線下反欺詐,線上反欺詐主要針對(duì)團(tuán)伙欺詐行為,團(tuán)伙欺詐行為的主要特征是:“羊”的還款意愿不取決于“羊的本身屬性”,而是取決于“羊和羊頭之間的關(guān)系屬性”,這恰恰是網(wǎng)絡(luò)圖譜的視角。

(2) 網(wǎng)絡(luò)圖譜衍生圖特征在風(fēng)控領(lǐng)域的深度應(yīng)用

網(wǎng)絡(luò)圖譜衍生圖特征分為三類:

基于專家經(jīng)驗(yàn)的網(wǎng)絡(luò)圖特征:這類特征通常具有可解釋性,是通過業(yè)務(wù)經(jīng)驗(yàn)構(gòu)造網(wǎng)絡(luò)節(jié)點(diǎn)與邊的屬性特征,用于后續(xù)風(fēng)險(xiǎn)預(yù)測(cè)模型的特征輸入。

基于機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)圖特征:這類特征通常是不可解釋的,是通過矩陣分解或者隨機(jī)游走等圖表示方法,將圖網(wǎng)絡(luò)刻畫出的用戶/企業(yè)風(fēng)險(xiǎn)水平進(jìn)行結(jié)構(gòu)化向量表達(dá),用于下游不同場(chǎng)景下風(fēng)險(xiǎn)模型的特征輸入。

端到端的風(fēng)險(xiǎn)預(yù)測(cè)模型:這種方法融合結(jié)構(gòu)化特征屬性,通過圖神經(jīng)網(wǎng)絡(luò)算法直接訓(xùn)練風(fēng)險(xiǎn)預(yù)測(cè)模型。

第一種應(yīng)用由于可解釋性強(qiáng),業(yè)務(wù)應(yīng)用便捷,目前已在眾多金融機(jī)構(gòu)落地。第二第三種應(yīng)用由于建模過程更復(fù)雜,目前只集中在互聯(lián)網(wǎng)大廠應(yīng)用,筆者認(rèn)為隨著金融機(jī)構(gòu)對(duì)于智能的認(rèn)知與應(yīng)用不斷加深,未來也會(huì)逐漸被金融機(jī)構(gòu)接受并應(yīng)用。

(3) 網(wǎng)絡(luò)圖譜將成為金融機(jī)構(gòu)“新的數(shù)據(jù)源”

筆者在原始數(shù)據(jù)特征上建立了一套評(píng)分體系,隨后逐步嘗試將這套評(píng)分體系構(gòu)建在網(wǎng)絡(luò)圖譜特征上,發(fā)現(xiàn)兩者效果具有一定的可比性。并且,隨著圖譜構(gòu)建算法和方法論的進(jìn)步,網(wǎng)絡(luò)圖譜能夠基于有限的數(shù)據(jù)源挖掘出更多的內(nèi)部關(guān)系,相當(dāng)于形成了新的“關(guān)系數(shù)據(jù)源”。

4. 趨勢(shì)4:聯(lián)邦學(xué)習(xí)將會(huì)大規(guī)模落地

首先我們要有一個(gè)認(rèn)識(shí):數(shù)據(jù)是生產(chǎn)資料、模型算法形成生產(chǎn)力、聯(lián)邦學(xué)習(xí)本質(zhì)上是一種生產(chǎn)關(guān)系,它能夠充分地調(diào)動(dòng)數(shù)據(jù)生產(chǎn)資料,并集成模型算法而形成生產(chǎn)力。

聯(lián)邦學(xué)習(xí)在保護(hù)數(shù)據(jù)隱私前提下,讓數(shù)據(jù)和算力留在本地,并在此基礎(chǔ)上進(jìn)行聯(lián)合模型訓(xùn)練的計(jì)算框架。在金融領(lǐng)域,保護(hù)隱私和數(shù)據(jù)安全是一個(gè)永久的話題。聯(lián)邦學(xué)習(xí)在保護(hù)隱私和數(shù)據(jù)安全的前提下,帶動(dòng)了場(chǎng)景生態(tài)和金融生態(tài)跨領(lǐng)域、企業(yè)級(jí)的數(shù)據(jù)合作,催生了聯(lián)合建模的新業(yè)態(tài)和新模式,在未來將會(huì)大規(guī)模落地實(shí)施。

5. 趨勢(shì)5:自動(dòng)化建模平臺(tái)將會(huì)升級(jí)為模型風(fēng)險(xiǎn)管理平臺(tái)

筆者前文提到了“后發(fā)劣勢(shì)陷阱”中,后浪一蜂窩地照貓畫虎進(jìn)行IT系統(tǒng)的產(chǎn)品采購這個(gè)相對(duì)簡(jiǎn)單的事情,而忽略了基礎(chǔ)數(shù)據(jù)、科技整合、算法能力等。目前的狀況是,大部分的金融機(jī)構(gòu)均采購了自動(dòng)化的建模平臺(tái),那么如何用好這個(gè)平臺(tái),可以總結(jié)為:一個(gè)核心問題,兩個(gè)應(yīng)用感受,三個(gè)發(fā)展趨勢(shì)。

(1) 一個(gè)核心問題:責(zé)任劃分。

自動(dòng)化建模產(chǎn)出的模型,如果用這個(gè)模型放的貸款出現(xiàn)不良,那么誰來負(fù)責(zé)任?所以,這個(gè)平臺(tái)必須嵌入銀行的模型風(fēng)險(xiǎn)管理流程,才能有明確的責(zé)任劃分。

(2) 兩個(gè)應(yīng)用感受:

筆者曾經(jīng)使用過自動(dòng)化機(jī)器學(xué)習(xí)平臺(tái)進(jìn)行建模,在實(shí)踐中內(nèi)心感受如下:

感受1:這個(gè)平臺(tái)是在解一道數(shù)學(xué)題,而不是在做風(fēng)控;

感受2:這個(gè)平臺(tái)會(huì)不會(huì)形成一種新的“建模套路化”。

(3) 三個(gè)發(fā)展趨勢(shì):

趨勢(shì)1:在數(shù)據(jù)清洗、特征工程等領(lǐng)域?qū)?huì)發(fā)揮重要作用。

根據(jù)筆者經(jīng)驗(yàn),一個(gè)模型的流程,通常會(huì)把60–80%的時(shí)間用在數(shù)據(jù)清洗和特征工程上,用于微調(diào)算法的時(shí)間不足5%,并且數(shù)據(jù)清洗和特征工程這兩個(gè)環(huán)節(jié)可以“套路化”。

趨勢(shì)2:自動(dòng)化機(jī)器學(xué)習(xí)算法可以作為有效挑戰(zhàn)者用于模型驗(yàn)證。

自動(dòng)化機(jī)器學(xué)習(xí)算法是一個(gè)公平的尺子,可以作為有效挑戰(zhàn)者成為模型驗(yàn)證的“基準(zhǔn)線”,以節(jié)約模型驗(yàn)證的工作量。

趨勢(shì)3:自動(dòng)化建模平臺(tái)將會(huì)升級(jí)為模型風(fēng)險(xiǎn)管理平臺(tái)。

關(guān)于模型風(fēng)險(xiǎn)的重要性,可以參見筆者的另一篇萬字長(zhǎng)文《銀行模型風(fēng)險(xiǎn)管理體系的構(gòu)建與實(shí)踐》。模型風(fēng)險(xiǎn)管理平臺(tái)是一個(gè)流程平臺(tái),將自動(dòng)化建模平臺(tái)嵌入流程,明確責(zé)任;并且將數(shù)據(jù)處理、特征工程、模型驗(yàn)證等可以自動(dòng)化的環(huán)節(jié)均納入其中,有效提升建模整體的敏捷性。

6. 趨勢(shì)6:算法的可解釋性將會(huì)被逐步重視

風(fēng)控領(lǐng)域?qū)δP徒忉屝缘囊蟾哂谄渌I(lǐng)域,尤其在欺詐拒絕或者命中黑名單時(shí),最好是能給出一定的解釋。而機(jī)器學(xué)習(xí)(深度學(xué)習(xí))模型在該方面的缺陷也恰好限制了其在風(fēng)控領(lǐng)域的應(yīng)用,對(duì)于可解釋性的研究將會(huì)是智能風(fēng)控領(lǐng)域的研究熱點(diǎn)。

但是,辯證地看問題,筆者的個(gè)人觀點(diǎn)是這樣的:雖然可解釋性在金融領(lǐng)域很重要,但不要一味追求可解釋性,智能的本質(zhì)就是利用算法從數(shù)據(jù)中發(fā)掘出那些被埋沒的信息。

四.算法工程師必備算法知識(shí)與經(jīng)驗(yàn)分享

筆者在本章總結(jié)了一些金融領(lǐng)域的常用算法、筆者的經(jīng)驗(yàn)分享以及進(jìn)一步自學(xué)的參考文獻(xiàn),如下圖所示。

(一) 圖學(xué)習(xí)算法、經(jīng)驗(yàn)及應(yīng)用

圖學(xué)習(xí)算法介紹

提到圖學(xué)習(xí),筆者很喜歡達(dá)摩院2020年十大科技趨勢(shì)預(yù)測(cè)白皮書里提到的一段關(guān)于圖網(wǎng)絡(luò)的描述:“大規(guī)模圖神經(jīng)網(wǎng)絡(luò)被認(rèn)為是推動(dòng)認(rèn)知智能發(fā)展強(qiáng)有力的推理方法。圖神經(jīng)網(wǎng)絡(luò)將深度神經(jīng)網(wǎng)絡(luò)從處理傳統(tǒng)非結(jié)構(gòu)化數(shù)據(jù)(如圖像、語音和文本序列)推廣到更高層次的結(jié)構(gòu)化數(shù)據(jù)(如圖結(jié)構(gòu))。大規(guī)模的圖數(shù)據(jù)可以表達(dá)豐富和蘊(yùn)含邏輯關(guān)系的人類常識(shí)和專家規(guī)則,圖節(jié)點(diǎn)定義了可理解的符號(hào)化知識(shí),不規(guī)則圖拓?fù)浣Y(jié)構(gòu)表達(dá)了圖節(jié)點(diǎn)之間的依賴、從屬、邏輯規(guī)則等推理關(guān)系。以保險(xiǎn)和金融風(fēng)險(xiǎn)評(píng)估為例,一個(gè)完備的 AI 系統(tǒng)不僅需要基于個(gè)人的履歷、行為習(xí)慣、健康程度等進(jìn)行分析處理,還需要通過其親友、同事、同學(xué)之間的來往數(shù)據(jù)和相互評(píng)價(jià)進(jìn)一步進(jìn)行信用評(píng)估和推斷?;趫D結(jié)構(gòu)的學(xué)習(xí)系統(tǒng)能夠利用用戶之間、用戶與產(chǎn)品之間的交互,做出非常準(zhǔn)確的因果和關(guān)聯(lián)推理。”

數(shù)學(xué)領(lǐng)域有一個(gè)著名的理論,叫六度空間理論,你和任何一個(gè)陌生人之間所間隔的人不會(huì)超過六個(gè),這充分說明了關(guān)系的重要性。圖網(wǎng)絡(luò)提供了數(shù)據(jù)的通用表示,基本萬事萬物的聯(lián)系均可以使用“節(jié)點(diǎn)+關(guān)系”來表示,同時(shí),大量的現(xiàn)實(shí)問題都可以作為圖上的一組計(jì)算任務(wù)來處理。圖數(shù)據(jù)可以說是一種最契合業(yè)務(wù)的數(shù)據(jù)表達(dá)形式。

從最近幾年的頂會(huì)情況來看,圖神經(jīng)網(wǎng)絡(luò)在學(xué)術(shù)界已經(jīng)掀起了新的熱潮,也會(huì)迎來工業(yè)界更多的關(guān)注。DeepMind關(guān)于深度學(xué)習(xí)的未來曾經(jīng)提到“生物學(xué)里先天因素和后天因素是共同發(fā)揮作用的,我們認(rèn)為‘人工構(gòu)造’和‘端到端’學(xué)習(xí)也不是只能從中選擇其一,我們主張結(jié)合兩者的優(yōu)點(diǎn),從它們的互補(bǔ)優(yōu)勢(shì)中受益”。

筆者認(rèn)為,圖神經(jīng)網(wǎng)絡(luò)既利用了豐富的人工構(gòu)造的屬性特征信息,又利用了復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)信息,充分實(shí)現(xiàn)人工構(gòu)造和端到端學(xué)習(xí)的統(tǒng)一。從圖中,可以進(jìn)行多層關(guān)系推理。傳統(tǒng)的CNN,RNN等深度神經(jīng)網(wǎng)絡(luò)只能處理歐式空間的數(shù)據(jù),對(duì)于非歐式空間的圖數(shù)據(jù)無法有效表征,圖學(xué)習(xí)算法正是針對(duì)非歐式空間的圖數(shù)據(jù)進(jìn)行學(xué)習(xí)。

按照網(wǎng)絡(luò)知識(shí)本身,圖學(xué)習(xí)算法可以分為網(wǎng)絡(luò)表示學(xué)習(xí)算法與圖神經(jīng)網(wǎng)絡(luò)算法兩個(gè)分支:

網(wǎng)絡(luò)表示學(xué)習(xí)算法(GraphEmbedding)希望得到節(jié)點(diǎn)的有效表征應(yīng)用于下游任務(wù),整個(gè)模型的輸出是頂點(diǎn)或邊的向量化表示,不涉及上層業(yè)務(wù)的關(guān)聯(lián),是通用的表征,典型算法如DeepWalk、LINE算法。

圖神經(jīng)網(wǎng)絡(luò)算法(GraphNetwork)則是對(duì)特定的任務(wù)進(jìn)行網(wǎng)絡(luò)學(xué)習(xí),是端到端的訓(xùn)練,是具體的表征,典型算法如GCN、GAT算法。

2. 圖學(xué)習(xí)算法經(jīng)驗(yàn)

傳統(tǒng)的客戶建模認(rèn)為客戶與客戶之間是獨(dú)立的,但是風(fēng)控場(chǎng)景存在大量復(fù)雜的關(guān)系,包括交易關(guān)系、轉(zhuǎn)賬關(guān)系、親屬關(guān)系等,這使得個(gè)體屬性不僅與自身的特性相關(guān),還與其發(fā)生交互的個(gè)體有關(guān)。筆者結(jié)合實(shí)踐經(jīng)驗(yàn),給出一些算法建議供參考:

GBDT與GNN的結(jié)合

GBDT與GNN的結(jié)合有三種方式,一是GBDT的輸出作為GNN的特征輸入,二是GNN的輸出作為GBDT的特征輸入,三是GBDT與GNN的聯(lián)合訓(xùn)練。第三種方式由于統(tǒng)一了任務(wù)本身,因此模型效果更好。Catboost作者發(fā)表了一篇文章《Boost Then Convolve: Gradient Boosting meets graph neural networks》講的就是第三種方式的算法理論,最后比較其他的方法如GBDT這種淺層的機(jī)器學(xué)習(xí)模型,證明聯(lián)合訓(xùn)練的效果是比較突出的。

圖網(wǎng)絡(luò)與時(shí)間序列的結(jié)合

無論是風(fēng)控領(lǐng)域、營(yíng)銷領(lǐng)域還是投資領(lǐng)域,時(shí)序圖網(wǎng)絡(luò)的作用越來越重要,如何高效地構(gòu)建億節(jié)點(diǎn)級(jí)別規(guī)模網(wǎng)絡(luò),實(shí)現(xiàn)相關(guān)領(lǐng)域知識(shí)圖譜融合以及關(guān)鍵節(jié)點(diǎn)辨識(shí)、推理和控制,達(dá)到風(fēng)險(xiǎn)預(yù)警及防范,是值得研究的領(lǐng)域。

金融圖網(wǎng)絡(luò)算法設(shè)計(jì)

圖網(wǎng)絡(luò)大多與場(chǎng)景直接相關(guān),一個(gè)電商場(chǎng)景的圖和社交網(wǎng)絡(luò)的圖在數(shù)據(jù)構(gòu)成與上層模型計(jì)算層面均有本質(zhì)不同,只有針對(duì)業(yè)務(wù)屬性進(jìn)行算法的改進(jìn),才能真正解決業(yè)務(wù)的痛點(diǎn)。研究人員針對(duì)金融圖網(wǎng)絡(luò)數(shù)據(jù)設(shè)計(jì)了一些專用金融圖網(wǎng)絡(luò)算法,如HACUD、MAHINDER、AMG等圖網(wǎng)絡(luò)算法。筆者認(rèn)為,該類算法值得模型人員學(xué)習(xí)、研究并應(yīng)用。

不同類型邊的處理

正如前文所言,風(fēng)控場(chǎng)景存在大量復(fù)雜的關(guān)系,包括轉(zhuǎn)賬交易等資金往來關(guān)系,父母配偶等親屬關(guān)系、朋友同事等社會(huì)關(guān)系,以及代辦人等中介關(guān)系等。目前大部分圖算法在進(jìn)行計(jì)算時(shí),權(quán)重參數(shù)是基于節(jié)點(diǎn)屬性特征的,而不考慮邊類型的影響。這要求我們進(jìn)行落地實(shí)踐時(shí),不能簡(jiǎn)單的“拿來主義”,而要在場(chǎng)景分析、基礎(chǔ)網(wǎng)絡(luò)關(guān)系設(shè)計(jì)、算法分析設(shè)計(jì)等的基礎(chǔ)上,形成富有針對(duì)性的解決方案。

圖的分布式計(jì)算能力

不管是頭部互聯(lián)網(wǎng)公司、還是金融機(jī)構(gòu),均服務(wù)大量客戶,由此構(gòu)建的客戶關(guān)系網(wǎng)絡(luò)可以達(dá)到數(shù)10億個(gè)節(jié)點(diǎn)、數(shù)100億條邊的規(guī)模。這要求必須重點(diǎn)考慮大規(guī)模圖的計(jì)算能力,甚至優(yōu)先于考慮算法本身的設(shè)計(jì)。將合適的圖神經(jīng)網(wǎng)絡(luò)算法與大規(guī)模計(jì)算能力相結(jié)合,方可孵化出好的模型。

3. 經(jīng)典資料(個(gè)人推薦)

【1】圖網(wǎng)絡(luò)學(xué)習(xí): http://cse.msu.edu/~mayao4/dlg_book/

【2】圖網(wǎng)絡(luò)論文: https://github.com/thunlp/GNNPapers

【3】BTC: Ivanov, Sergei, and Liudmila Prokhorenkova. Boost then Convolve: Gradient Boosting Meets Graph Neural Networks. arXiv preprint arXiv:2101.08543 (2021).

【4】HACUD: Hu B, Zhang Z, Shi C, et al. Cash-out user detection based on attributed heterogeneous information network with a hierarchical attention mechanism[C]//Proceedings of the AAAI Conference on Artificial Intelligence.2019: 946-953.

【5】MAHINDER: Zhong Q, Liu Y, Ao X, et al. Financial Defaulter Detection on Online Credit Payment via Multi-view Attributed Heterogeneous Information Network[C]//Proceedings of The Web Conference.2020: 785-795.

【6】AMG: Hu B, Zhang Z, Zhou J, et al. Loan Default Analysis with Multiplex Graph Learning[C]//Proceedings of the 29th ACM International Conference on Information & Knowledge Management.2020:2525-2532.

(二) 聯(lián)邦學(xué)習(xí)算法、經(jīng)驗(yàn)及應(yīng)用

聯(lián)邦學(xué)習(xí)算法介紹

數(shù)據(jù)共享是數(shù)據(jù)流通和數(shù)據(jù)產(chǎn)業(yè)的重要基礎(chǔ),但數(shù)據(jù)共享過程中存在數(shù)據(jù)孤島問題與數(shù)據(jù)安全與隱私問題。當(dāng)前已有的基于云的數(shù)據(jù)共享方法,存在數(shù)據(jù)泄露與數(shù)據(jù)壟斷的風(fēng)險(xiǎn),且數(shù)據(jù)存儲(chǔ)與集中處理的資源與成本過大。因此,有必要探索新的技術(shù)解決數(shù)據(jù)共享中遇到的問題。

聯(lián)邦學(xué)習(xí)由Google最先提出,通過分布式機(jī)器學(xué)習(xí)技術(shù)解決跨域數(shù)據(jù)共享與數(shù)據(jù)共享中隱私泄露風(fēng)險(xiǎn)的問題。聯(lián)邦學(xué)習(xí)的研究一部分集中于改進(jìn)機(jī)器學(xué)習(xí)算法,另一部分集中在密碼學(xué)技術(shù)。

聯(lián)邦學(xué)習(xí)的改進(jìn)算法主要有聯(lián)邦線性回歸、聯(lián)邦梯度提升樹、聯(lián)邦深度學(xué)習(xí)等算法。筆者以聯(lián)邦線性回歸舉例說明:

首先,A,B兩個(gè)聯(lián)邦初始化參數(shù),由第三方生成密鑰并向A和B發(fā)送公鑰。

然后,聯(lián)邦A(yù),B分別計(jì)算各自的子損失函數(shù),擁有Y標(biāo)簽一方匯總誤差并分發(fā),生成A與B各自加密的梯度。

最后,第三方將解密后的梯度發(fā)至A和B,從而更新A,B各自的參數(shù),如此循環(huán)往復(fù),直至滿足迭代次數(shù)或準(zhǔn)確率的要求。

聯(lián)邦學(xué)習(xí)的密碼學(xué)技術(shù)包括加密樣本對(duì)齊和同態(tài)加密技術(shù)等。加密樣本對(duì)齊針對(duì)不同聯(lián)邦的同一客戶進(jìn)行關(guān)聯(lián),該過程一般通過RSA公開密鑰密碼體制與Hash編碼實(shí)現(xiàn)。同態(tài)加密屬于數(shù)據(jù)層面的信息保護(hù),對(duì)于兩種不同的處理方式——對(duì)密文直接進(jìn)行處理,與對(duì)明文進(jìn)行處理后再對(duì)處理結(jié)果加密,該算法可以保證得到相同的結(jié)果。

聯(lián)邦學(xué)習(xí)按照參與方特性,通常分為三類:

橫向聯(lián)邦學(xué)習(xí):用戶特征相同,用戶不同;

縱向聯(lián)邦學(xué)習(xí):用戶特征不同,用戶相同;

聯(lián)邦遷移學(xué)習(xí):用戶特征不同,用戶不同。

(1) 橫向聯(lián)邦學(xué)習(xí):

算法定義:參與方數(shù)據(jù)集具有高度重疊的特征維度,樣本重疊較少,將數(shù)據(jù)集進(jìn)行橫向切分,提取出數(shù)據(jù)集間特征一致而樣本不完全相同的部分作為訓(xùn)練數(shù)據(jù)。

理解:例如在銀行反欺詐場(chǎng)景,單獨(dú)A銀行的欺詐模型和B銀行的欺詐模型識(shí)別能力有限,為了調(diào)高模型的準(zhǔn)確性和魯棒性,在A銀行與B銀行選取不一樣的客戶,分別做欺詐預(yù)測(cè),在訓(xùn)練過程中對(duì)不同來源的模型參數(shù)通過云端控制方進(jìn)行聚合,最終可以得到一個(gè)統(tǒng)一的欺詐模型。

(2) 縱向聯(lián)邦學(xué)習(xí):

算法定義:在兩個(gè)數(shù)據(jù)集用戶重疊較多而特征重疊較少的情況下,選擇數(shù)據(jù)集按照用戶相同而用戶特征不同的部分?jǐn)?shù)據(jù)進(jìn)行訓(xùn)練。

理解:例如A銀行與C互聯(lián)網(wǎng)公司合作進(jìn)行建模,A銀行存儲(chǔ)的是信貸記錄數(shù)據(jù),而C公司存儲(chǔ)的是電商數(shù)據(jù),這兩部分?jǐn)?shù)據(jù)許多是重疊的用戶,但用戶特征交集較少??v向聯(lián)邦學(xué)習(xí)通過加密將不同特征進(jìn)行聚合和梯度更新,增強(qiáng)模型能力。

(3) 聯(lián)邦遷移學(xué)習(xí)

算法定義:算法在用戶特征與用戶重疊都很少的情況下,無法對(duì)數(shù)據(jù)切分,只能利用遷移學(xué)習(xí)來克服數(shù)據(jù)或者標(biāo)簽不足的情況。

理解:例如一家是A金融機(jī)構(gòu),一家是境外的D電商,這兩家無論數(shù)據(jù)的針對(duì)用戶還是數(shù)據(jù)的特征都沒有重疊,這種情況下要進(jìn)行數(shù)據(jù)聯(lián)合建模,需要通過聯(lián)邦遷移學(xué)習(xí)來解決單邊數(shù)據(jù)規(guī)模小和標(biāo)簽樣本小的問題。

2. 聯(lián)邦學(xué)習(xí)算法經(jīng)驗(yàn)

聯(lián)邦學(xué)習(xí)算法的實(shí)踐經(jīng)驗(yàn)實(shí)際上是在聯(lián)邦學(xué)習(xí)“技術(shù)之外”的經(jīng)驗(yàn),比如配套的管理制度、多方科技系統(tǒng)的整合等:

獎(jiǎng)懲機(jī)制設(shè)定:由于各方數(shù)據(jù)資源分布不均勻,各方對(duì)聯(lián)邦學(xué)習(xí)的結(jié)果貢獻(xiàn)度不同,所以在制度上要設(shè)計(jì)好獎(jiǎng)懲機(jī)制。

多方工程優(yōu)化:由于各方科技資源各不相同,聯(lián)邦學(xué)習(xí)在各方的工程落地時(shí),會(huì)遇到集群配置、網(wǎng)絡(luò)配置等實(shí)際問題,因此工程優(yōu)化在聯(lián)邦學(xué)習(xí)中應(yīng)該得到充分重視。

3. 經(jīng)典資料(個(gè)人推薦)

【1】聯(lián)邦學(xué)習(xí)白皮書:

https://aisp-1251170195.cos.ap-hongkong.myqcloud.com/wp-content/uploads/pdf/%E8%81%94%E9%82%A6%E5%AD%A6%E4%B9%A0%E7%99%BD%E7%9A%AE%E4%B9%A6_v2.0.pdf

【2】聯(lián)邦學(xué)習(xí)綜述:Kairouz, Peter, et al. "Advances and open problems in federated learning." arXiv preprint arXiv:1912.04977 (2019).

【3】收集聯(lián)邦學(xué)習(xí)資料:

https://github.com/ZeroWangZY/federated-learning

(三) 集成學(xué)習(xí)算法、經(jīng)驗(yàn)及應(yīng)用

集成學(xué)習(xí)算法介紹

集成學(xué)習(xí)算法是目前風(fēng)控領(lǐng)域主流的機(jī)器學(xué)習(xí)算法,一般也稱為GBDT類算法,據(jù)此擴(kuò)展的算法有Xgboost、Lightgbm、Catboost、Snapboost等。

集成學(xué)習(xí)算法的原理是通過一系列弱分類器構(gòu)建一個(gè)強(qiáng)分類器,其擴(kuò)展算法Xgboost、Lightgbm、Catboost、Snapboost將Boosting的機(jī)理轉(zhuǎn)換為函數(shù)的梯度下降問題,用來支持各種不同的損失函數(shù),同時(shí),這些框架在訓(xùn)練性能上做了大量算法優(yōu)化,從而顯著降低計(jì)算復(fù)雜度。

Xgboost算法采用牛頓法進(jìn)行損失函數(shù)優(yōu)化,同時(shí)增加正則項(xiàng),縮減系數(shù)和采樣步驟,提高模型泛化能力。

Lightgbm算法采用稀疏和稠密表示的混合存儲(chǔ)方式,并使用OpenNMP進(jìn)行并行加速。

CatBoost算法針對(duì)類別變量采用了特殊處理,并且采用了高效的并行算法加速計(jì)算。

Snapboost算法采用異構(gòu)的弱分類器來優(yōu)化,弱分類器的選取按照概率質(zhì)量函數(shù)來進(jìn)行采樣。

2. 集成學(xué)習(xí)算法經(jīng)驗(yàn)

集成學(xué)習(xí)算法巧妙地利用樹結(jié)構(gòu),將特征衍生和集成學(xué)習(xí)這兩個(gè)環(huán)節(jié)合二為一。所以客觀上“無心插柳柳成蔭”實(shí)現(xiàn)了兩個(gè)優(yōu)勢(shì):

一是,實(shí)現(xiàn)了特征生成和算法決策的融合,提升了算法的穩(wěn)定性,保證了算法的效果;

二是,由于特征排序可以并行計(jì)算,所以GBDT算法支持分布式數(shù)據(jù)讀取與模型訓(xùn)練,支持GPU高效訓(xùn)練,且可靈活轉(zhuǎn)換為PMML等格式動(dòng)態(tài)部署。

因此,GBDT類算法在智能風(fēng)控、智能營(yíng)銷、智能投顧等領(lǐng)域均有廣泛應(yīng)用,并且是目前智能風(fēng)控領(lǐng)域算法的優(yōu)先選擇。

3. 經(jīng)典資料(個(gè)人推薦)

【1】GBDT: Yoav Freund. Boosting a weak learning algorithm by majority. Information and computation, 121(2):256–285, 1995.

【2】Xgboost: Chen, Tianqi, and Carlos Guestrin. Xgboost: A scalable tree boosting system. In KDD, pages 785-794, 2016.

【3】Lightgbm: Ke Guolin, Meng Qi, Finley Thomas, Wang Taifeng, Chen Wei, Ma Weidong, Ye Qiwei, and Liu Tie-Yan.LightGBM: A highly efficient gradient boosting decision tree. In NIPS, pages 3149–3157, 2017.

【4】Catboost:Liudmila Prokhorenkova, Gleb Gusev, Aleksandr Vorobev, Anna Veronika Dorogush, and Andrey Gulin.CatBoost: unbiased boosting with categorical features. In NIPS, pages 6638–6648, 2018.

【5】Snapboost: Parnell, Thomas, et al. SnapBoost: A Heterogeneous Boosting Machine. In NIPS, pages 33, 2020.

(四)因子分解機(jī)算法、經(jīng)驗(yàn)及應(yīng)用

因子分解機(jī)算法介紹

本章提到的因子分解機(jī)算法主要指DeepFM類算法及其變式,包括DeepFM、WDL、NFM、AFM、DCN、DIN、DIEN、xDeepFM等各種版本的改進(jìn)算法。DeepFM的核心在于類別型變量的向量表征與特征間交叉組合,DeepFM算法適合于離散特征較多的場(chǎng)景。

筆者以金融市場(chǎng)為例,嘗試解釋因子分解機(jī)類的算法思路:

向量表征思想(Embedding)

向量表征思想將事件通過模型表征為更高層次的向量抽象表達(dá)。舉例說明,金融市場(chǎng)的事實(shí)、事件是動(dòng)態(tài)的、復(fù)雜的,當(dāng)我們無法對(duì)這些事實(shí)進(jìn)行精確表征時(shí),可以依賴于神經(jīng)網(wǎng)絡(luò)將事實(shí)向量化。

分類處理思想(Wide Deep)

分類處理思想是利用FM與DNN網(wǎng)絡(luò)分別針對(duì)離散型數(shù)據(jù)與連續(xù)型數(shù)據(jù)進(jìn)行學(xué)習(xí)。舉例說明,金融市場(chǎng)既有離散型的數(shù)據(jù),比如行業(yè)分類;又有連續(xù)型的數(shù)據(jù),比如交易金額。由于數(shù)據(jù)差異,不同的數(shù)據(jù)類型需要設(shè)計(jì)不同的模型結(jié)構(gòu)。

特征交叉思想(Feature Crossing)

特征交叉思想指的是特征的內(nèi)積或者外積。舉例說明,特征有限的情況下,通過特征交叉,自動(dòng)組合形成新的特征,這樣從中可以發(fā)現(xiàn)一些新的有效特征。

注意力思想(Attention)

注意力思想是指,針對(duì)時(shí)間序列與非時(shí)間序列有不同的注意力機(jī)制。舉例說明,在不同市場(chǎng)下,不同的特征重要性不同,讓模型自己去學(xué)習(xí)市場(chǎng)情況,不同市場(chǎng)情況下模型會(huì)“注意”不同的特征。

2. 因子分解機(jī)算法經(jīng)驗(yàn)

因子分解機(jī)類算法在搜索推薦廣告領(lǐng)域發(fā)揮著十分重要的作用,在金融領(lǐng)域,對(duì)于金融信息的推薦與理財(cái)產(chǎn)品的推薦同樣可以應(yīng)用。筆者認(rèn)為該類模型與集成學(xué)習(xí)模型相比:

優(yōu)勢(shì)1:可以通過批處理支撐大數(shù)據(jù)訓(xùn)練,不一定需要大數(shù)據(jù)集群的支撐。

優(yōu)勢(shì)2:可以對(duì)用戶進(jìn)行細(xì)粒度的特征刻畫。

另外,在實(shí)踐方面,筆者有如下經(jīng)驗(yàn):

經(jīng)驗(yàn)1:增加離散特征的比例。離散變量由于可以發(fā)揮向量表征的優(yōu)勢(shì),更適合因子分解機(jī)類算法進(jìn)行模型。

經(jīng)驗(yàn)2:增加客戶細(xì)粒度的行為數(shù)據(jù)。由于該模型為深度學(xué)習(xí)模型,為了保證模型穩(wěn)定收斂,需要更多的客戶行為數(shù)據(jù)。

3. 經(jīng)典資料(個(gè)人推薦)

【1】深度學(xué)習(xí)在CTR預(yù)估中的應(yīng)用:https://zhuanlan.zhihu.com/p/59340370

【2】CTR預(yù)估入門及各種模型介紹:https://www.mayi888.com/archives/54482

【3】深度CTR特征自動(dòng)組合機(jī)制演化簡(jiǎn)史:https://zhuanlan.zhihu.com/p/52876883

(五)自動(dòng)化機(jī)器學(xué)習(xí)算法、經(jīng)驗(yàn)及應(yīng)用

自動(dòng)化機(jī)器學(xué)習(xí)算法介紹

金融機(jī)構(gòu)在建模領(lǐng)域面臨著兩個(gè)問題:一是,許多情況業(yè)務(wù)人員不懂機(jī)器學(xué)習(xí),而算法人員數(shù)量不足;二是,完整建模流程周期長(zhǎng)、成本高。自動(dòng)化機(jī)器學(xué)習(xí)算法的目標(biāo)是完全自動(dòng)化流程的創(chuàng)建,一方面,使得領(lǐng)域?qū)<夷芸焖偈褂脵C(jī)器學(xué)習(xí),另一方面,使得算法工程師快速實(shí)現(xiàn)業(yè)務(wù)應(yīng)用。

自動(dòng)化機(jī)器學(xué)習(xí)(AutoML)一直是工業(yè)界所關(guān)注的機(jī)器學(xué)習(xí)技術(shù),自動(dòng)化機(jī)器學(xué)習(xí)方法目前研究的熱點(diǎn)有自動(dòng)特征組合與神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索。

(1) 自動(dòng)特征組合

自動(dòng)特征組合目的是在有限時(shí)間和資源情況下高效地構(gòu)造出衍生特征。該類方法一般生成大量高階組合特征,按照優(yōu)化算法進(jìn)行有效特征選擇,并將選出的新特征與原始特征一起用于模型構(gòu)建。由于特征的可解釋性強(qiáng),可以明確知道衍生的特征是由原始的哪些特征組合而來,因此適合于風(fēng)控領(lǐng)域建模。

(2) 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索(NAS)

神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索目的是在有限時(shí)間和資源情況下進(jìn)行高效的、魯棒的搜索得到最優(yōu)的模型。例如,谷歌采用進(jìn)化算法與強(qiáng)化學(xué)習(xí)來尋找適宜的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),用于視覺分類任務(wù)。該類方法主要分為基于強(qiáng)化學(xué)習(xí)、遺傳算法、梯度優(yōu)化的方法。由于該類方法基于神經(jīng)網(wǎng)絡(luò)設(shè)計(jì),因此適合于圖像識(shí)別,文本識(shí)別等神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜的任務(wù)。

2. 自動(dòng)化機(jī)器學(xué)習(xí)算法經(jīng)驗(yàn)

自動(dòng)特征組合的自動(dòng)化機(jī)器學(xué)習(xí)算法(SAFE算法、AutoCross算法)可以清晰地知道衍生特征的構(gòu)造邏輯,在分布式計(jì)算上也支持較好,因此更適合于風(fēng)控場(chǎng)景建模,筆者在具體實(shí)踐工作中,使用比較多的算法為螞蟻金服的SAFE算法與第四范式的AutoCross算法。

(1) 筆者對(duì)于“SAFE算法”的偏愛

SAFE算法來自螞蟻金服,通過多種特征構(gòu)造方法,經(jīng)過特征組合排序、特征生成IV值篩選、皮爾遜相關(guān)系數(shù)冗余特征處理,來實(shí)現(xiàn)自動(dòng)化特征提取的功能。常用的特征構(gòu)造方法有一元特征、二元特征、群組統(tǒng)計(jì)特征:

一元特征:指特征變換生成的特征,如時(shí)間特征的小時(shí)、日、周粒度的特征算子;

二元特征:指操作算子如+、-、*、/生成的特征;

群組特征:指基于數(shù)學(xué)統(tǒng)計(jì)意義生成的特征,如min、max、std、mean、skew等。

(2) 筆者對(duì)于“AutoCross算法”的偏愛

AutoCross算法來自第四范式,通過Beam search方法來產(chǎn)生數(shù)據(jù),進(jìn)行高階特征組合,然后采用Filed-wise logistic regression 和Successive mini-batch gradient descent方法來進(jìn)行特征評(píng)價(jià),最終得到有效的特征組合用于下游建模任務(wù)。

(3) 關(guān)注自動(dòng)化機(jī)器學(xué)習(xí)算法用于數(shù)據(jù)清洗、特征工程

筆者認(rèn)為在風(fēng)控領(lǐng)域,數(shù)據(jù)清洗、特征工程等流程要得到充分的重視,自動(dòng)化機(jī)器學(xué)習(xí)算法未來的關(guān)注點(diǎn)也應(yīng)該包括數(shù)據(jù)清洗和特征工程。

一方面,在一個(gè)模型的構(gòu)建中,通常60–80%的時(shí)間用在數(shù)據(jù)清洗和特征工程上,用于微調(diào)算法的時(shí)間不足5%。

另一方面,一些任務(wù)無法自動(dòng)化,比如行業(yè)特定知識(shí)。

(4) 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搜索(NAS)可解釋性的困擾

在實(shí)時(shí)性和可解釋性要求高的風(fēng)控場(chǎng)合,筆者認(rèn)為基于深度學(xué)習(xí)的自動(dòng)化機(jī)器學(xué)習(xí)算法若想大規(guī)模推廣使用,還需要進(jìn)行必要的“改良”。

3. 經(jīng)典資料(個(gè)人推薦)

【1】SAFE: Shi, Qitao, et al. Safe: Scalable automatic feature engineering framework for industrial tasks. IEEE 36th International Conference on Data Engineering. 2020.

【2】AutoCross: Luo, Yuanfei, et al. Autocross: Automatic feature crossing for tabular data in real-world applications. Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2019.

【3】AutoML綜述: Zller, Marc-André, and Marco F. Huber. Benchmark and survey of automated machine learning frameworks. Journal of Artificial Intelligence Research. 2021.

【4】NAS綜述: Elsken, Thomas, Jan Hendrik Metzen, and Frank Hutter. Neural architecture search: A survey. Journal of Machine Learning Research. 2019.

(六)結(jié)構(gòu)化數(shù)據(jù)深度學(xué)習(xí)算法、經(jīng)驗(yàn)及應(yīng)用

結(jié)構(gòu)化數(shù)據(jù)深度學(xué)習(xí)算法介紹

結(jié)構(gòu)化數(shù)據(jù)區(qū)別于圖形數(shù)據(jù)、文本數(shù)據(jù)、語音數(shù)據(jù)等非結(jié)構(gòu)化數(shù)據(jù),指可用關(guān)系型數(shù)據(jù)庫存儲(chǔ)的高度結(jié)構(gòu)化的數(shù)據(jù)。在結(jié)構(gòu)化數(shù)據(jù)算法這個(gè)傳統(tǒng)的領(lǐng)域,仍然不斷有一些新的深度學(xué)習(xí)算法涌現(xiàn)出來,這類算法大致可以分為兩類:

(1) 仿樹型結(jié)構(gòu)網(wǎng)絡(luò)(Tree-based network)

該類算法使用神經(jīng)網(wǎng)絡(luò)模擬樹模型的損失函數(shù),代表的是DeepGBM算法。DeepGBM算法來自微軟亞洲研究院,通過神經(jīng)網(wǎng)絡(luò)來擬合樹模型索引的輸出,將稀疏類別型特征輸入CatNN子網(wǎng)絡(luò),將稠密連續(xù)型特征輸入GBDT2NN子網(wǎng)絡(luò),最后將兩子網(wǎng)絡(luò)的輸出合并,使用神經(jīng)網(wǎng)絡(luò)進(jìn)行目標(biāo)學(xué)習(xí)。

(2) 注意力類算法(Attention-based network)

該類算法通過引入注意力機(jī)制來進(jìn)行網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì),代表的是TabNet算法、 TabTransformer算法、NODE算法等。

TabNet算法:來自谷歌,通過引入注意力機(jī)制進(jìn)行網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì),效果好于其他神經(jīng)網(wǎng)絡(luò)和樹形模型,并且兼顧可解釋性要求,在一些場(chǎng)景下的效果相比Xgboost算法得到了一定的提升。

TabTransformer算法:同樣來自谷歌,使用自注意力機(jī)制(Self-attention)來處理結(jié)構(gòu)化數(shù)據(jù),在半監(jiān)督任務(wù)上顯著優(yōu)于GBDT算法。

NODE算法:來自俄羅斯最大搜索門戶公司Yandex,該算法依據(jù)圖像處理的DenseNet框架進(jìn)行網(wǎng)絡(luò)設(shè)計(jì),構(gòu)建基于結(jié)構(gòu)化數(shù)據(jù)的DenseNet模型。

2. 結(jié)構(gòu)化數(shù)據(jù)深度學(xué)習(xí)算法經(jīng)驗(yàn)

結(jié)構(gòu)化數(shù)據(jù)深度學(xué)習(xí)算法幾乎適用于目前的所有風(fēng)控模型與營(yíng)銷模型,該類模型與集成算法模型相比:

優(yōu)勢(shì)1:可以通過批處理支撐大數(shù)據(jù)訓(xùn)練,不需要大數(shù)據(jù)集群的支撐。對(duì)于僅有風(fēng)險(xiǎn)數(shù)據(jù)集市,而沒有風(fēng)險(xiǎn)數(shù)據(jù)中臺(tái)的金融機(jī)構(gòu),這類算法就是對(duì)風(fēng)險(xiǎn)數(shù)據(jù)集市的續(xù)命。

優(yōu)勢(shì)2:可以靈活定義優(yōu)化目標(biāo),支持半監(jiān)督、自監(jiān)督等特定數(shù)據(jù)場(chǎng)景。

劣勢(shì):模型的調(diào)參復(fù)雜、可解釋性較差。

3. 經(jīng)典資料(個(gè)人推薦)

【1】DeepGBM: Guolin Ke, Zhenhui Xu, Jia Zhang, Jiang Bian, and Tie-Yan Liu. Deepgbm: A deep learning framework distilled by gbdt for online prediction tasks. In KDD ’19 Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2019.

【2】TabNet: Sercan O Arik and Tomas Pfister. TabNet: Attentive interpretable tabular learning. arXiv preprint arXiv:1908.07442, 2019.

【3】TabTransformer: Huang X, Khetan A, Cvitkovic M, et al. TabTransformer: Tabular Data Modeling Using Contextual Embeddings[J]. arXiv preprint arXiv:2012.06678, 2020.

【4】NODE: Sergei Popov, Stanislav Morozov, and Artem Babenko. Neural oblivious decision ensembles for deep learning on tabular data. arXiv preprint arXiv:1909.06312, 2019.

(七)概率預(yù)測(cè)算法、經(jīng)驗(yàn)及應(yīng)用

概率預(yù)測(cè)算法介紹

復(fù)雜經(jīng)濟(jì)學(xué)創(chuàng)始人布萊恩阿瑟說過,不確定性是經(jīng)濟(jì)世界的主旋律。今天筆者要講的正是不確定性。

統(tǒng)計(jì)學(xué)有兩大學(xué)派,頻率學(xué)派與貝葉斯學(xué)派。頻率學(xué)派研究的重點(diǎn)是樣本數(shù)據(jù)的分布,他們認(rèn)為一個(gè)模型存在唯一的真實(shí)參數(shù),但是貝葉斯派的觀點(diǎn)則大有不同,貝葉斯學(xué)派研究的重點(diǎn)是參數(shù)的分布,他們認(rèn)為唯一的參數(shù)并不存在,參數(shù)只存在一定的概率分布。概率預(yù)測(cè)算法與貝葉斯學(xué)派的思想不謀而合,它試圖告訴你,這個(gè)世界是不確定性,不要想著去準(zhǔn)確預(yù)測(cè)數(shù)據(jù)值,而是從分布的角度去看待問題本身,一切皆有可能,只不過可能性不等而已。

概率預(yù)測(cè)有兩個(gè)重要的部分,一部分是基于結(jié)果的分布預(yù)測(cè),另一部分是基于參數(shù)的分布預(yù)測(cè)。基于結(jié)果的分布預(yù)測(cè)先假設(shè)預(yù)測(cè)值的分布,再求解該分布涉及的參數(shù),基于參數(shù)的分布預(yù)測(cè),則是先假設(shè)模型參數(shù)的分布,再求解模型參數(shù)分布涉及的參數(shù),進(jìn)而求出預(yù)測(cè)值的分布。例如假設(shè)正態(tài)分布,則分布涉及參數(shù)指的是正態(tài)分布的均值,方差。

基于結(jié)果的分布預(yù)測(cè)假設(shè)預(yù)測(cè)的結(jié)果服從一定的概率分布。區(qū)別于值預(yù)測(cè)(左圖)直接輸出預(yù)測(cè)的值,概率預(yù)測(cè)輸出預(yù)測(cè)值的分布(右圖)。因此,實(shí)現(xiàn)基于結(jié)果的分布預(yù)測(cè),一般需要給出預(yù)測(cè)分布的類型,比如結(jié)果服從高斯分布、均勻分布,給出分布類型后,問題就轉(zhuǎn)化為學(xué)習(xí)分布的參數(shù)。

傳統(tǒng)的機(jī)器學(xué)習(xí)算法由于數(shù)據(jù)的復(fù)雜分布和表征能力有效,并不能有效解決分布的參數(shù)問題,而神經(jīng)網(wǎng)絡(luò)可以通過復(fù)雜非線性來擬合分布的參數(shù),因此得到越來越多的關(guān)注。典型的神經(jīng)網(wǎng)絡(luò)分布預(yù)測(cè)算法如亞馬遜的DeepAR算法、SDE-Net算法等。例如,亞馬遜運(yùn)用DeepAR算法進(jìn)行貨物需求預(yù)測(cè),需求預(yù)測(cè)是為補(bǔ)貨服務(wù)的,貨物需求的預(yù)測(cè)一般考慮的是最大需求情況下需要多少庫存,該問題并不是平均意義的預(yù)測(cè),而是極端值的預(yù)測(cè),需要算法給出未來庫存需求的概率區(qū)間,因此采用基于結(jié)果的分布預(yù)測(cè),并取分布的極端值作為預(yù)測(cè)庫存即可滿足要求。

圖片來源:http://www.indiana.edu/~kruschke/BMLR/

基于參數(shù)的分布預(yù)測(cè)假設(shè)模型的參數(shù)服從一定的概率分布,如上圖,預(yù)測(cè)結(jié)果y是各個(gè)分布的加權(quán),該類方法典型的應(yīng)用以貝葉斯神經(jīng)網(wǎng)絡(luò)為主。貝葉斯神經(jīng)網(wǎng)絡(luò)假設(shè)每個(gè)網(wǎng)絡(luò)參數(shù)都是一個(gè)分布,網(wǎng)絡(luò)的計(jì)算實(shí)質(zhì)是分布間的計(jì)算。貝葉斯神經(jīng)網(wǎng)絡(luò)對(duì)所有網(wǎng)絡(luò)參數(shù)采樣,每個(gè)神經(jīng)網(wǎng)絡(luò)的權(quán)重都來自其后驗(yàn)分布,通過蒙特卡洛模擬將通過不同分布預(yù)測(cè)的期望形式轉(zhuǎn)化成離散平均加和的形式,并提供預(yù)測(cè)結(jié)果的分布。貝葉斯深度學(xué)習(xí)相比于非貝葉斯深度學(xué)習(xí),一方面由于采用多種結(jié)果求期望平均,使得模型魯棒性更強(qiáng);另一方面,由于是概率預(yù)測(cè),可以提供不確定性。騰訊將貝葉斯深度學(xué)習(xí)用于騰訊廣告系統(tǒng)的點(diǎn)擊率預(yù)測(cè),并提供快速、準(zhǔn)確的用戶偏好學(xué)習(xí)方法。

2. 概率預(yù)測(cè)學(xué)習(xí)算法經(jīng)驗(yàn)

概率預(yù)測(cè)輸出預(yù)測(cè)值的分布,適用于所有回歸問題建模,概率預(yù)測(cè)結(jié)果的邊界值提供了一種定量平衡風(fēng)險(xiǎn)的有效途徑,考慮極端情況正是風(fēng)險(xiǎn)管理的一個(gè)重要出發(fā)點(diǎn)。筆者認(rèn)為,概率預(yù)測(cè)在風(fēng)控業(yè)務(wù)最新的應(yīng)用方向如下:

資金需求量預(yù)測(cè)。取預(yù)測(cè)范圍區(qū)間里最極端的值,既能按照最壞打算儲(chǔ)備足夠的資本,又不至于資金浪費(fèi)。

可信度評(píng)估。比如資金需求預(yù)測(cè)時(shí),同樣500萬資金需求,疫情前可能有80%可信度,疫情下,就變成30%可信度,據(jù)此可以對(duì)宏觀風(fēng)險(xiǎn)進(jìn)行量化。

3. 經(jīng)典資料(個(gè)人推薦)

【1】貝葉斯神經(jīng)網(wǎng)絡(luò)綜述:Goan, Ethan, and Clinton Fookes. Bayesian Neural Networks: An Introduction and Survey. Case Studies in Applied Bayesian Data Science. 2020. 45-87.

【2】DeepAR模型:Salinas, David, et al. DeepAR: Probabilistic forecasting with autoregressive recurrent networks. International Journal of Forecasting. 2020. 1181-1191.

(八)遷移學(xué)習(xí)/元學(xué)習(xí)算法、經(jīng)驗(yàn)及應(yīng)用

1. 遷移學(xué)習(xí)算法介紹

遷移學(xué)習(xí)側(cè)重于將學(xué)習(xí)過的知識(shí)遷移應(yīng)用于新的問題,在這一過程中的關(guān)鍵問題是要找到新問題和原問題之間的相似性。在實(shí)際工作中,針對(duì)一個(gè)新任務(wù),如果重新訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò),流程會(huì)很復(fù)雜,但是如果在已有的模型上微調(diào),快速適應(yīng)新的任務(wù),則既簡(jiǎn)化了任務(wù),又節(jié)省了時(shí)間,這就是遷移學(xué)習(xí)的優(yōu)勢(shì)。

具體到風(fēng)控場(chǎng)景,假設(shè)已有業(yè)務(wù)A的風(fēng)控模型,接到新業(yè)務(wù)B的建模需求,采用遷移學(xué)習(xí)的思想,可以解決業(yè)務(wù)B的冷啟動(dòng)問題,由于不需要從頭訓(xùn)練,也可以快速地實(shí)現(xiàn)業(yè)務(wù)B模型的部署。

遷移學(xué)習(xí)可以分為:樣本遷移、模型遷移、特征遷移。筆者結(jié)合風(fēng)控業(yè)務(wù)舉例解讀如下:

2. 元學(xué)習(xí)算法介紹

元學(xué)習(xí)是學(xué)會(huì)學(xué)習(xí)的學(xué)習(xí)(Learn to learn),目的是設(shè)計(jì)一種機(jī)器學(xué)習(xí)模型,經(jīng)過不同任務(wù)訓(xùn)練后,可以快速地適應(yīng)并泛化到新的任務(wù)。通俗地講,加入模型是一個(gè)“智者”,智者從前通過很多的數(shù)據(jù)學(xué)到了一些經(jīng)驗(yàn),現(xiàn)在面臨一個(gè)新的任務(wù),想使用上這些經(jīng)驗(yàn),智者通過元學(xué)習(xí)的流程快速地掌握了該任務(wù)的技能。筆者認(rèn)為,元學(xué)習(xí)相比于遷移學(xué)習(xí),更強(qiáng)調(diào)的是任務(wù)的概念(Task), 但在具體應(yīng)用上,與遷移學(xué)習(xí)殊途同歸。

3. 遷移學(xué)習(xí)算法經(jīng)驗(yàn)

(1) 遷移學(xué)習(xí)的場(chǎng)景經(jīng)驗(yàn)

筆者認(rèn)為遷移學(xué)習(xí)適合于如下風(fēng)控場(chǎng)景:業(yè)務(wù) A、B 對(duì)應(yīng)的數(shù)據(jù)特征大部分一致(允許存在部分特征不同或者部分特征取值不同),但業(yè)務(wù)A與業(yè)務(wù)B關(guān)于標(biāo)簽的特征重要程度不同(數(shù)據(jù)分布不同)。

例如,保險(xiǎn)貸與房貸客群的特征構(gòu)造邏輯完全相同,但由于客群分布存在差異,某些特征對(duì)保險(xiǎn)貸客群有區(qū)分度,未必對(duì)房貸客群有區(qū)分度,因此保險(xiǎn)貸的模型直接應(yīng)用于房貸并不合適,這種情況下借助遷移學(xué)習(xí)可以快速實(shí)現(xiàn)房貸模型的構(gòu)建。

(2) 遷移學(xué)習(xí)的應(yīng)用經(jīng)驗(yàn)

筆者經(jīng)常將遷移學(xué)習(xí)用于兩種任務(wù):一是,緊急業(yè)務(wù)的冷啟動(dòng);二是,模型的結(jié)構(gòu)遷移與參數(shù)微調(diào)。緊急業(yè)務(wù)的冷啟動(dòng)用于新業(yè)務(wù)的快速開展,多用于風(fēng)控業(yè)務(wù)最初期。模型的結(jié)構(gòu)遷移與參數(shù)微調(diào)則用于在新業(yè)務(wù)積累一定的標(biāo)簽后的風(fēng)控模型建設(shè)。

(3) 遷移學(xué)習(xí)的算法實(shí)踐

筆者建議從三個(gè)角度由淺入深地逐步實(shí)踐:基于邏輯回歸算法的優(yōu)化目標(biāo)設(shè)計(jì)、基于樹模型算法的參數(shù)微調(diào)、基于深度學(xué)習(xí)算法的模型結(jié)構(gòu)設(shè)計(jì)。

基于邏輯回歸算法的優(yōu)化目標(biāo)設(shè)計(jì),通過設(shè)計(jì)損失函數(shù),綜合交叉熵?fù)p失與域適應(yīng)損失,在兼顧邏輯回歸可解釋性條件下,同時(shí)提高了模型的泛化性能。

基于樹模型算法的參數(shù)微調(diào),將原始樹模型用作新模型的參數(shù)初始化。

基于深度學(xué)習(xí)算法的模型結(jié)構(gòu)設(shè)計(jì),通過對(duì)抗訓(xùn)練,使得網(wǎng)絡(luò)學(xué)習(xí)到的特征表示可以同時(shí)用于多個(gè)業(yè)務(wù)線,實(shí)現(xiàn)特征表征上的遷移。

4. 經(jīng)典資料(個(gè)人推薦)

【1】遷移學(xué)習(xí)簡(jiǎn)介: https://github.com/jindongwang/transferlearning

【2】元學(xué)習(xí)簡(jiǎn)介:https://zhuanlan.zhihu.com/p/146877957

(九)半監(jiān)督學(xué)習(xí)算法、經(jīng)驗(yàn)及應(yīng)用

半監(jiān)督機(jī)器學(xué)習(xí)算法介紹

許多情況下,有標(biāo)簽的樣本難以獲取,而無標(biāo)記的樣本獲取成本很低,半監(jiān)督學(xué)習(xí)算法正是充分利用這些無標(biāo)簽的數(shù)據(jù)和有標(biāo)簽數(shù)據(jù),在分布上的連續(xù)性與一致性進(jìn)行算法的設(shè)計(jì)。

半監(jiān)督機(jī)器學(xué)習(xí)可以分為自訓(xùn)練算法、基于圖的半監(jiān)督算法、半監(jiān)督支持向量機(jī)等。半監(jiān)督深度學(xué)習(xí)可以分為半監(jiān)督分段網(wǎng)絡(luò)、半監(jiān)督一體化網(wǎng)絡(luò)等。

(1) 半監(jiān)督機(jī)器學(xué)習(xí)

自訓(xùn)練算法

利用有標(biāo)簽樣本訓(xùn)練的模型對(duì)無標(biāo)簽樣本進(jìn)行預(yù)測(cè),得到無標(biāo)簽樣本的偽標(biāo)簽,然后按照一定策略選出其中的可信樣本加入訓(xùn)練集中重新訓(xùn)練模型。

基于圖的半監(jiān)督

根據(jù)節(jié)點(diǎn)屬性與圖網(wǎng)絡(luò)的結(jié)構(gòu),尋找有標(biāo)簽數(shù)據(jù)與無標(biāo)簽數(shù)據(jù)的關(guān)系,預(yù)測(cè)無標(biāo)簽節(jié)點(diǎn)的標(biāo)簽。

半監(jiān)督支持向量機(jī)

利用無標(biāo)簽數(shù)據(jù)的空間分布信息調(diào)整SVM的決策超平面,是支持向量機(jī)在無標(biāo)簽樣本下的改進(jìn)版本。

(2) 半監(jiān)督深度學(xué)習(xí)

半監(jiān)督分段網(wǎng)絡(luò)

此類方法一般分為兩步,第一步利用無標(biāo)簽數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練;第二步利用有標(biāo)簽數(shù)據(jù)微調(diào)模型。例如,可以通過自編碼器預(yù)訓(xùn)練,然后將中間層的結(jié)果輸入網(wǎng)絡(luò)分類器,也可采用類似于自訓(xùn)練算法的思想,將神經(jīng)網(wǎng)絡(luò)作為分類器,生成偽標(biāo)簽并重新訓(xùn)練模型。

半監(jiān)督一體化網(wǎng)絡(luò)

此類方法建立一個(gè)整體的損失函數(shù)進(jìn)行端到端訓(xùn)練。將有無標(biāo)簽作為一個(gè)0-1的參數(shù),并賦予于不同的權(quán)重,這樣就建立了有標(biāo)簽與無標(biāo)簽數(shù)據(jù)通用的損失函數(shù),實(shí)現(xiàn)端到端的網(wǎng)絡(luò)訓(xùn)練。

2. 半監(jiān)督機(jī)器學(xué)習(xí)算法經(jīng)驗(yàn)

半監(jiān)督學(xué)習(xí)算法通過在有監(jiān)督的分類算法中加入無標(biāo)記樣本以增強(qiáng)分類效果,并且在不斷接觸新樣本的過程中更新算法。筆者認(rèn)為,在風(fēng)控領(lǐng)域半監(jiān)督的未來應(yīng)用方向應(yīng)該包含:

(1) 半監(jiān)督學(xué)習(xí)與主動(dòng)學(xué)習(xí)的結(jié)合

筆者認(rèn)為,半監(jiān)督學(xué)習(xí)利用了無標(biāo)簽數(shù)據(jù)中的確定性信息,而主動(dòng)學(xué)習(xí)利用了無標(biāo)簽數(shù)據(jù)中的不確定性信息,兩者正好可以互補(bǔ)。主動(dòng)學(xué)習(xí)與半監(jiān)督學(xué)習(xí)結(jié)合,快速地構(gòu)建基于已標(biāo)記數(shù)據(jù)的模型,并應(yīng)用于未標(biāo)記數(shù)據(jù),然后使用這些數(shù)據(jù)來強(qiáng)化訓(xùn)練模型。阿里支付寶研發(fā)了基于主動(dòng)學(xué)習(xí)與半監(jiān)督機(jī)器學(xué)習(xí)結(jié)合的方法用于識(shí)別套現(xiàn)風(fēng)險(xiǎn),相比無監(jiān)督模型Isolation Forest ,將套現(xiàn)交易識(shí)別率提升了3倍。

(2) 半監(jiān)督學(xué)習(xí)用于拒絕推斷與風(fēng)控回?fù)疲?/p>

在實(shí)踐中,通過半監(jiān)督可以給拒絕的客戶打偽標(biāo)簽,用于更新已有的風(fēng)控模型,有兩個(gè)好處:一是,通過拒絕推斷訓(xùn)練一個(gè)無偏的風(fēng)險(xiǎn)模型,避免由于缺少拒絕客戶的樣本數(shù)據(jù),導(dǎo)致風(fēng)控模型存在偏差。二是,從拒絕客群中識(shí)別優(yōu)質(zhì)客戶,提升客戶通過率,為銀行挽回更多的客戶。

3. 經(jīng)典資料(個(gè)人推薦)

【1】半監(jiān)督機(jī)器學(xué)習(xí)總結(jié): https://zhuanlan.zhihu.com/p/252343352

【2】半監(jiān)督學(xué)習(xí)綜述:https://arxiv.org/abs/1905.11590

【3】主動(dòng)學(xué)習(xí)與半監(jiān)督學(xué)習(xí)在風(fēng)控應(yīng)用:

https://developer.aliyun.com/article/582125

(十)強(qiáng)化學(xué)習(xí)算法、經(jīng)驗(yàn)及應(yīng)用

強(qiáng)化學(xué)習(xí)算法介紹

強(qiáng)化學(xué)習(xí)的主要角色是智能體(agent)和環(huán)境(environment),智能體通過一個(gè)策略函數(shù)(policy function)來選取下一步的策略(action),同時(shí)也會(huì)按照價(jià)值函數(shù)(value function)來對(duì)當(dāng)前狀態(tài)進(jìn)行獎(jiǎng)勵(lì)(reward)。

強(qiáng)化學(xué)習(xí)是一個(gè)序列決策問題,獎(jiǎng)勵(lì)信號(hào)并不與當(dāng)前行動(dòng)直接掛鉤,可能很早之前的行動(dòng)最近才有獎(jiǎng)勵(lì),當(dāng)前行為又會(huì)在未來時(shí)刻產(chǎn)生獎(jiǎng)勵(lì),模型目的在于如何找到最好的策略空間在將來產(chǎn)生最大的回報(bào)。強(qiáng)化學(xué)習(xí)一定程度上提高了在線學(xué)習(xí)的效率,可以快速適應(yīng)環(huán)境,做出新的決策。

在量化投資領(lǐng)域,研究員們采用強(qiáng)化學(xué)習(xí)算法實(shí)現(xiàn)在商品期貨、股票指數(shù)、固定收益和外匯市場(chǎng)的投資組合構(gòu)建問題。傳統(tǒng)的量化模型分割為模型與策略兩部分,模型的目標(biāo)與策略的目標(biāo)存在差異,強(qiáng)化學(xué)習(xí)則將兩部分合并在一起,直接以收益為目標(biāo),因此模型的針對(duì)性更強(qiáng)。

在信貸公平性領(lǐng)域,研究員們利用強(qiáng)化學(xué)習(xí)仿真了不同信貸策略的影響。銀行在發(fā)放貸款的時(shí)候,存在兩種策略,一種叫利益最大化,一種叫機(jī)會(huì)均等。利益最大化策略按照總體利潤(rùn)最大化來確定銀行貸款準(zhǔn)入的閾值,從而判斷接受還是拒絕該筆貸款的申請(qǐng)。機(jī)會(huì)均等策略按照TPR相等來確定準(zhǔn)入的閾值,保證在不同群體中,本應(yīng)償還貸款的申請(qǐng)者中獲得貸款的人數(shù)比例相同。銀行利潤(rùn)和借貸者信用的平均值并非同時(shí)達(dá)到峰值,也就是保證貸款群體信用最好的時(shí)候并非銀行利潤(rùn)最大的時(shí)候。ICML2018最佳會(huì)議論文Delayed Impact of Fair Machine Learning分析了銀行借貸不同策略的公平性問題,該研究針對(duì)不同策略對(duì)于決策系統(tǒng)的短期影響進(jìn)行分析;谷歌最近發(fā)表的文章 Fairness Is Not Static: Deeper Understanding of Long Term Fairness via Simulation Studies 則針對(duì)不同策略對(duì)于決策系統(tǒng)長(zhǎng)期影響進(jìn)行了建模仿真,而強(qiáng)化學(xué)習(xí)天然適合仿真該長(zhǎng)期影響的場(chǎng)景。結(jié)果表明,利益最大化策略的閾值不隨時(shí)間變化,因此利益最大化的過程閾值是固定的。而機(jī)會(huì)均等策略認(rèn)為TPR隨時(shí)間變化,從而對(duì)應(yīng)不同的準(zhǔn)入閾值變化。

2. 強(qiáng)化學(xué)習(xí)算法經(jīng)驗(yàn)

目前強(qiáng)化學(xué)習(xí)在金融領(lǐng)域一方面應(yīng)用在量化投資領(lǐng)域;另一方面應(yīng)用在信貸公平性仿真領(lǐng)域。筆者給出一些建議供參考:

強(qiáng)化學(xué)習(xí)在金融的應(yīng)用依賴于領(lǐng)域知識(shí)與強(qiáng)化學(xué)習(xí)結(jié)合的經(jīng)驗(yàn)。因此,理解金融本質(zhì),將金融問題轉(zhuǎn)換為強(qiáng)化學(xué)習(xí)的模型問題至關(guān)重要。

強(qiáng)化學(xué)習(xí)在量化投資領(lǐng)域的前景廣闊。不少公募基金,私募基金均在嘗試使用強(qiáng)化學(xué)習(xí)去賺取市場(chǎng)的超額收益,而算法的獨(dú)特性恰好是戰(zhàn)勝市場(chǎng)的一個(gè)先決條件。

3. 經(jīng)典資料(個(gè)人推薦)

【1】Fairness is not static:D'Amour, Alexander, et al. Fairness is not static: deeper understanding of long term fairness via simulation studies. Proceedings of the 2020 Conference on Fairness, Accountability, and Transparency. 2020.

【2】RL for Trading: Fang, Yuchen, et al. Universal Trading for Order Execution with Oracle Policy Distillation. arXiv preprint arXiv:2103.10860. 2021.

【3】RLForFinanceBook: http://stanford.edu/~ashlearn/RLForFinanceBook/book.pdf

(十一)運(yùn)籌優(yōu)化算法、經(jīng)驗(yàn)及應(yīng)用

運(yùn)籌優(yōu)化算法介紹

運(yùn)籌優(yōu)化算法一般分為精確解算法與啟發(fā)式算法。

(1) 精確解算法

精確解算法更側(cè)重于建模理論的實(shí)現(xiàn),比如分支定價(jià)、拉格朗日松弛等方法,在這里不詳細(xì)展開。

(2) 啟發(fā)式算法

啟發(fā)式算法本質(zhì)上是在做有選擇的窮舉,所以更側(cè)重于編程能力的實(shí)現(xiàn),分為鄰域搜索算法、群體智能算法。

鄰域搜索算法

鄰域搜索算法在每次迭代時(shí)通過搜索當(dāng)前解的“鄰域”找到更優(yōu)的解,比如模擬退火、禁忌搜索、迭代局部搜索、變鄰域搜索、自適應(yīng)大鄰域搜索等算法。

群體智能算法

群體智能算法則是模擬生物群行為,利用群體中的個(gè)體之間的信息交互和合作來實(shí)現(xiàn)尋優(yōu)的目的,比如遺傳算法、粒子群算法、蜂群算法。

(3) 在利率定價(jià)領(lǐng)域的典型應(yīng)用

在利率定價(jià)領(lǐng)域,可以用組合優(yōu)化來確定基于風(fēng)險(xiǎn)的最優(yōu)利率,使貸款組合的期望利潤(rùn)最大,在該優(yōu)化問題建模中,風(fēng)險(xiǎn)響應(yīng)關(guān)系與逆向選擇均會(huì)納入到利潤(rùn)定價(jià)問題中。風(fēng)險(xiǎn)響應(yīng)關(guān)系假設(shè)不同定價(jià)下客戶的響應(yīng)概率不同,逆向選擇假設(shè)違約概率是利率的函數(shù),對(duì)于兩個(gè)概率函數(shù)的不同刻畫會(huì)直接影響組合優(yōu)化的結(jié)果。當(dāng)然,實(shí)際情況有多種優(yōu)惠條件的約束,使得利率定價(jià)的優(yōu)化問題更加復(fù)雜。

(4) 在資產(chǎn)配置領(lǐng)域的典型應(yīng)用

在資產(chǎn)配置領(lǐng)域,均值方差優(yōu)化(Mean Variance Optimze,MVO)實(shí)現(xiàn)給定風(fēng)險(xiǎn)水平下組合收益的最大化,或者給定收益水平下組合風(fēng)險(xiǎn)的最小化,由于不同投資者風(fēng)險(xiǎn)承受能力不同,會(huì)使用風(fēng)險(xiǎn)厭惡系數(shù)來衡量風(fēng)險(xiǎn)承受能力。通過限制賣空/上限下限/資金投入比例,指數(shù)增強(qiáng)偏離限制等約束條件,可以構(gòu)建更加全面的資產(chǎn)配置組合優(yōu)化模型。

2. 運(yùn)籌優(yōu)化算法經(jīng)驗(yàn)

運(yùn)籌優(yōu)化算法在金融領(lǐng)域,一方面應(yīng)用在風(fēng)險(xiǎn)定價(jià)領(lǐng)域,一方面應(yīng)用在資產(chǎn)配置領(lǐng)域。在運(yùn)籌優(yōu)化算法解決金融問題時(shí),筆者給出一些建議供參考:

(1) 明確是否屬于運(yùn)籌優(yōu)化求解的范疇

依據(jù)業(yè)務(wù)情況與數(shù)據(jù)情況,確定是屬于運(yùn)籌優(yōu)化問題,還是機(jī)器學(xué)習(xí)問題,或者是兩者的統(tǒng)一結(jié)合。對(duì)于問題的定義是解決業(yè)務(wù)痛點(diǎn)的前提。例如,信貸領(lǐng)域定價(jià)問題多為運(yùn)籌優(yōu)化問題,廣告領(lǐng)域定價(jià)問題多為機(jī)器學(xué)習(xí)問題,而物流領(lǐng)域庫存分配問題則為運(yùn)籌優(yōu)化與機(jī)器學(xué)習(xí)的結(jié)合問題(先預(yù)測(cè)銷量再優(yōu)化庫存)。

(2) 確定優(yōu)化目標(biāo)與約束條件

運(yùn)籌優(yōu)化算法的關(guān)鍵在于如何定義優(yōu)化目標(biāo)與約束條件,要綜合業(yè)務(wù)知識(shí)和數(shù)據(jù)情況進(jìn)行綜合設(shè)計(jì)。例如,在進(jìn)行信貸風(fēng)險(xiǎn)定價(jià)時(shí),是否要考慮風(fēng)險(xiǎn)響應(yīng)關(guān)系,逆向選擇和負(fù)擔(dān)能力,如果考慮,如何設(shè)計(jì)相應(yīng)的目標(biāo)函數(shù)與約束條件。

3. 經(jīng)典資料(個(gè)人推薦)

【1】基于學(xué)習(xí)的運(yùn)籌優(yōu)化算法進(jìn)展與發(fā)展趨勢(shì):https://bbs.huaweicloud.com/blogs/175251

【2】低調(diào)的運(yùn)籌學(xué),與金融業(yè)的契合點(diǎn)在哪里? https://www.shanshu.ai/article/41

作者簡(jiǎn)介:

祝世虎

祝世虎,光大銀行智能風(fēng)控中心副主任、主任科學(xué)家。祝先生為北京大學(xué)第一批人工智能專業(yè)的博士,目前主要工作領(lǐng)域?yàn)椋夯ヂ?lián)網(wǎng)金融、智能風(fēng)控等。祝先生獲得智能風(fēng)控領(lǐng)域相關(guān)專利十余項(xiàng),并多次獲得人民銀行、銀保監(jiān)會(huì)的獎(jiǎng)項(xiàng),多次在國(guó)內(nèi)外智能風(fēng)控論壇上作為主講嘉賓。

成學(xué)軍

成學(xué)軍,光大銀行智能風(fēng)控中心算法研究員。成先生畢業(yè)于北京航空航天大學(xué)自動(dòng)化學(xué)院,一直致力于將機(jī)器學(xué)習(xí)與深度學(xué)習(xí)算法應(yīng)用于金融業(yè)務(wù)中,曾發(fā)表ESI高被引論文,擁有算法專利十余項(xiàng),并在魯豫有約節(jié)目中介紹相應(yīng)算法成果。

End.

評(píng)論列表

頭像
2024-09-04 19:09:15

我一直有關(guān)注,真的很有幫助

頭像
2024-05-14 05:05:27

被拉黑了,還有希望么?

 添加導(dǎo)師微信MurieL0304

獲取更多愛情挽回攻略 婚姻修復(fù)技巧 戀愛脫單干貨

發(fā)表評(píng)論 (已有2條評(píng)論)