學(xué)貫中西(14):人機(jī)協(xié)同決策(續(xù))

作者：高煥堂(銘傳大學(xué)、長庚大學(xué)教授) 時(shí)間：2022-12-19 來源：電子產(chǎn)品世界

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

本文引用地址：http://butianyuan.cn/article/202212/441783.htm

1 三種類型的AI

過去20 年，AI 在辨識( 分類) 和預(yù)測，兩方面表現(xiàn)令人類驚奇。就像算命仙，辨識出您的本命、預(yù)測出您的“時(shí)和運(yùn)”了。若時(shí)來運(yùn)轉(zhuǎn)，就努力擴(kuò)大行動，趨吉迎福。若時(shí)運(yùn)不濟(jì)，就凡事小心慎行，冬藏春迎，蓄銳待發(fā)。這階段的AI，通稱為：識別型AI。

在大數(shù)據(jù)時(shí)代里，人眼可看、手中能掌握的資料很有限，且視野小，人為優(yōu)化只能獲得局部最優(yōu)解(Local optimum)。于是，就需要AI 生成來幫忙，以人為找出的局部最佳解為條件( 基礎(chǔ))，輸入給AI ( 如Conditional GAN 模型)，讓它協(xié)助生成全局最佳解(Global optimum)。這階段的AI，通稱為：生成型AI。

上一期里，曾經(jīng)談到了AI 能夠幫助檢驗(yàn)人類決策者的假設(shè)，降低決策風(fēng)險(xiǎn)，促進(jìn)企業(yè)的成長茁壯。于是，AI 有3 種：識別型AI、生成型AI、決策型AI。

● 識別型AI：對事物或現(xiàn)象，洞察其特征(Feature)，而進(jìn)行歸類( 識別)。

● 生成型AI：學(xué)習(xí)目標(biāo)事物或現(xiàn)象的數(shù)據(jù)分布(Distribution)，生成新數(shù)據(jù)，呈現(xiàn)逼真的事物。

● 決策型AI：由< 生成型AI> 提供方案，由< 識別型AI> 評估風(fēng)險(xiǎn)，然后挑選風(fēng)險(xiǎn)最低、勝率最高的方案，并采取行動。所以決策型AI 的關(guān)鍵因子是：風(fēng)險(xiǎn)。

2 決策型AI的3項(xiàng)特點(diǎn)

從商業(yè)決策而觀之，商業(yè)環(huán)境是善變的，而且存在競爭者刻意唱反調(diào)，使得看似最佳獲利方案，卻可能是最賠錢的。于是，決策型AI 的第1 項(xiàng)特點(diǎn)是：需要把環(huán)境或敵方的可能方案(的特征)輸入到AI模型里。

《孫子兵法》說：勝兵先勝而后求戰(zhàn)；敗兵先戰(zhàn)而后求勝。于是，決策型AI 的第2 項(xiàng)特點(diǎn)是：幫忙做“先勝”的評估，也就是“不敗”的評估，也就是評估風(fēng)險(xiǎn)。

例如，當(dāng)今股市領(lǐng)域，最著名的投資決策者是巴菲特。他說，他的投資決策都基于兩條原則，第1 條原則是不賠錢( 先不敗、先勝)；而第2 條原則是永遠(yuǎn)不忘記。

從成吉思汗與神鷹的故事，可協(xié)助我們領(lǐng)會到，如果決策型AI 扮演神鷹的角色，既符合AI 的特性，又非常具有價(jià)值。當(dāng)AI( 神鷹) 發(fā)現(xiàn)決策者思緒不夠完美時(shí)，可以給予畫龍點(diǎn)睛的效果。更具價(jià)值在于：當(dāng)AI( 神鷹)發(fā)現(xiàn)決策者的決定是錯(cuò)的，而且行動是災(zāi)難性的，AI立即提出嚴(yán)重警告。于是，決策型AI 的第3 項(xiàng)特點(diǎn)是：把“決策型AI”做在決策點(diǎn)與行動點(diǎn)之間。例如，成吉思汗拿著杯子去盛裝那滴下來的山泉水。

裝滿了水，快拿到口邊，準(zhǔn)備一飲而盡時(shí)，在天空中飛翔的神鷹突然飛撲下來，“嗖”的一聲，就把成吉思汗手中的杯子踢翻了，水都灑到地上了。

神鷹在決策者的“決策時(shí)間點(diǎn)”與“行動時(shí)間點(diǎn)”之間的數(shù)秒鐘內(nèi)，實(shí)時(shí)納入當(dāng)下的決策，做出智慧的推論，采取保護(hù)主人的行動，而且刻不容緩( 圖1)。

圖1

過去，許多人把AI 做到“決策時(shí)間點(diǎn)”之前，提供給決策者參考，是OK 的，只是這樣的作法，只是把AI 做成為BI ( 商業(yè)智能) 或大數(shù)據(jù)分析的延伸，其價(jià)值并非最高的。把AI 做在策者的“決策時(shí)間點(diǎn)”與“行動時(shí)間點(diǎn)”之間，我稱為：AI 神鷹。把AI 做在策者的“決策時(shí)間點(diǎn)”之前，我稱為：AI 獵狗。

AI 獵狗作用于人類的“決策前”；而AI 神鷹作用于“決策后”。這兩項(xiàng)AI 成為人類決策者的最佳伙伴。對于基層經(jīng)理人( 決策) 而言，AI 獵狗可以發(fā)揮很大的輔助效果。對于高層總裁( 決策) 而言，AI 神鷹可以發(fā)揮關(guān)鍵性的效益。所以成吉思汗出行時(shí)，隨身攜帶神鷹，而不是獵狗。獵狗看利益，神鷹看風(fēng)險(xiǎn)。兩者協(xié)同合作，帶給人類趨吉避兇效果，讓企業(yè)勢如破竹。如成吉思汗一般，建立地球史上最大版圖的帝國。AI 天生具有“考古”和當(dāng)下“探索”的強(qiáng)大能力。也就是AI 出生就具有獵狗的天份，能極靈敏地嗅出利益機(jī)會( 如那里有兔子)。也就是一般統(tǒng)稱的“預(yù)測(Predict)”能力，這種極靈敏能力既可以用來嗅出“利益”，也可以用來嗅出“危險(xiǎn)”。于是，將一群擅于嗅出風(fēng)險(xiǎn)的AI 獵狗們，巧妙組合成為一個(gè)團(tuán)隊(duì)，就成為一只“AI 神鷹”了。

3 以劃拳比賽為例

這是一個(gè)做給小學(xué)生玩的AI 游戲，讓小朋友與Zenbo 機(jī)器人玩剪刀、石頭、布的劃拳比賽( 圖2 和圖3)。

圖2

圖3

比賽一開始，請先開啟Zenbo 的“AI 劃拳游戲”，如圖4。Zenbo 會說出：“我們一起來玩剪刀、石頭、布。當(dāng)我喊‘剪刀、石頭、布’，我們就同時(shí)出拳喔，準(zhǔn)備好了嗎?”。請您回答：“好了”。Zenbo 就出現(xiàn)下述畫面( 圖5)，同時(shí)Zenbo 也說出：“開始出拳喔，剪刀、石頭、布”。

圖4

圖5

這時(shí)請您出拳，要用口說出來。例如說出：“布”。此刻Zenbo 先已決定它的出拳，瞬間已聽到您說出的話(布)，就顯示出來。

圖6

同時(shí)，Zenbo 就很高興地說出：“哈哈哈，我贏了”。然后繼續(xù)下一回合的比賽。

4 AI模型的架構(gòu)設(shè)計(jì)

我們共有3 個(gè)模型：RnnPredict、DecisionRiskModel、VoiceClassifier。第1 個(gè)模型(RnnPredict) 是基于RNN的模型，它從比賽的歷史數(shù)據(jù)中，探索對方出拳的規(guī)律(圖7)。

圖7

第2個(gè)模型(DecisionRiskModel) 是基于對方出拳的規(guī)律，加上己方的決策，進(jìn)行風(fēng)險(xiǎn)(Risk) 評估，如圖8。

圖8

第3個(gè)模型(VoiceClassifier) 是監(jiān)視、辨別對方當(dāng)下出拳的行為，而計(jì)算出勝負(fù)( 圖9)。

圖9

在這劃拳游戲里，AI 必須在看到對方出拳之前，預(yù)先作最好的決策。所以第2 個(gè)模型的運(yùn)行時(shí)間，是比第3 個(gè)模型還要早。這第2 個(gè)模型是依賴第1 個(gè)模型所探索的到的對方出拳規(guī)律。

5 AI模型的學(xué)習(xí)(訓(xùn)練)流程

5.1 訓(xùn)練RnnPredict模型

這RnnPredict 模型會從比賽的經(jīng)驗(yàn)中找出對手的出拳規(guī)律。例如，當(dāng)A 與您比賽100 回合，它會記錄比賽的過程。

RnnPredict 模型會觀察您出拳的各種習(xí)慣性。例如，它會從這100 次的出拳紀(jì)錄( 數(shù)據(jù)) 中萃取您連續(xù)出拳相同時(shí)，接著您會習(xí)慣性選擇出什么拳呢? 于是，它萃取出來了( 圖10)。

圖10

接著，按下“AI 尋找規(guī)律”，RnnPredict 模型就展開機(jī)器學(xué)習(xí)，并且以神經(jīng)網(wǎng)絡(luò)的權(quán)重來記錄它找出來的規(guī)律，然后他也輸出所找到的規(guī)律( 圖11)。

圖11

從上圖里AI 輸出的結(jié)果看來，AI 的確發(fā)現(xiàn)了您的出拳習(xí)慣：幾乎沒有連續(xù)3 次出一樣的拳。例如，從上圖的第1 列，您前兩次都出“石頭”，AI 就估算出您這次將出拳的可能性是：出“布”、“剪刀”、“石頭”的可能性，分別為（0.75，0.25，0）。

5.2 訓(xùn)練DecisionRiskModel模型

這是一個(gè)分類模型( 屬于識別型AI)。剛才AI 基于過往的大數(shù)據(jù)，發(fā)現(xiàn)1 個(gè)規(guī)律：您連續(xù)兩回合出招一樣時(shí)，其后( 第3 招) 出招，幾乎不會與前兩回相同。例如，前兩回合，您都出“剪刀”，這一回合，您幾乎不會繼續(xù)出“剪刀”。所以，您只會出“石頭”或“布”了。此時(shí)，如果AI 出石頭，就它就穩(wěn)輸了( 風(fēng)險(xiǎn)高)；反之如果AI 出“布”，它就穩(wěn)不輸了( 風(fēng)險(xiǎn)低)；同理如果AI 出剪刀，就輸贏各一半( 風(fēng)險(xiǎn)中等)。前兩回，如果您出其他招( 不連續(xù)出同一招) 時(shí)，都全部看成“中等風(fēng)險(xiǎn)”。

于是，AI 只要善用它所發(fā)現(xiàn)的規(guī)則，在出拳瞬間自我評估它出招的風(fēng)險(xiǎn)，確保它不會掉入高風(fēng)險(xiǎn)的賽局里，它(AI) 的贏面就大增了。現(xiàn)在就來把上述的贏家規(guī)律輸入到Excel 表格里( 圖12)。

圖12

按下“訓(xùn)練”，就開始訓(xùn)練DecisionRiskModel 分類模型。它是用來評估各種出拳方案的風(fēng)險(xiǎn)評估。例如，輸入值[1,1,0]，表示對方連續(xù)兩次出“剪刀”，而AI決定出“石頭”，此時(shí)評估出來：風(fēng)險(xiǎn)高。于是AI 決定改變出拳的選擇。例如，改為出“布”，就輸入[1,1,2]，此時(shí)評估風(fēng)險(xiǎn)低，就是好策略了。

6 結(jié)束語

本期說明了決策型AI 的特色。并以劃拳比賽為例，說明其架構(gòu)，包括3 個(gè)AI 模型：第1 個(gè)是RnnPredict模型，負(fù)責(zé)探索對方的出拳規(guī)律( 知彼)。第2 個(gè)是DecisionRiskModel 模型，負(fù)責(zé)評估決策風(fēng)險(xiǎn)( 知己)。

第3 個(gè)是VoiceClassifier 模型是典型的語音識別模型。雖然本范例里，由3 個(gè)模型組合起來，與人們競賽。但是它們也可以在商業(yè)環(huán)境里，協(xié)助人類決策者，進(jìn)行優(yōu)越的商業(yè)決策。

（本文來源于《電子產(chǎn)品世界》雜志2022年12月期）

新聞中心

學(xué)貫中西(14):人機(jī)協(xié)同決策(續(xù))

評論

相關(guān)推薦

技術(shù)專區(qū)