什么是“算法”?仁者見仁,智者見智
將決策系統(tǒng)描述為“算法”通常是人們轉移決策責任的一種方式。對許多人來說,“算法”指的是一套基于客觀經(jīng)驗證據(jù)或數(shù)據(jù)的規(guī)則,是一個極度復雜的系統(tǒng),以致人類很難理解其內(nèi)部工作原理或預測算法運行時的反應。
但這種描述準確嗎?也不總是。
例如,去年 12 月下旬,斯坦福醫(yī)學中心把新冠疫苗的分配不當歸咎于一種分配“算法”,該算法偏向高級管理人員,而非一線醫(yī)生。據(jù)《麻省理工技術評論》當時的報道,這家醫(yī)院聲稱,為了設計“非常復雜的算法”,醫(yī)院已經(jīng)咨詢了倫理學家,其中一位代表表示“完全行不通”。盡管許多人認為算法涉及人工智能或機器學習,但該系統(tǒng)實際上是一個醫(yī)學算法,在功能上是不同的,更像是一個非常簡單的公式或者是人類委員會設計的決策樹。
這種脫節(jié)突顯了一個日益嚴重的問題。隨著預測模型的激增,公眾在做出關鍵決策時變得更加謹慎。但決策者在開始制定評估和審計算法的標準時,首先必須定義決策的類別或他們決策適用的輔助工具。給“算法”這個術語保留解釋的余地,可能會讓一些影響最大的模型超出了確保這類系統(tǒng)對人沒有壞處的政策的影響范圍。
如何識別算法
那么斯坦福醫(yī)學中心的“算法”是一種算法嗎?這取決于你如何定義這個詞。雖然“算法”還沒有一個公認的定義,但計算機科學家哈羅德·斯通在 1971 年編寫的教科書里給出了一個普遍的定義:“算法是精確定義一系列操作的一套規(guī)則?!边@個定義包羅萬象,從配方到復雜的神經(jīng)網(wǎng)絡:基于算法的審計策略涉獵太廣泛了。
在統(tǒng)計學和機器學習中,我們通常認為算法是計算機為了解數(shù)據(jù)執(zhí)行的指令集。在這些領域中,產(chǎn)生的結構化信息通常稱為模型。計算機通過算法從數(shù)據(jù)中了解到的信息可能看起來像“權重”,可以乘以每個輸入因子,也可能要復雜得多。算法本身的復雜程度可能也不同。這些算法產(chǎn)生的影響最終取決于它們所應用的數(shù)據(jù)和最終模型運行的情況。同樣的算法在一種情況下可能會產(chǎn)生積極的影響,而在另一種情況下又會產(chǎn)生截然不同的影響。
在其他領域,上述模型本身被稱為算法。盡管這令人感到困惑,但從最廣泛的定義來看,這也是準確的:模型是定義一系列操作的規(guī)則(通過計算機的訓練算法來了解規(guī)則,而不是由人類直接表述)。例如,去年在英國,媒體報道一種“算法”不能給由于疫情無法參加考試的學生公平打分。這些報道確實討論的是模型——把輸入(學生過去的表現(xiàn)或老師的評價)轉化為輸出(分數(shù))的指令集。
斯坦福醫(yī)學中心發(fā)生的事情就好像是人類(包括倫理學家)坐下來,決定該系統(tǒng)應該采用怎樣的操作,從而根據(jù)員工的年齡和部門等輸入信息決定這個人是否應該首先接種疫苗。據(jù)我們所知,這一系列操作并沒有基于優(yōu)化某個定量目標的估計程序。這是一套如何讓疫苗優(yōu)先化,以算法的語言固定下來的規(guī)范性決策。這種方法在醫(yī)學術語和廣義定義中被視為一種算法,盡管其中唯一涉及的智能是人類。
關注影響,而不是投入
立法者也在爭論什么是算法。美國國會在 2019 年引入的 HR2291 或算法責任法案使用了“自動決策系統(tǒng)”一詞,將之定義為“機器學習、統(tǒng)計數(shù)據(jù)或其他數(shù)據(jù)處理、人工智能技術等得出的計算過程,以此作出決策或幫助人類決策,影響消費者。”
人工智能審計可能會忽略某些類型的偏見,而且也不一定能證明招聘工具是否給崗位挑選了最好的候選人。
紐約市也在考慮引進 Int 1894 法,這項法律將對“自動化就業(yè)決策工具”采取強制性審計,該工具定義為“功能由統(tǒng)計理論決定的系統(tǒng)或由這類系統(tǒng)定義參數(shù)的系統(tǒng)”。值得注意的是,這兩個法案都要求審計,但只提供了有關什么是審計的高級指導方針。
隨著政府和產(chǎn)業(yè)的決策者都在為算法審計制定標準,對“什么是算法”的意見可能會出現(xiàn)分歧。我們建議主要根據(jù)算法產(chǎn)生的影響來進行評估,而不是想著給“算法”下一個統(tǒng)一的定義或統(tǒng)一審計方法。關注結果而不是投入的話,我們就能避開技術復雜程度這些沒必要的爭論。無論我們討論的是代數(shù)公式還是深層神經(jīng)網(wǎng)絡,重要的一點是會不會造成危害。
在其他領域的影響是一個關鍵的評估因素,它被嵌入到網(wǎng)絡安全領域的經(jīng)典 DREAD 框架中,21 世紀初微軟首次了推廣這一框架,目前還有一些企業(yè)在使用。DREAD 框架中的“A”要求威脅評估人員詢問有多少人會受到一個確定的計算機安全隱患的影響,從而量化“受影響的用戶”。影響評估在人權和可持續(xù)發(fā)展分析中也很常見,我們已經(jīng)看到一些人工智能影響評估的早期開發(fā)者建立了類似的規(guī)則。例如,加拿大的《算法影響評估》基于 “該業(yè)務領域的客戶是否特別容易受到影響? (是或否)”等定性問題打分。
無論我們討論的是代數(shù)公式還是深層神經(jīng)網(wǎng)絡,重要的一點是會不會造成危害。
在評估中引入“影響”這樣一個定義廣泛的術語肯定比較困難。DREAD 框架后來被 STRIDE 補充或取代,部分是因為協(xié)調(diào)威脅建模所需內(nèi)容的不同觀點帶來了挑戰(zhàn),微軟在 2008 年停用了 DREAD。
在人工智能領域,會議和期刊已經(jīng)引入了影響聲明,公眾對此褒貶不一。這并非萬無一失:純粹公式化的影響評估很容易露出馬腳,而過度模糊的定義可能導致評估武斷或冗長。
盡管如此,這仍然是向前邁出的重要一步。“算法”一詞,無論如何定義,都不該成為設計和部署系統(tǒng)的人逃避責任的盾牌。這就是公眾要求算法問責的呼聲越來越高的原因,而“影響”一詞的概念為不同團體滿足這一需求提供了一個有用的共同基礎。
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。