AI 和機器學習中暗含的演演算法偏見

我們又能透過開源社群做些什麼？

— Justin Sherman

致謝

編譯自　|　https://opensource.com/article/18/1/how-open-source-can-fight-algorithmic-bias
　作者　|　Justin Sherman
　譯者　|　Valonia Kim (Valoniakim) ? ? 共計翻譯：4 篇貢獻時間：63 天

我們又能透過開源社群做些什麼？

在我們的世界裡，演演算法無處不在，偏見也是一樣。從社會媒體新聞的提供到流式媒體服務的推薦到線上購物，計算機演演算法，尤其是機器學習演演算法，已經滲透到我們日常生活的每一個角落。至於偏見，我們只需要參考 2016 年美國大選就可以知道，偏見是怎樣在明處與暗處影響著我們的社會。

很難想像，我們經常忽略的一點是這二者的交集：計算機演演算法中存在的偏見。

與我們大多數人的認知相反，科技並不是客觀的。 AI 演演算法和它們的決策程式是由它們的研發者塑造的，他們寫入的程式碼，使用的“訓練[1]”資料還有他們對演演算法進行應力測試[2] 的過程，都會影響這些演演算法今後的選擇。這意味著研發者的價值觀、偏見和人類缺陷都會反映在軟體上。如果我只給實驗室中的人臉識別演演算法提供白人的照片，當遇到不是白人照片時，它不會認為照片中的是人類[3] 。這結論並不意味著 AI 是“愚蠢的”或是“天真的”，它顯示的是訓練資料的分佈偏差：缺乏多種的臉部照片。這會引來非常嚴重的後果。

這樣的例子並不少。全美範圍內的州法院系統[4] 都使用“黑盒”對罪犯進行宣判。由於訓練資料的問題，這些演演算法對黑人有偏見[5] ，他們對黑人罪犯會選擇更長的服刑期，因此監獄中的種族差異會一直存在。而這些都發生在科技的客觀性偽裝下，這是“科學的”選擇。

美國聯邦政府使用機器學習演演算法來計算福利性支出和各類政府補貼。但這些演演算法中的資訊[6]，例如它們的創造者和訓練資訊，都很難找到。這增加了政府工作人員進行不平等補助金分發操作的機率。

演演算法偏見情況還不止這些。從 Facebook 的新聞演演算法到醫療系統再到警用攜帶相機，我們作為社會的一部分極有可能對這些演演算法輸入各式各樣的偏見、性別歧視、仇外思想、社會經濟地位歧視、確認偏誤等等。這些被輸入了偏見的機器會大量生產分配，將種種社會偏見潛藏於科技客觀性的面紗之下。

這種狀況絕對不能再繼續下去了。

在我們對人工智慧進行不斷開發研究的同時，需要降低它的開發速度，小心仔細地開發。演演算法偏見的危害已經足夠大了。

我們能怎樣減少演演算法偏見？

最好的方式是從演演算法訓練的資料開始審查，根據微軟的研究人員[2] 所說，這方法很有效。

資料分佈本身就帶有一定的偏見性。程式設計者手中的美國公民資料分佈並不均衡，本地居民的資料多於移民者，富人的資料多於窮人，這是極有可能出現的情況。這種資料的不平均會使 AI 對我們是社會組成得出錯誤的結論。例如機器學習演演算法僅僅透過統計分析，就得出“大多數美國人都是富有的白人”這個結論。

即使男性和女性的樣本在訓練資料中等量分佈，也可能出現偏見的結果。如果訓練資料中所有男性的職業都是 CEO，而所有女性的職業都是秘書（即使現實中男性 CEO 的數量要多於女性），AI 也可能得出女性天生不適合做 CEO 的結論。

同樣的，大量研究表明，用於執法部門的 AI 在檢測新聞中出現的罪犯照片時，結果會驚人地偏向[7] 黑人及拉丁美洲裔居民。

在訓練資料中存在的偏見還有很多其他形式，不幸的是比這裡提到的要多得多。但是訓練資料只是審查方式的一種，透過“應力測驗”找出人類存在的偏見也同樣重要。

如果提供一張印度人的照片，我們自己的相機能夠識別嗎？在兩名同樣水平的應聘者中，我們的 AI 是否會傾向於推薦住在市區的應聘者呢？對於情報中本地白人恐怖分子和伊拉克籍恐怖分子，反恐演演算法會怎樣選擇呢？急診室的相機可以調出兒童的病歷嗎？

這些對於 AI 來說是十分複雜的資料，但我們可以透過多項測試對它們進行定義和傳達。

為什麼開源很適合這項任務？

開源方法和開源技術都有著極大的潛力改變演演算法偏見。

現代人工智慧已經被開源軟體佔領，TensorFlow、IBM Watson 還有 scikit-learn[8] 這類的程式包都是開源軟體。開源社群已經證明它能夠開發出強健的，經得住嚴酷測試的機器學習工具。同樣的，我相信，開源社群也能開發出消除偏見的測試程式，並將其應用於這些軟體中。

除錯工具如哥倫比亞大學和理海大學推出的 DeepXplore[9]，增強了 AI 應力測試的強度，同時提高了其操控性。還有麻省理工學院的電腦科學和人工智慧實驗室[10]完成的專案，它開發出敏捷快速的樣機研究軟體，這些應該會被開源社群採納。

開源技術也已經證明瞭其在審查和分類大組資料方面的能力。最明顯的體現在開源工具在資料分析市場的佔有率上（Weka、Rapid Miner 等等）。應當由開源社群來設計識別資料偏見的工具，已經在網上釋出的大量訓練資料組比如 Kaggle[11] 也應當使用這種技術進行識別篩選。

開源方法本身十分適合消除偏見程式的設計。內部談話、私人軟體開發及非民主的決策制定引起了很多問題。開源社群能夠進行軟體公開的談話，進行大眾化，維持好與大眾的關係，這對於處理以上問題是十分重要的。如果線上社團，組織和院校能夠接受這些開源特質，那麼由開源社群進行消除演演算法偏見的機器設計也會順利很多。

我們怎樣才能夠參與其中？

教育是一個很重要的環節。我們身邊有很多還沒意識到演演算法偏見的人，但演演算法偏見在立法、社會公正、政策及更多領域產生的影響與他們息息相關。讓這些人知道演演算法偏見是怎樣形成的和它們帶來的重要影響是很重要的，因為想要改變目前的局面，從我們自身做起是唯一的方法。

對於我們中間那些與人工智慧一起工作的人來說，這種溝通尤其重要。不論是人工智慧的研發者、警方或是科研人員，當他們為今後設計人工智慧時，應當格外意識到現今這種偏見存在的危險性，很明顯，想要消除人工智慧中存在的偏見，就要從意識到偏見的存在開始。

最後，我們需要圍繞 AI 倫理化建立並加強開源社群。不論是需要建立應力實驗訓練模型、軟體工具，或是從千兆位元組的訓練資料中篩選，現在已經到了我們利用開源方法來應對數字化時代最大的威脅的時間了。

via: https://opensource.com/article/18/1/how-open-source-can-fight-algorithmic-bias

作者：Justin Sherman[13] 譯者：Valoniakim 校對：wxy

本文由 LCTT 原創編譯，Linux中國榮譽推出

AI 和機器學習中暗含的演演算法偏見 | Linux 中國

相關推薦

熱門標籤

熱門文章

分享創造快樂