国产做国产爱免费视频,久久精品国产亚洲欧美,麻豆高清免费国产一区

數據集擁有自己的世界觀嗎？

2025-09-22

伴隨深度學習的不斷日常化，數據集中的偏見（bias）和公正性（fairness）已經成為一個熱門研究方向。

偏見在AI領域是一個很棘手的話題：有些偏見是有益的，例如噪聲數據可以增加模型的魯棒性，有些偏見是有害的，例如傾向對有色人種識別錯誤。

而且，當我們得到一個不完美的模型的時候，其中的數據集到底存在什么偏見？這些偏見是如何產生的？

谷歌的PAIR （People + AI Research）團隊最近發表了一篇博文，用一個很簡單有趣的例子討論了這些問題。

1、有偏見的分類

假設我們擁有如下所示的不同形狀的數據集，它們對應的標簽是有無陰影，如下圖。

利用頁面上的交互式分類器，可以分類出如下的結果，并得出相應的準確性。

模型并不完美，為了對結果進行糾正，你可能想知道模型正在犯什么錯誤，或者，數據存在哪種類型的偏見？

2、公正性分析

由于各個圖形的主要區別在于形狀，一個可能的偏見存在于形狀的差別。通過觀察你可能認為三個最主要的形狀主要是圓、三角形和矩形。為了證實這個假設，你要確信你的模型在面對圓、三角形和矩形的時候模型的表現能力的一樣的。接下來我們來做公正性分析（fairness analysis）。

首先我們需要對每個的形狀進行標注，但是一個問題是，有些形狀并不能很肯定地確定是什么形狀，這時候有兩種策略，一是把這種形狀判斷為最有可能是圓、三角形和矩形（with their best guess)；一種是給出一個選項：上述三種形狀都不是(as "other")。之后我們分析模型對于每一類形狀的分類準確率。該交互式頁面給了兩種策略的結果：

策略一：尋找最有可能的形狀：

第一種策略表明分類器對于矩形分類的結果最好，圓次之，三角形最差。不過這可以表明模型對三角形存在偏見嗎？我們在頁面上切換第二種策略。

策略二：上述都不是：

結果發生了變化！第二種策略則表明分類器對于三角形和矩形分類結果都最好，圓卻最差。我們對于偏見的理解因為我們制定分類的策略不同而不同，換言之，每一種分類方式代表著采取不同的角度看待哪些是重要的分類特征。而決定數據集和最終模型決策的是你——制定策略的人。也就是每個數據集都代表一種“世界觀”，其收集背后莫不代表著人的意志。

所以，再回過頭來想想，還有哪些策略或者規則的指定可能會影響我們的對于公正性的判斷？

對，我們當初對于分類的標準是依照形狀，比如圓、三角形或者矩形，這也是我們人為定的標準，如果換成”尖的“或者”圓的“呢？或者“小的”或者“大的”呢？下圖給出了不同評價標準下，正確和錯誤分類的個體：

圖注：當類別標準是“尖的”或者“圓的”，以及其它模糊類別是“尋找最有可能的形狀”的時候的分類結果

上一篇：國能日新：以能源數字化助力“雙碳”目標

下一篇：統信深度 deepin 宣布成立 AI SIG 社區：將 AI 引入操作系統，共同維護軟件包

亚洲精品亚洲人成在线观看下载-亚洲精品色情app在线下载观看-欧美孕妇变态孕交粗暴-中国农村熟妇性视频-真人作爱免费视频

江蘇昊目焊接有限公司