機器學習~ ROC曲線和AUC面積理解 (物理/觀念 意義)

機器學習~ ROC曲線和AUC面積理解 (物理/觀念 意義)

機器學習~ ROC曲線和AUC面積理解 (物理/觀念 意義)


https://mp.weixin.qq.com/s/ZV41d8mOFPlvYRpyj8a0sg


目錄:

(1)ROC曲線的由來


(2)什麼是ROC曲線


(3)ROC曲線的意義
    (一)主要作用
        1. ROC曲線能很容易的查出任意閾值對學習器的泛化性能影響。
        2.有助於選擇最佳的閾值。ROC曲線越靠近左上角,模型的準確性就越高。最靠近左上角的ROC曲線上的點是分類錯誤最少的最好閾值,其假正例和假反例總數最少。
        3.可以對不同的學習器比較性能。將各個學習器的ROC曲線繪製到同一坐標中,直觀地鑑別優劣,靠近左上角的ROC曲所代表的學習器準確性最高。

    (二)優點
        1.該方法簡單、直觀、通過圖示可觀察分析學習器的準確性,並可用肉眼作出判斷。ROC曲線將真正例率和假正例率以圖示方法結合在一起,可準確反映某種學習器真正例率和假正例率的關係,是檢測準確性的綜合代表。

        2.ROC曲線不固定閾值,允許中間狀態的存在,利於使用者結合專業知識,權衡漏診與誤診的影響,選擇一個更加的閾值作為診斷參考值。


(4)AUC面積的由來


(5)什麼是AUC面積


(6)AUC面積的意義
    AUC是衡量二分類模型優劣的一種評價指標,表示預測的正例排在負例前面的概率。
    看到這裡,是不是很疑惑,根據AUC定義和計算方法,怎麼和預測的正例排在負例前面的概率扯上聯繫呢?如果從定義和計算方法來理解AUC的含義,比較困難,實際上AUC和Mann-WhitneyU test(曼-慧特尼U檢驗)有密切的聯繫。從Mann-Whitney U statistic的角度來解釋,AUC就是從所有正樣本中隨機選擇一個樣本,從所有負樣本中隨機選擇一個樣本,然後根據你的學習器對兩個隨機樣本進行預測,把正樣本預測為正例的概率,把負樣本預測為正例的概率,>的概率就等於AUC。所以AUC反映的是分類器對樣本的排序能力。根據這個解釋,如果我們完全隨機的對樣本分類,那麼AUC應該接近0.5。

    另外值得注意的是,AUC的計算方法同時考慮了學習器對於正例和負例的分類能力,在樣本不平衡的情況下,依然能夠對分類器做出合理的評價。AUC對樣本類別是否均衡並不敏感,這也是不均衡樣本通常用AUC評價學習器性能的一個原因。例如在癌症預測的場景中,假設沒有患癌症的樣本為正例,患癌症樣本為負例,負例佔比很少(大概0.1%),如果使用準確率評估,把所有的樣本預測為正例便可以獲得99.9%的準確率。但是如果使用AUC,把所有樣本預測為正例,TPR為1,FPR為1。這種情況下學習器的AUC值將等於0.5,成功規避了樣本不均衡帶來的問題。


(7)討論:在多分類問題下能不能使用ROC曲線
    最後,我們在討論一下:在多分類問題下能不能使用ROC曲線來衡量模型性能?
    我的理解:ROC曲線用在多分類中是沒有意義的。只有在二分類中Positive和Negative同等重要時候,適合用ROC曲線評價。如果確實需要在多分類問題中用ROC曲線的話,可以轉化為多個“一對多”的問題。即把其中一個當作正例,其餘當作負例來看待,畫出多個ROC曲線。

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *