目標檢測的任務表述(流程大綱說明)
目標檢測的任務表述(流程大綱說明)
資料來源: https://mp.weixin.qq.com/s?__biz=MzAxNTc4MTc1Ng==&mid=2649378224&idx=2&sn=bbe3fef07f4ced27ce93c183e4e36281&chksm=83e037a3b497beb584ae6155a4edbbde1b1f265609c9fb5f677bdb1a06e8ff185179d7cb5a38&scene=126&sessionid=1606955662&key=c2a9e16105104578e942a62ac5253852ec08a610bf7ed1932837dce39a929c0d5fb37b764c906b9f33959916844f015e0c5223c5e1383d14bd7de4cb472ebc25448c8d80f12e06d7a2f59cd528a4fe46783ee1755eecec3918b03f22580bef60445dbc7dec67ee45ecd37a675907e3a976636f24e07f46c90ca20125d2e7b04d&ascene=1&uin=MjIwODk2NDgxNw%3D%3D&devicetype=Windows+10+x64&version=6300002f&lang=zh_TW&exportkey=Av471AuF%2B1gVIi1tis6rAKE%3D&pass_ticket=t%2FFvv00hkdjp%2FtO4r1IZknmhrhvEXHNdJjMJVCYhKrN21PC96wCAiLvQ5Yrc7qZb&wx_header=0
如何從圖像中解析出可供計算機理解的信息,是機器視覺的中心問題。深度學習模型由於其強大的表示能力,加之數據量的積累和計算力的進步,成為機器視覺的熱點研究方向。
那麼,如何理解一張圖片?根據後續任務的需要,有三個主要的層次。
圖像理解的三個層次
一是分類(Classification):即是將圖像結構化為某一類別的信息,用事先確定好的類別(string)或實例ID來描述圖片。這一任務是最簡單、最基礎的圖像理解任務,也是深度學習模型最先取得突破和實現大規模應用的任務。其中,ImageNet是最權威的評測集,每年的ILSVRC催生了大量的優秀深度網絡結構,為其他任務提供了基礎。在應用領域,人臉、場景的識別等都可以歸為分類任務。
二是檢測(Detection):分類任務關心整體,給出的是整張圖片的內容描述,而檢測則關注特定的物體目標,要求同時獲得這一目標的類別信息和位置信息。相比分類,檢測給出的是對圖片前景和背景的理解,我們需要從背景中分離出感興趣的目標,並確定這一目標的描述(類別和位置),因而,檢測模型的輸出是一個列表,列表的每一項使用一個數據組給出檢出目標的類別和位置(常用矩形檢測框的坐標表示)。
三是分割(Segmentation):分割包括語義分割(semantic segmentation)和實例分割(instance segmentation),前者是對前背景分離的拓展,要求分離開具有不同語義的圖像部分,而後者是檢測任務的拓展,要求描述出目標的輪廓(相比檢測框更為精細)。分割是對圖像的像素級描述,它賦予每個像素類別(實例)意義,適用於理解要求較高的場景,如無人駕駛中對道路和非道路的分割。