計算機視覺技術是實現自動駕駛的重要部分,美團無人配送團隊長期在該領域進行著積極的探索。不久前,高精地圖組提出的CenterMask圖像實例分割算法被CVPR2020收錄,本文將對該方法進行介紹。CVPR的全稱是IEEE Conference on Computer Vision and Pattern Recognition,IEEE國際計算機視覺與模式識別會議,它和ICCV、ECCV并稱為計算機視覺領域三大頂會。本屆CVPR大會共收到6656篇投稿,接收1470篇,錄用率為22%。
one-stage實例分割的意義
圖像的實例分割是計算機視覺中重要且基礎的問題之一,其在眾多領域具有十分重要的應用,比如:地圖要素提取、自動駕駛車輛感知等。不同于目標檢測和語義分割,實例分割需要對圖像中的每個實例(物體)同時進行定位、分類和分割。從這個角度看,實例分割兼具目標檢測和語義分割的特性,因此更具挑戰。當前兩階段(two-stage)目標檢測網絡(Faster RCNN[2]系列)被廣泛用于主流的實例分割算法(如Mask R-CNN[1])。2019年,一階段(one-stage)無錨點(anchor-free)的目標檢測方法迎來了新一輪的爆發,很多優秀的one-stage目標檢測網絡被提出,如CenterNet[3], FCOS[4]等。這一類方法相較于two-stage的算法,不依賴預設定的anchor,直接預測bounding box所需的全部信息,如位置、框的大小、類別等,因此具有框架簡單靈活,速度快等優點。于是很自然的便會想到,實例分割任務是否也能夠采用這種one-stage anchor-free的思路來實現更優的速度和精度的平衡?我們的論文分析了該問題中存在的兩個難點,并提出CenterMask方法予以解決。
圖1. 目標檢測,語義分割和實例分割的區別[1]
one-stage實例分割的難點
相較于one-stage目標檢測,one-stage的實例分割更為困難。不同于目標檢測用四個角的坐標即可表示物體的bounding box,實例分割的mask的形狀和大小都更為靈活,很難用固定大小的向量來表示。從問題本身出發,one-stage的實例分割主要面臨兩個難點:
如何區分不同的物體實例,尤其是同一類別下的物體實例。two-stage的方法利用感興趣區域(Region of Interest,簡稱ROI)限制了單個物體的范圍,只需要對ROI內部的區域進行分割,大大減輕了其他物體的干擾。而one-stage的方法需要直接對圖像中的所有物體進行分割。
如何保留像素級的位置信息,這是two-stage和one-stage的實例分割面臨的普遍問題。分割本質上是像素級的任務,物體邊緣像素的分割精細程度對最終的效果有較大影響。而現有的實例分割方法大多將固定大小的特征轉換到原始物體的大小,或者利用固定個數的點對輪廓進行描述,這些方式都無法較好的保留原始圖像的空間信息。
相關工作介紹
遵照目標檢測的設定,現有的實例分割方法可大致分為兩類:二階段(two-stage)實例分割方法和一階段(one-stage)實例分割方法。
two-stage的實例分割遵循先檢測后分割的流程,首先對全圖進行目標檢測得到bounding box,然后對bounding box內部的區域進行分割,得到每個物體的mask。two-stage的方法的主要代表是Mask R-CNN[1],該方法在Faster R-CNN[2]的網絡上增加了一個mask分割的分支,用于對每個感興趣區域(Region of Interest,簡稱ROI)進行分割。而把不同大小的ROI映射為同樣尺度的mask會帶來位置精度的損失,因此該方法引入了RoIAlign來恢復一定程度的位置信息。PANet[5]通過增強信息在網絡中的傳播來對Mask R-CNN網絡進行改進。Mask Scoring R-CNN[6]通過引入對mask進行打分的模塊來改善分割后mask的質量。上述two-stage的方法可以取得SOTA的效果,但是方法較為復雜且耗時,因此人們也開始積極探索更簡單快速的one-stage實例分割算法。
現有的one-stage實例分割算法可以大致分為兩類:基于全局圖像的方法和基于局部圖像的方法。基于全局的方法首先生成全局的特征圖,然后利用一些操作對特征進行組合來得到每個實例的最終mask。比如,InstanceFCN[7]首先利用全卷積網絡[8](FCN)得到包含物體實例相對位置信息的特征圖(instance-sensitive score maps),然后利用assembling module來輸出不同物體的分割結果。YOLACT[9]首先生成全局圖像的多張prototype masks,然后利用針對每個實例生成的mask coefficients對prototype masks進行組合,作為每個實例的分割結果。基于全局圖像的方法能夠較好的保留物體的位置信息,實現像素級的特征對齊(pixel-to-pixel alignment),但是當不同物體之間存在相互遮擋(overlap)時表現較差。與此相對應的,基于局部區域的方法直接基于局部的信息輸出實例的分割結果。PolarMask[10] 采用輪廓表示不同的實例,通過從物體的中心點發出的射線組成的多邊形來描述物體的輪廓,但是含有固定端點個數的多邊形不能精準的描述物體的邊緣,并且基于輪廓的方法無法很好的表示含有孔洞的物體。TensorMask[11]利用4D tensor來表示空間中不同物體的mask,并且引入了aligned representation 和 tensor bipyramid來較好的恢復物體的空間位置細節,但是這些特征對齊的操作使得整個網絡比two-stage的Mask RCNN還要慢一些。
不同于上述方法,我們提出的CenterMask網絡,同時包含一個全局顯著圖生成分支和一個局部形狀預測分支,能夠在實現像素級特征對齊的情況下實現不同物體實例的區分。
本工作旨在提出一個one-stage的圖像實例分割算法,不依賴預先設定的ROI區域來進行mask的預測,這需要模型同時進行圖像中物體的定位、分類和分割。為了實現該任務,我們將實例分割拆分為兩個平行的子任務,然后將兩個子任務得到的結果進行結合,以得到每個實例的最終分割結果。第一個分支(即Local Shape分支)從物體的中心點表示中獲取粗糙的形狀信息,用于約束不同物體的位置區域以自然地將不同的實例進行區分。第二個分支(即Global Saliency分支)對整張圖像預測全局的顯著圖,用于保留準確的位置信息,實現精準的分割。最終,粗糙但instance-aware的local shape和精細但instance-unaware的global saliency進行組合,以得到每個物體的分割結果。
1.網絡整體框架
圖圖2. CenterMask網絡結構圖
CenterMask整體網絡結構圖如圖2所示,給定一張輸入圖像,經過backbone網絡提取特征之后,網絡輸出五個平行的分支。其中Heatmap和Offset分支用于預測所有中心點的位置坐標,坐標的獲得遵循關鍵點預測的一般流程。Shape和Size分支用于預測中心點處的Local Shape,Saliency分支用于預測Global Saliency Map。可以看到,預測的Local Shape含有粗糙但是instance-aware的形狀信息,而Global Saliency含有精細但是instance-aware的顯著性信息。最終,每個位置點處得到的Local Shape和對應位置處的Global Saliency進行乘積,以得到最終每個實例的分割結果。Local Shape和Global Saliency分支的細節將在下文介紹。
2.Local Shape 預測
為了區分位于不同位置的實例,我們采用每個實例的中心點來對其mask進行建模,中心點的定義是該物體的bounding box的中心。一種直觀的想法是直接采用物體中心點處提取的圖像特征來進行表示,但是固定大小的圖像特征難以表示不同大小的物體。因此,我們將物體mask的表示拆分為兩部分:mask的形狀和mask的大小,用固定大小的圖像特征表示mask的形狀,用二維向量表示mask的大小(高和寬)。以上兩個信息都同時可以由物體中心點的表示得到。如圖3所示,P表示由backbone網絡提取的圖像特征,shape和size表示預測以上兩個信息的分支。用Fshape(大小為H*W*S*S)表示shape分支得到的特征圖,Fsize(大小為H*W*2)表示size分支得到的特征圖。假設某個物體的中心點位置為(x,y),則該點的shape特征為Fshape(x,y),大小為1*1*S*S,將其reshape成S*S大小的二維平面矩陣;該點的size特征為Fsize(x,y),用h和w表示預測的高度和寬度大小,將上述二維平面矩陣resize到h*w的大小,即得到了該物體的LocalShape表示。
圖3. Local Shape預測分支
3.Global Saliency 生成
盡管上述Local Shape表示可以生成每個實例的mask,但是由于該mask是由固定大小的特征resize得到,因此只能描述粗糙的形狀信息,不能較好的保留空間位置(尤其是物體邊緣處)的細節。如何從固定大小的特征中得到精細的空間位置信息是實例分割面臨的普遍問題,不同于其他采用復雜的特征對齊操作來應對此問題的思路,我們采用了更為簡單快速的方法。啟發于語義分割領域直接對全圖進行精細分割的思路,我們提出預測一張全局大小的顯著圖來實現特征的對齊。平行于Local Shape分支,Global Saliency分支在backbone網絡之后預測一張全局的特征圖,該特征圖用于表示圖像中的每個像素是屬于前景(物體區域)還是背景區域。
1.可視化結果
圖4. CenterMask網絡不同設定下的分割結果
為了驗證本文提出的Local Shape和Global Saliency兩個分支的效果,我們對獨立的分支進行了分割結果的可視化,如圖4所示。其中(a)表示只有Local Shape分支網絡的輸出結果,可以看到,雖然預測的mask比較粗糙,但是該分支可以較好的區分出不同的物體。(b)表示只有Global Saliency分支網絡輸出的結果,可以看到,在物體之間不存在遮擋的情形下,僅用Saliency分支便可實現物體精細的分割。(c)表示在復雜場景下CenterMask的表現,從左到右分別為只有Local Shape分支,只有Global Saliency分支和二者同時存在時CenterMask的分割效果。可以看到,在物體之間存在遮擋時,僅靠Saliency分支無法較好的分割,而Shape和Saliency分支的結合可以同時在精細分割的同時實現不同實例之間的區分。
圖5. CenterMask與其他方法在COCO test-dev數據集上的對比
CenterMask與其他方法在COCO test-dev數據集上的精度(AP)和速度(FPS)對比見圖5。其中有兩個模型在精度上優于我們的方法:two-stage的Mask R-CNN和one-stage的TensorMask,但是他們的速度分別大約4fps和8fps慢于我們的方法。除此之外,我們的方法在速度和精度上都優于其他的one-stage實例分割算法,實現了在速度和精度上的均衡。CenterMask和其他方法的可視化效果對比見圖6。
圖6. CenterMask與其他方法在COCO 數據集上的可視化對比
除此之外,我們還將提出的Local Shape和Global Saliency分支遷移至了主流的one-stage目標檢測網絡FCOS,最終的實驗效果見圖7。最好的模型可以實現38.5的精度,證明了本方法較好的適用性。
圖7. CenterMask-FCOS在 COCO test-dev數據集上的性能
首先,CenterMask方法作為我們在one-stage實例分割領域的初步嘗試,取得了較好的速度和精度的均衡,但是本質上仍未能完全脫離目標檢測的影響,未來希望能夠探索出不依賴box crop的方法,簡化整個流程。其次,由于CenterMask預測Global Saliency的思想啟發自語義分割的思路,而全景分割是同時融合了實例分割和語義分割的任務,未來希望我們的方法在全景分割領域也能有更好的應用,也希望后續有更多同時結合語義分割和實例分割思想的工作被提出。
更多細節見論文
論文原文:CenterMask: single shot instance segmentation with point representation
鏈接:https://arxiv.org/abs/2004.04446
參考文獻
[1] He K, Gkioxari G, Dollár P, et al. Mask r-cnn[C]//Proceedings of the IEEE international conference on computer vision. 2017: 2961-2969.
[2] Ren S, He K, Girshick R, et al. Faster r-cnn: Towards real-time object detection with region proposal networks[C]//Advances in neural information processing systems. 2015: 91-99.
[3] Zhou X, Wang D, Kr?henbühl P. Objects as points[J]. arXiv preprint arXiv:1904.07850, 2019.
[4] Tian Z, Shen C, Chen H, et al. Fcos: Fully convolutional one-stage object detection[C]//Proceedings of the IEEE International Conference on Computer Vision. 2019: 9627-9636.
[5] Liu S, Qi L, Qin H, et al. Path aggregation network for instance segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 8759-8768.
[6] Huang Z, Huang L, Gong Y, et al. Mask scoring r-cnn[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 6409-6418.
[7] Dai J, He K, Li Y, et al. Instance-sensitive fully convolutional networks[C]//European Conference on Computer Vision. Springer, Cham, 2016: 534-549.
[8] Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2015: 3431-3440.
[9] Bolya D, Zhou C, Xiao F, et al. YOLACT: real-time instance segmentation[C]//Proceedings of the IEEE International Conference on Computer Vision. 2019: 9157-9166.
[10] Xie, Enze, et al. "Polarmask: Single shot instance segmentation with polar representation." //Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2020
[11] Chen, Xinlei, et al. "Tensormask: A foundation for dense object segmentation." Proceedings of the IEEE International Conference on Computer Vision. 2019.
“京東服務+”洗衣中央工廠招商、3C上門安裝/維修招商
2269 閱讀嘉誠國際發布2024年年報:營收13.5億元,歸母凈利潤為2.05億元
2305 閱讀深圳擬擴大試點物流、環衛功能型無人車運營,加速產業規模化進程(附編制說明等下載)
2069 閱讀這家老牌物流巨頭被收購,9億美元交易值不值?
1519 閱讀DeepSeek落地全球第一大港
1291 閱讀京東外賣重點推廣39城
1239 閱讀國內首條無人機城際物流航線首航,1200公里續航會否沖擊貨運格局?
1185 閱讀京東,為外賣騎手繳納五險一金!
1111 閱讀普洛斯中國2024年表現穩健強勁,卓越運營助力新經濟勢能攀升
1107 閱讀物流行業唯一!京東物流入選《可持續發展年鑒2025》
1089 閱讀