MASK-RCNN是一个多用途的网络,可以用来做目标检测,实例分割或者人体姿态识别.主要结构如下.

简单的说,就是首先用Faster-RCNN获得ROI,再进行ROI Align,然后输出ROI的分类,同时输出分割掩码.

1. Faster-RCNN和ROI Align

Faster-RCNN是一个两阶段检测器,第一阶段(即RPN)提出候选ROI,再过滤掉一部分,第二阶段对剩下的ROI进行分类.

MASK-RCNN对Faster-RCNN做了修改,获得ROI以后并没有马上输出分类,而是进行了ROI Align.ROI Align通过双线性插值获得准确的特征图,而不是四舍五入以后的特征图.例如,如果输出的ROI坐标是[x/16],其中16是特征图步幅,[⋅]表示四舍五入,这样获得的特征图和ROI的坐标并没有完全对端,虽然对分类影响不大,但是对掩码的输出影响较大.ROI Align通过双线性插值获得准确的特征图,如下图所示.

内容来源于网络如有侵权请私信删除

文章来源: 博客园

原文链接: https://www.cnblogs.com/mstk/p/11964150.html

你还没有登录,请先登录注册
  • 还没有人评论,欢迎说说您的想法!