2 posts tagged with "Instance Segmentation"

K-Net:Towards Unified Image Segmentation

May 20, 2022 · 10 min read

Tianliang Zhang (Jay)

Deep Learning Engineer

Paper: [NeurIPS 2021] K-Net: Towards Unified Image Segmentation

Arxiv: https://arxiv.org/abs/2106.14855

Github: https://github.com/ZwwWayne/K-Net/

介绍

语义、实例和全景分割之间尽管存在潜在联系，但是它们使用不同的和特定的框架来解决各自任务。这个工作为这些任务提供了一个统一、简单且有效的框架，即 K-Net。它通过一组可学习的 kernels 来分割实例和语义类别，其中每个 kernel 负责为潜在实例或 stuff 类别生成 mask。为了解决区分不同实例的困难，论文提出一种 kernel update 策略，改策略使每个 kernel 能够动态并以输入图像中意义组为条件。K-Net 可以通过二分匹配进行端到端的训练，其中训练和推理是不需要 NMS 和矩形框的。

SOTR:Segmenting Objects with Transformers

May 19, 2022 · 12 min read

Tianliang Zhang (Jay)

Deep Learning Engineer

Paper: [ICCV 2021] SOTR: Segmenting Objects with Transformers

Arxiv: https://arxiv.org/abs/2108.06747

Github: https://github.com/easton-cau/SOTR

介绍

最近 tansformer-based 模型在视觉任务上表现出令人印象深刻的性能，甚至超过了卷积神经网络。在这项工作中，作者提出了一种新颖、灵活且有效的 tranformer-based 模型用于高质量的实例分割。所提出的模型，即 Segmenting Objects with TRansformers (SOTR)，简化了分割的pipeline，具有2个并行的子任务：（1）通过 transformer 预测每个实例类别，（2）使用多层级上采样模块动态生成 segmentation mask。SOTR 可以分别通过特征金字塔（FPN）和 twin transformer 有效地提取较低级别的特征表示（lower-level feature representations）并不惑远程上下文依赖关系（long-range context dependencies）。同时，与原始的 tranformer 相比，多提出的 twin transformer 在时间和资源上都是有效的，因为只涉及行和列注意力（a row and a column attention ）来编码像素。此外，SOTR 很容易与各种 CNN backbones 和 transformer 模型变体结合，从而显著提高分割精度和收敛性。

介绍​

介绍​

介绍

介绍