mednext-JZTXT

2023年3月发表在arxiv　　

　　现阶段，人们对于transformer的兴趣激增，然而，由于缺乏大规模的注释医疗数据集，使得实现与自然图像相同的性能具有挑战性，相比之下，卷积网络具有更高的归纳偏差，因此，很容易被训练到高性能。现阶段，ConvNext试图通过镜像transformer来使得ConvNet达到现在的需要，在这项工作中，我们对此进行了改进，设计了一个现代化的和可伸缩的卷积体系结构来应对数据缺乏的挑战，我们称之为MedNeXt，一个受transformer启发的大型卷积核分割网络，他是（1）一个完全的ConvNeXt 3D编码器解码的神经网络（2）残差ConvNeXt的上、下采样块来保存语义丰富跨尺度（s to preserve semantic richness across scales）没太搞懂什么意思（3）通过上采样小型卷积神经网络迭代增加卷积核尺寸的技术，来防止在受限的医学图像数据上性能达到饱和（4）在MedNeXT中的多层次（深度、宽度、内核大小）的复合缩放，这就引导了在CT和MRI模式上的4个任务和不同的数据集尺寸上的优越性能

　　Transformer作为一种混合结构或者是单一技术的组件，已经被广泛应用到了医学图像分割，也因此诞生了领先的性能。学习long-rang dependencies是transformer在视觉任务中的主要优势之一.对于long-rang dependencies 的理解是让两个长距离或者短距离的像素点产生关系。就像下图中的点1像素点的落在耕地上，而其它表示耕地的像素点还有很多，利用attention等机制来使得表示耕地的这些像素点产生联系即long-range dependencies。同样也可以使得表示建筑物的像素点之间产生联系。这样有利于利用像素点之间的关系来进行特征提取。（图片来源STANet通过BAM提取图片得到）

接着上面讲，由于其有限的归纳偏差，transformer受到需要大型注释数据集来最大化性能效益的困扰。但是，缺乏高质量的注释图片在医学图像领域是非常常见的，为了在利用Transformer的同时保持固有的归纳偏差。ConvNeXt被引入重建对自然图像的卷积神经网络优秀的性能，ConvNeXt架构使用了一个倒置的瓶颈镜像的Transformer，由一个深度层、一个扩展层和一个收缩层组成,除了大型的深度卷积核来复制远程表示学习以外。作者将两个带着大量数据集的大型卷积ConvNeXt结合以超越以前最先进的基于Transformer的网络。相比之下，VGGNet [28]方法仍然是医学图像分割中设计卷积神经网络的主要技术，开箱即用的数据高效解决方案，如nnUNet [13]，使用标准UNet [5]的变体，在广泛的任务中仍然有效。

　　ConvNeXt架构结合了Vision [7]和Swin Transformer的远程空间表示学习能力，还具有卷积神经网络固有的归纳偏差。此外，倒置的瓶颈设计允许我们缩放宽度（增加通道），同时不受卷积核大小的影响，在医学图像分割中对此结构的有效使用将从一下几点受益：（1）凭借大型卷积核学习long-rang dependencies （2）不那么直观的同时扩展多个网络等级。要实现这一点，需要技术来对抗大型网络对有限训练数据过度拟合的趋势。尽管如此，最近还是有人尝试将大型卷积核技术引入医学视觉领域。在[18]中，利用大型卷积核3D-UNet [5]，将核分解为深度的和深度扩张的核，以提高器官和脑肿瘤分割的性能，探索内核缩放（还是内核尺寸，我也不太好翻译），同时使用恒定数量的层和通道。ConvNeXt架构本身被用于3D-UX-Net [17]，其中SwinUNETR [8]的Transformer被ConvNeXt块取代，以在多个分割任务上实现高性能，然而，3D-UX-Net只在标准卷积编码器中部分使用这些块，这限制了它们可能获得的收益。

在这项工作中，我们最大限度地发挥了ConvNeXt设计的潜力，同时独特地解决了医学图像分割中有限的数据集的挑战。.我们提出了第一个完全的ConvNeXt三维分割网络-----MedNeXt，这是一个可伸缩的编码器-解码器网络，并做出以下贡献：（1）我们利用了一个完全由ConvNeXt块构成的网络发挥出了ConvNeXt设计时的全网络范围的优势（2）我们引入残差倒置瓶颈来代替常规的上采样块和下采样块，来保护再采样的上下文丰富度来优化密集的分割任务，改进的残差连接特别改善了训练过程中的梯度流。（3）我们介绍了一种简单而有效的迭代增加核大小的技术------UpKern，通过对训练好的上采样小内核网络进行初始化，以防止大型内核MedNeXts上的性能饱和。（4）我们提出应用多个网络参数的复合缩放来满足我们的网络设计，满足宽度（通道）、接受域（内核大小）和深度（层数）缩放的正交性