ICCV 2025 | BossNAS: Exploring Hybrid CNN-transformers with Block-wisely Self-supervised NAS
发布时间 - 2025-06-25 00:00:00 点击率:次本文在block-wise搜索空间上进行了一些关键创新:
提出了一种名为ensemble bootstrapping的训练策略,使得无需依赖教师网络,从而避免了引入biased supervision(候选偏好和教师偏好)。引入了非监督的评估指标(见公式5),并在三个不同的搜索空间和数据集上取得了良好的效果。基于MBConv的搜索空间,在ImageNet上取得了0.78的Spearman相关系数。基于NATS-Bench S_S搜索空间,在CIFAR-100上取得了0.76的Spearman相关系数。提出了HyTra(即CNN+Transformer混合模型)的搜索空间,在ImageNet上达到了82.5%的准确率,比EfficientNet高出2.4%。
方法
2.1 Ensemble Bootstrapping训练
SupernetBossNAS的训练方式与DNA不同。在DNA中,学生网络的每个block是独立训练的,例如学生网络的blockk的输入是教师网络的block{k-1}的输出,然后通过知识蒸馏(MSE损失)使学生网络的输出尽可能与教师网络的输出保持一致。BossNAS认为这种方法会使搜索到的子网与教师网络高度相关,导致搜索结果带有偏见。
为了
解决block独立训练的问题,BossNAS提出了Ensemble Bootstrapping策略。
设{S(W, A), T (W^T , α^T )}分别表示学生和教师网络(由权重W和结构A决定)。为了摆脱教师网络带来的束缚(即学生网络很可能非常类似于教师网络的结构,导致偏见和多样性降低),教师网络和学生网络的结构是相同的,即\alpha^T=A 。更具体地说,教师网络使用EMA策略更新的Supernet,而学生网络是常规的Supernet。
假设在某个搜索阶段,我们采样了p个不同的子网,由于使用自监督训练方式,对于同一个样本会有p组不同的增强样本(上图中p=2)。Ensemble Bootstrapping的核心思想是教师网络的第k个block的输出是这p个网络输出的平均值,记为
公式中的\mathcal{W}^{\bullet}表示教师网络的权重,是使用EMA更新的,即\mathcal{W}_{t}^{\bullet}=\tau \mathcal{W}_{t-1}^{\bullet}+(1-\tau) \mathcal{W}_{t},其中\mathcal{W}_t是online Supernet(学生网络)的权重。
由于每个block彼此之间训练独立,所以每个block的优化方式是一样的,这里给出学生网络第k个block的优化函数。简单来说,子网的输出要与ensemble的结果接近,损失函数使用的是MSE。
完整的优化函数表示如下:
2.2 搜索子网
第2.1节介绍了如何训练Supernet。在训练结束后,BossNAS使用进化算法基于训练好的权重选择模型结构。类似于公式(1)中对教师网络不同路径做ensemble,在搜索时也会对学生网络不同路径做ensemble,第k个block输出的ensemble结果表示如下:
最终最优的网络是每个block的输出最接近ensemble的输出,优化函数表示如下:
3. CNN-Transformer混合搜索空间
3.1 候选块
CNN部分采用的是ResNet的Residual Bottleneck,记为ResConv。Transformer部分是基于BotBlock和NLBlock做了改进的模块,记为ResAtt。
3.2 混合CNN-Transformers
完整的模型结构如下图示,不仅会搜索每一层的block结构,还会搜索每一层的下采样操作(控制分辨率)。
4. 实验
4.1 设置
每个block训练20个epoch,其中第一个epoch是warmup epoch。每个training step随机采样4条路径。
4.2 搜索Hybrid CNN-Transformer的结果
上图展示了使用DNA算法和BossNAS算法在相同的HyTra搜索空间上搜索到的网络结构。可以看到,DNA搜索到的网络更倾向于选择卷积操作,作者解释这是因为DNA使用了教师网络,而教师网络本身带来了biased supervision。文章将这一现象称为候选偏好。
4.3 在MBConv搜索空间上的结果
最终模型在ImageNet上的结果如下表所示,可以看到BossNAS的结果有一点点优势,但不明显。
作者进一步比较了搜索一致性结果(Kendall tau: \tau\tau , Pearson: R , Spearman: \rho ),相关性结果是基于DNA提供的23个模型结构和准确率计算得到的,结果如Table 3所示。可以看到MnasNet的相关性还不错,但由于它是multi-trial方法,所以耗时巨大。此外,我们还可以看到教师网络的选择对DNA算法影响很大。文章将这一现象称为教师偏好,而BossNAS完全不需要教师网络。
4.4 在NATS-Bench S_S搜索空间的结果
该搜索空间基于CIFAR10/100进行试验。
4.5 消融研究
BossNAS的训练和评估都是非监督的,为此作者对比了不同的训练和评估方法对最终结果的影响,结果如Table 5所示。
训练
Supv. distill. 表示supervised distillation,实际上就是DNA算法,即对中间层进行监督学习。Supv. class. 即对最后输出层使用真实标签进行监督学习。Unsupv. bootstrap与本文方法类似,只不过是教师网络和学生网络对应的相同路径进行知识蒸馏。Unsupv. EB: 学生网络的所有路径与教师网络的ensemble结果进行知识蒸馏。
评估
Supv. distill. 和Supv. class类似,就是根据学生和教师网络输出的相似度来评估网络的好坏。Supv. linear eval表示supervised linear evaluation。这是最常规的权重共享的NAS评估方法。具体来说,该方式是首先固定supernet权重,然后微调一个权重共享的线性分类器。这个分类器会与所有子网相连接,每个子网的排序就是根据分类器最后得到的准确率结果决定的。Unsupv. eval就是本文的方法,如公式(5)。
4.6 收敛表现
前面已经提到过,BossNAS的每个block只训练20个epoch就结束了,下图展示了在MBConv搜索空间上,基于ImageNet数据集每个epoch对应的搜索一致性结果。可以看到,基本上在第12个epoch时一致性就基本固定了,另外前期相关性能够快速提升。
在NATS-Bench上也有类似的结果。
# bootstrap
# ai
# 子网
# class
# table
# 算法
# cnn
# transformer
# 可以看到
# 提出了
# 的是
# 所示
# 这一
# 取得了
# 类似于
# 即对
# 这是
相关栏目:
【
网站优化151355 】
【
网络推广146373 】
【
网络技术251813 】
【
AI营销90571 】
相关推荐:
如何快速重置建站主机并恢复默认配置?
Laravel如何升级到最新版本?(升级指南和步骤)
如何在阿里云完成域名注册与建站?
Laravel如何实现用户注册和登录?(Auth脚手架指南)
laravel怎么配置Redis作为缓存驱动_laravel Redis缓存配置教程
谷歌浏览器如何更改浏览器主题 Google Chrome主题设置教程
Laravel项目结构怎么组织_大型Laravel应用的最佳目录结构实践
如何生成腾讯云建站专用兑换码?
html5的keygen标签为什么废弃_替代方案说明【解答】
手机网站制作与建设方案,手机网站如何建设?
免费网站制作appp,免费制作app哪个平台好?
iOS中将个别页面强制横屏其他页面竖屏
Android滚轮选择时间控件使用详解
打开php文件提示内存不足_怎么调整php内存限制【解决方案】
Java垃圾回收器的方法和原理总结
laravel怎么用DB facade执行原生SQL查询_laravel DB facade原生SQL执行方法
php后缀怎么变mp4格式错误_修改扩展名提示格式不对怎么办【技巧】
Win11怎么关闭专注助手 Win11关闭免打扰模式设置【操作】
javascript基于原型链的继承及call和apply函数用法分析
Laravel Eloquent访问器与修改器是什么_Laravel Accessors & Mutators数据处理技巧
公司门户网站制作流程,华为官网怎么做?
Laravel如何实现多对多模型关联?(Eloquent教程)
合肥制作网站的公司有哪些,合肥聚美网络科技有限公司介绍?
Bootstrap CSS布局之列表
清除minerd进程的简单方法
如何在IIS中新建站点并配置端口与IP地址?
企业网站制作这些问题要关注
如何快速完成中国万网建站详细流程?
JavaScript如何实现倒计时_时间函数如何精确控制
微信小程序制作网站有哪些,微信小程序需要做网站吗?
网站制作公司哪里好做,成都网站制作公司哪家做得比较好,更正规?
详解jQuery停止动画——stop()方法的使用
Laravel如何记录自定义日志?(Log频道配置)
如何在阿里云域名上完成建站全流程?
javascript事件捕获机制【深入分析IE和DOM中的事件模型】
百度浏览器如何管理插件 百度浏览器插件管理方法
Laravel路由怎么定义_Laravel核心路由系统完全入门指南
如何登录建站主机?访问步骤全解析
如何在万网自助建站中设置域名及备案?
微信推文制作网站有哪些,怎么做微信推文,急?
车管所网站制作流程,交警当场开简易程序处罚决定书,在交警网站查询不到怎么办?
高性能网站服务器部署指南:稳定运行与安全配置优化方案
百度输入法ai面板怎么关 百度输入法ai面板隐藏技巧
Laravel如何处理和验证JSON类型的数据库字段
Win11怎么更改系统语言为中文_Windows11安装语言包并设为显示语言
Laravel如何获取当前用户信息_Laravel Auth门面获取用户ID
Win11怎么修改DNS服务器 Win11设置DNS加速网络【指南】
利用python获取某年中每个月的第一天和最后一天
Laravel如何实现模型的全局作用域?(Global Scope示例)
实例解析Array和String方法

