漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品

清华大学智能图形学与几何计算实验室(THU-MIG)在GitHub上开源了名为Large Small Net(LSNet)的新型轻量级视觉模型家族。该模型创新性地借鉴了人类视觉系统的动态异尺度处理能力("See Large, Focus Small"机制),通过引入全新设计的卷积核结构,在多个视觉任务中实现了精度与效率的SOTA平衡。LSNet的核心突破在于其独特的跨尺度特征处理架构,能够像人眼一样同时捕捉全局场景和局部细节特征,这种生物启发的设计理念为计算机视觉模型的轻量化提供了新范式。实验表明,该模型在ImageNet分类、COCO目标检测等基准测试中,以仅1/3的参数量达到与主流模型相当的精度,特别适合移动端和边缘计算场景应用。

核心要点

  • 受人类视觉系统启发的动态异尺度处理架构
  • 新型卷积核设计实现精度与效率的SOTA平衡
  • 参数量减少70%仍保持竞争性精度表现

Read more >