预训练的相关内容 - 漫话开发者

2025-04-07 talkingdev

[开源]Object Counting：基于特征图与自注意力机制的全自动零样本物体计数方法

GitHub开源项目Object Counting提出了一种突破性的全自动零样本物体计数方法，该方法通过融合深度特征图与自注意力机制，在FSC147数据集上实现了当前最先进的计数精度。该技术的核心创新在于：1）利用预训练视觉模型...

2025-03-31 talkingdev

近日，一项名为Test-Time Visual In-Context Tuning（TT-VICT）的创新性研究在计算机视觉领域引发广泛关注。该技术突破性地提出仅利用测试样本即可实现视觉上下文学习模型（VICL）的自适应调优，有效解决了传统方法...

2025-03-28 talkingdev

近期，一项名为Mixture-of-Mamba的创新研究在人工智能领域引起广泛关注。该研究通过将模态感知稀疏性引入状态空间模型(SSMs)，实现了高效的多模态预训练。与传统Transformer模型相比，Mixture-of-Mamba在文本、图像...

2025-03-19 talkingdev

MaTVLM是一个创新的混合视觉语言模型，通过将Mamba-2层集成到预训练的视觉语言模型（VLM）中，显著提升了其收敛速度与整体性能。这一技术突破不仅在学术界引起了广泛关注，也为工业界的应用带来了新的可能性。视觉语...

2025-03-17 talkingdev

Luma首席科学家宋嘉明，作为最早为扩散模型开发加速算法的先驱，近日发布了新的多模态预训练方法——Inductive Moment Matching（IMM）。这一新方法不仅超越了传统扩散模型在样本质量上的表现，还实现了10倍以上的效率...

2025-03-06 talkingdev

近日，ToLo推出了一种创新的两阶段、无需训练的布局到图像生成框架，专门针对高重叠布局设计。该框架通过两个独立的阶段实现图像生成：第一阶段利用预训练的模型生成初步图像，第二阶段则通过优化算法对图像进行精细...

2025-03-04 talkingdev

近日，一项名为ARC-AGI的技术引起了广泛关注，其最大的亮点在于无需进行传统的预训练过程。传统的AGI（通用人工智能）系统通常需要大量的数据和计算资源进行预训练，而ARC-AGI通过创新的架构设计，成功绕过了这一步...

2025-02-21 talkingdev

在LLM的预训练过程中，网络爬虫获取的数据往往因文本提取效率低下而被大量丢弃。然而，近期一项开源项目在GitHub上发布，显著提升了文档的保存率，并利用这些数据在少量爬取内容的基础上训练出更强大的模型。该项目...