编码器的相关内容 - 漫话开发者

2025-04-18 talkingdev

Meta发布多项AI新成果：图像编码器、视觉语言模型及3D物体定位系统

Meta公司近日重磅推出四项人工智能领域的重要技术成果：1）高性能图像编码器，可优化视觉数据的特征提取效率；2）视觉语言模型（VLM），实现跨模态理解与生成；3）基于联合嵌入预测架构（JEPA）的3D物体定位模型，突...

2025-04-18 talkingdev

近日，一项名为REPA-E的技术突破引发了机器学习领域的广泛关注。该技术通过创新的表示对齐损失函数，首次实现了变分自编码器(VAE)与潜在扩散模型的稳定联合训练。这种端到端的训练方法在ImageNet数据集上取得了当前...

2025-04-18 talkingdev

谷歌研究院与加州大学团队在arXiv最新发表的论文提出3D CoCa框架，这一突破性技术通过整合视觉语言对比学习（Contrastive Learning）与场景描述（Captioning）两大前沿方向，实现了对三维场景的多模态联合理解。该框...

2025-04-18 talkingdev

AI可解释性领域领军企业Goodfire近日宣布完成5000万美元A轮融资。该公司在稀疏自编码器（SAEs）等机械可解释性技术上具有深厚积累，致力于通过与闭源及开源模型提供方的深度合作，系统性地解析、引导和控制AI模型的...

2025-04-15 talkingdev

当前大多数针对连续信号的生成模型由于计算限制，通常需要在潜在空间中进行操作。然而，这项研究引入了一系列级联结构，使得生成过程可以直接在像素空间中进行。这一创新不仅显著提升了生成效率，还消除了对预训练变...

2025-03-31 talkingdev

近日，GitHub上开源了一个名为Mobile-VideoGPT的轻量级多模态视频模型，其参数量不足10亿（1B），却通过创新的双视觉编码器和令牌剪枝技术，实现了在边缘设备上的实时推理能力。这一突破性进展为移动端和物联网设备...

2025-03-25 talkingdev

Baichuan Omni 1.5 是一款支持文本、图像、视频和音频输入以及文本和音频输出的开源全模态基础模型。该模型采用任意到任意（any-to-any）的设计风格，属于原生多模态模型的一种典型代表。其核心技术在于使用了交错的...

2025-03-17 talkingdev

最近，一项名为WSI的研究将Whisper自动语音识别（ASR）编码器重新应用于多语言说话人识别任务，通过联合损失优化技术实现了显著的性能提升。该技术在多语言和多样化环境中识别说话人时，表现优于现有主流模型如Pyann...