漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-03-31 talkingdev

[开源]Mobile-VideoGPT:轻量级多模态视频模型,参数不足10亿却支持边缘设备实时推理

近日,GitHub上开源了一个名为Mobile-VideoGPT的轻量级多模态视频模型,其参数量不足10亿(1B),却通过创新的双视觉编码器和令牌剪枝技术,实现了在边缘设备上的实时推理能力。这一突破性进展为移动端和物联网设备...

Read More
2025-03-25 talkingdev

[开源] Baichuan Omni 1.5:开源全模态基础模型支持多模态输入输出

Baichuan Omni 1.5 是一款支持文本、图像、视频和音频输入以及文本和音频输出的开源全模态基础模型。该模型采用任意到任意(any-to-any)的设计风格,属于原生多模态模型的一种典型代表。其核心技术在于使用了交错的...

Read More
2025-03-17 talkingdev

[论文推荐] Whisper ASR编码器在多语言说话人识别中的新应用

最近,一项名为WSI的研究将Whisper自动语音识别(ASR)编码器重新应用于多语言说话人识别任务,通过联合损失优化技术实现了显著的性能提升。该技术在多语言和多样化环境中识别说话人时,表现优于现有主流模型如Pyann...

Read More
2025-02-28 talkingdev

ModelScope推出Diffusion Studio:为扩散模型提供高效抽象平台

ModelScope近日发布了Diffusion Studio,这是一个基于GitHub的开源平台和代码库,旨在为多种类型的扩散模型及其相关的自动编码器提供高效的抽象支持。Diffusion Studio通过简化复杂模型的开发流程,帮助研究人员和开...

Read More
2025-02-11 talkingdev

论文:神经网络训练新突破-回归任务通过分类框架实现性能提升

近日,一项创新性研究提出了一种改进神经网络训练的新方法,该方法通过将回归任务重新构建为分类问题,利用学习到的目标编码器-解码器对来实现。与传统回归方法相比,这种新方法通过分布目标表示和平滑插值技术,显...

Read More
2025-02-10 talkingdev

论文:使用新方法追踪语言模型特征演化,提升模型解释性与控制能力

近日,一项研究提出了一种创新方法,通过无数据余弦相似度技术追踪稀疏自编码器在大型语言模型(LLM)连续层中发现的特征演化过程。该方法能够映射特征的持久性、转换和涌现,生成跨层特征图。研究表明,这些特征图...

Read More
2025-01-22 talkingdev

DETRIS框架提升多模态任务中视觉特征传播效率

近日,GitHub上发布了一个名为DETRIS的参数高效调优框架,该框架专注于提升多模态任务中视觉特征的传播效率。DETRIS通过密集互连和文本适配器(text adapters)来增强视觉特征的传播,特别是在编码器未对齐的情况下...

Read More
2024-12-23 talkingdev

Llama 3.3发布:70亿参数的稀疏自编码器API接口曝光

Llama 3.3是一个最新的人工智能自编码器模型,拥有70亿参数规模。此次更新不仅提升了模型的容量和性能,还开放了API接口,使得开发者和研究人员能够更方便地接入并利用这一强大的模型资源。稀疏自编码器是一种高效的...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page