漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-01-24 talkingdev

OpenAI推出全新AI代理Operator,实现浏览器自动化操作

OpenAI近日发布了名为Operator的全新AI代理,该代理能够通过与浏览器交互,执行诸如输入、点击和滚动等操作。Operator基于Computer-Using Agent (CUA)模型,结合了GPT-4的视觉能力和强化学习技术,使其能够在图形界...

Read More
2025-01-23 talkingdev

Llama.vim推出本地LLM辅助文本补全功能

Llama.vim近日宣布推出本地LLM辅助文本补全功能,这一创新技术将为开发者提供更高效的代码编写体验。通过集成本地LLM模型,Llama.vim能够在离线环境下实现智能文本补全,显著提升开发效率。该功能不仅支持多种编程语...

Read More
2025-01-23 talkingdev

MMAudio:基于视频内容生成配对音频开源工具

MMAudio 是一个创新的视频到音频生成系统,能够以视频作为输入,并根据视频内容生成与之配对的音频。该系统在处理合成视频和真实视频时均表现出色。通过先进的算法和模型,MMAudio 能够捕捉视频中的关键视觉信息,并...

Read More
2025-01-23 talkingdev

MTU-Bench:全新基准测试评估LLM工具使用能力

近日,MTU-Bench作为一种全新的基准测试工具正式发布,旨在评估大型语言模型(LLMs)在不同场景下的工具使用能力。该基准测试通过多样化的任务设计,全面衡量LLMs在实际应用中的表现,特别是在复杂任务中调用外部工...

Read More
2025-01-23 talkingdev

MedSSS:基于自进化管道的慢思考小型医疗语言模型

近日,GitHub上发布了一个名为MedSSS的医疗推理项目,该项目是一个基于自进化管道的慢思考小型医疗语言模型。MedSSS的设计旨在通过模拟人类医生的慢思考过程,提供更精准的医疗推理能力。该模型通过自进化管道不断优...

Read More
2025-01-23 talkingdev

EvaByte:字节级语言模型的新突破

SambaNova推出的EvaByte模型在字节级语言建模领域取得了显著进展。尽管其性能仅与两代前的模型(如Llama 2)相当,但对于长期受限于10亿参数以下的字节级模型来说,这无疑是一个重要的突破。EvaByte的成功不仅展示了...

Read More
2025-01-23 talkingdev

TREAD:无需修改架构的扩散模型高效训练新方法

近日,一项名为TREAD(Token Routing for Efficient Architecture-agnostic Diffusion Training)的新技术引起了广泛关注。该技术通过创新的Token Routing机制,显著提升了扩散模型(Diffusion Models)的样本效率,...

Read More
2025-01-22 talkingdev

DETRIS框架提升多模态任务中视觉特征传播效率

近日,GitHub上发布了一个名为DETRIS的参数高效调优框架,该框架专注于提升多模态任务中视觉特征的传播效率。DETRIS通过密集互连和文本适配器(text adapters)来增强视觉特征的传播,特别是在编码器未对齐的情况下...

Read More
  1. Prev Page
  2. 53
  3. 54
  4. 55
  5. Next Page