漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-05-07 talkingdev

NVIDIA推出Radio文本与图像嵌入模型,性能媲美SigLIP

NVIDIA近期在Hugging Face Hub上发布了一系列文本与图像嵌入模型(Radio系列),其性能在多项基准测试中达到或超越当前热门的SigLIP模型。这些模型通过先进的神经网络架构优化了多模态数据的向量表示能力,可广泛应...

Read More
2025-05-05 talkingdev

资深LLM用户自述:生成式大模型并非我的常用工具

近日,一位长期使用大语言模型(LLM)的资深用户在个人博客中分享了他的使用心得。尽管生成式LLM(如GPT系列)在业界引起广泛关注,但该作者表示自己并不频繁使用这类模型。相反,他更倾向于将LLM应用于特定场景,如...

Read More
2025-04-25 talkingdev

Adobe重磅推出Firefly升级版:统一图像、视频、音频及矢量生成工具

Adobe近日发布了Firefly的重大更新,此次更新不仅整合了图像、视频、音频及矢量生成工具,还新增了移动端支持,并进一步深化了与Creative Cloud的集成。这一举措标志着Adobe在创意AI领域的又一重要突破,为设计师和...

Read More
2025-04-24 talkingdev

xAI聊天机器人Grok新增视觉识别功能,iOS用户可体验

马斯克旗下人工智能公司xAI推出的Grok聊天机器人近日迎来重要升级,新增了视觉识别能力。这一功能允许iOS用户上传图片或通过摄像头捕捉画面,随后向Grok提问关于所看到内容的问题。该功能与OpenAI的ChatGPT和谷歌的G...

Read More
2025-03-25 talkingdev

[开源] Baichuan Omni 1.5:开源全模态基础模型支持多模态输入输出

Baichuan Omni 1.5 是一款支持文本、图像、视频和音频输入以及文本和音频输出的开源全模态基础模型。该模型采用任意到任意(any-to-any)的设计风格,属于原生多模态模型的一种典型代表。其核心技术在于使用了交错的...

Read More
2025-02-27 talkingdev

Magma:多模态AI agent的基础模型在Hugging Face Hub发布

近日,Hugging Face Hub发布了一款名为Magma的新型基础模型,专为视觉agent任务设计,尤其在视频理解和UI导航方面表现出色。Magma模型以其易于调优的特性,为开发者提供了强大的工具,以应对复杂的多模态AI任务。该...

Read More
2025-02-26 talkingdev

LightningDiT:高效模块化扩散模型工具包助力生成式AI应用

近日,一款名为LightningDiT的高效模块化扩散模型工具包在GitHub上发布,旨在为生成式AI应用提供可扩展且多功能的解决方案。LightningDiT通过优化模型架构和训练流程,显著提升了生成式AI的性能和效率。该工具包支持...

Read More
2025-02-24 talkingdev

Triton实现Naive Sparse Attention,助力高效长上下文注意力算法

近日,DeepSeek NSA论文因其可扩展且高效的长上下文注意力算法引发了广泛关注。然而,该论文并未提供相关代码。为此,一项基于Triton的实现应运而生,该实现可无缝集成到任何PyTorch代码库中。Triton作为一种高效的G...

Read More
  1. Next Page