漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2026-05-20 talkingdev

开源| NVIDIA LongLive 1.0:实时长视频生成框架,支持流式注意力与交互式编辑

英伟达(NVIDIA)最新开源了LongLive 1.0框架,旨在解决长视频生成领域长期面临的实时交互难题。该框架通过引入流式注意力(Streaming Attention)和KV缓存优化(KV-cache optimization)技术,实现了对超长视频序列...

Read More
2026-05-12 talkingdev

Thinking Machines Lab发布交互模型:实时人机协作的可扩展新范式

Thinking Machines Lab 近日发布了一项名为“交互模型”的研究预览,旨在通过音频、视频和文本三种模态,实现人类与人工智能之间的实时协作。该模型采用从头训练的“多流架构”,能够持续处理与交换多模态信息,彻底打破...

Read More
2026-05-08 talkingdev

谷歌Gemma大模型提速3倍!投机解码技术揭秘:小模型“草稿师”成关键

谷歌近期在Gemma大型语言模型上实现了令人瞩目的推理速度提升,成功将性能提升了三倍。这一突破性进展的核心在于采用了“投机解码”(Speculative Decoding)技术。该技术的工作原理是部署一个轻量级、速度极快的“草稿...

Read More
2026-05-06 talkingdev

Gemma 4 加速推理:多Token预测草案技术实现3倍速提升

Google最新发布的Gemma 4模型通过引入多Token预测(Multi-Token Prediction, MTP)草案机制,显著降低了延迟瓶颈,提升了开发者的交互响应体验。该技术利用一种专门的投机性解码(Speculative Decoding)架构,在不...

Read More
2026-04-08 talkingdev

开源|Clicky:macOS上的AI“桌面伙伴”,实时看屏、语音交互与光标指点

近日,一个名为Clicky的开源项目在GitHub上发布,为macOS用户带来了一种新颖的人机交互体验。该项目本质上是一个运行在光标侧的AI“教师”或“伙伴”,能够实时“看到”用户屏幕内容,并通过语音与用户交流,甚至能直接“指...

Read More
2026-03-06 talkingdev

Doctolib开源移动端AI聊天组件:攻克React Native滚动难题,性能提升80%

欧洲领先的医疗科技公司Doctolib近期分享了其在移动端构建可靠AI聊天功能的实践经验。该公司最初以医疗预约应用起家,近年来正转型为更全面的健康伴侣平台。在开发过程中,团队发现构建移动端AI聊天功能比预期更具挑...

Read More
2026-03-05 talkingdev

微软发布Phi-4推理视觉模型:15B参数实现多模态推理,懂得“何时思考”以提升效率

微软近日发布了Phi-4-reasoning-vision-15B,这是一款开源的、权重开放的多模态视觉AI模型。该模型仅包含150亿参数,却在数学、科学、文档及用户界面(UI)推理任务上,达到了与参数量大数倍的模型相当甚至更优的性...

Read More
2026-01-31 talkingdev

Moltbook:近15万自主AI智能体交互,规模空前但伴随安全与垃圾信息风险

近日,AI领域知名专家Andrej Karpathy在社交媒体上分享了对新兴平台Moltbook的观察。他指出,尽管Moltbook存在安全风险和大量垃圾信息,但其平台上近15万个自主AI智能体相互交互的规模是前所未有的。这一现象引发了...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page