英伟达(NVIDIA)最新开源了LongLive 1.0框架,旨在解决长视频生成领域长期面临的实时交互难题。该框架通过引入流式注意力(Streaming Attention)和KV缓存优化(KV-cache optimization)技术,实现了对超长视频序列...
Read MoreThinking Machines Lab 近日发布了一项名为“交互模型”的研究预览,旨在通过音频、视频和文本三种模态,实现人类与人工智能之间的实时协作。该模型采用从头训练的“多流架构”,能够持续处理与交换多模态信息,彻底打破...
Read More谷歌近期在Gemma大型语言模型上实现了令人瞩目的推理速度提升,成功将性能提升了三倍。这一突破性进展的核心在于采用了“投机解码”(Speculative Decoding)技术。该技术的工作原理是部署一个轻量级、速度极快的“草稿...
Read MoreGoogle最新发布的Gemma 4模型通过引入多Token预测(Multi-Token Prediction, MTP)草案机制,显著降低了延迟瓶颈,提升了开发者的交互响应体验。该技术利用一种专门的投机性解码(Speculative Decoding)架构,在不...
Read More近日,一个名为Clicky的开源项目在GitHub上发布,为macOS用户带来了一种新颖的人机交互体验。该项目本质上是一个运行在光标侧的AI“教师”或“伙伴”,能够实时“看到”用户屏幕内容,并通过语音与用户交流,甚至能直接“指...
Read More欧洲领先的医疗科技公司Doctolib近期分享了其在移动端构建可靠AI聊天功能的实践经验。该公司最初以医疗预约应用起家,近年来正转型为更全面的健康伴侣平台。在开发过程中,团队发现构建移动端AI聊天功能比预期更具挑...
Read More微软近日发布了Phi-4-reasoning-vision-15B,这是一款开源的、权重开放的多模态视觉AI模型。该模型仅包含150亿参数,却在数学、科学、文档及用户界面(UI)推理任务上,达到了与参数量大数倍的模型相当甚至更优的性...
Read More近日,AI领域知名专家Andrej Karpathy在社交媒体上分享了对新兴平台Moltbook的观察。他指出,尽管Moltbook存在安全风险和大量垃圾信息,但其平台上近15万个自主AI智能体相互交互的规模是前所未有的。这一现象引发了...
Read More