OpenAI近日发布了名为Operator的全新AI代理,该代理能够通过与浏览器交互,执行诸如输入、点击和滚动等操作。Operator基于Computer-Using Agent (CUA)模型,结合了GPT-4的视觉能力和强化学习技术,使其能够在图形界...
Read MoreLlama.vim近日宣布推出本地LLM辅助文本补全功能,这一创新技术将为开发者提供更高效的代码编写体验。通过集成本地LLM模型,Llama.vim能够在离线环境下实现智能文本补全,显著提升开发效率。该功能不仅支持多种编程语...
Read MoreMMAudio 是一个创新的视频到音频生成系统,能够以视频作为输入,并根据视频内容生成与之配对的音频。该系统在处理合成视频和真实视频时均表现出色。通过先进的算法和模型,MMAudio 能够捕捉视频中的关键视觉信息,并...
Read More近日,MTU-Bench作为一种全新的基准测试工具正式发布,旨在评估大型语言模型(LLMs)在不同场景下的工具使用能力。该基准测试通过多样化的任务设计,全面衡量LLMs在实际应用中的表现,特别是在复杂任务中调用外部工...
Read More近日,GitHub上发布了一个名为MedSSS的医疗推理项目,该项目是一个基于自进化管道的慢思考小型医疗语言模型。MedSSS的设计旨在通过模拟人类医生的慢思考过程,提供更精准的医疗推理能力。该模型通过自进化管道不断优...
Read MoreSambaNova推出的EvaByte模型在字节级语言建模领域取得了显著进展。尽管其性能仅与两代前的模型(如Llama 2)相当,但对于长期受限于10亿参数以下的字节级模型来说,这无疑是一个重要的突破。EvaByte的成功不仅展示了...
Read More近日,一项名为TREAD(Token Routing for Efficient Architecture-agnostic Diffusion Training)的新技术引起了广泛关注。该技术通过创新的Token Routing机制,显著提升了扩散模型(Diffusion Models)的样本效率,...
Read More近日,GitHub上发布了一个名为DETRIS的参数高效调优框架,该框架专注于提升多模态任务中视觉特征的传播效率。DETRIS通过密集互连和文本适配器(text adapters)来增强视觉特征的传播,特别是在编码器未对齐的情况下...
Read More