视觉-语言模型如CLIP在许多任务中表现出色,但在图像修复方面却面临一些挑战。因此,一项新的项目引入了DA-CLIP模型,该模型优化了CLIP的工作方式,使其更好地处理这些任务,从而带来更清晰的图像重建。DA-CLIP模型...
Read MoreReka近日推出一款名为Yasa-1的多模态模型,该模型能处理音频、视频和文本,是极其受欢迎的T5语言模型的创造者带来的最新力作。Yasa-1在许多任务中都展示了优秀的表现,目前正处于私人预览阶段。Yasa-1继承了T5的精神...
Read More研究人员已经开发出一种新的方法,仅通过自然语言提示就可以提高视觉-语言模型的性能。这些模型能够理解文本和图像,而研究人员的新方法将使它们在处理视觉和语言信息时更加精确。通过与模型进行对话,研究人员可以...
Read More语言模型的性能往往受到其上下文长度的限制。一般来说,上下文长度的限制主要源于计算硬件和聪明的算法更新。StreamingLLM(Github Repo)提供了一种算法更新,通过将令牌流式传输至注意力机制,理论上可以支持无限...
Read MoreDeepMind的大型语言模型Chinchilla 70B可以将图像进行无损压缩,使其仅占原始大小的43.4%,并将音频数据压缩到仅占原始大小的16.4%。
Read More大型语言模型在许多设备上的运行效率受限于其庞大的计算需求。然而,一个名为QA-LoRA的新方法已经成功改变了这一局面。QA-LoRA通过巧妙地改变模型的构建和微调方式,使得大型语言模型能够在维持强大功能的同时,有效...
Read More大型模型如ChatGPT已被用于提升搜索结果的效果,但由于这些测试往往是隐蔽或秘密进行的,所以很难进行重复。研究人员推出了RankVicuna,这是一个开源工具,能够使用语言模型重新排序搜索结果。这款工具的出现为我们...
Read MoreLlava是一种将视觉能力插入语言模型的方法。现在,它已经通过指令调整,并运行了RLHF(强化学习和直觉推理)过程。Llava大大提高了指令遵循和推理能力。这种新方法将人工智能技术推向了一个新的高度,使得计算机不仅...
Read More