Llama cpp现已支持跨多台机器的分布式推理。这一功能目前仅限于FP16(半精度浮点数),但对于开源部署来说,这无疑是一个巨大的进步。通过分布式推理,开发者可以更高效地利用集群资源,提升模型推理的速度和效率。...
Read More该项目推出了一种用于遥感图像变化描述的新型概率扩散模型(RSICC)。这一模型的引入旨在通过对时间推移中的环境变化进行描述,提高遥感图像的解读能力。遥感图像变化描述(RSICC)技术在环境监测、灾害评估及土地利...
Read More近年来,大型语言模型在自然语言处理领域取得了显著进展,但在长时间对话中保持记忆仍然是一个巨大的挑战。为了解决这一问题,研究人员提出了一种新的方法:Streaming Infinite Retentive LLM(SirLLM)。这种方法允...
Read MoreReworkd公司近日发布了一款名为Tarsier的新工具,旨在通过使用括号和ID对网页元素进行视觉标记,增强大语言模型(LLMs)的网页交互任务处理能力。Tarsier利用OCR生成的文本表示,使得没有视觉功能的LLM也能理解网页...
Read More近日,MiniCMP-V发布了一个基于Llama 3训练的新版本。这款8B模型在多个任务上表现出色,甚至超越了许多闭源的专有模型。新版本的MiniCMP-V不仅支持30种不同的语言,还在光学字符识别(OCR)和视觉问答(visual quest...
Read More本项目引入了一种新的基于CNN的时空注意力(CSTA)方法,用于改进视频摘要。与传统的注意力机制不同,CSTA通过使用2D CNN来捕捉帧的视觉重要性,从而更好地理解视频中的关系和关键属性。这种方法不仅能够有效提取视...
Read MoreDeepSeek-VL 是一个专注于现实世界应用的全新开源视觉语言模型。该模型特别针对多样化的数据进行了优化,包括来自网页截图、图表以及 OCR(光学字符识别)数据的处理。DeepSeek-VL 的设计目标是提高在复杂和多样化数...
Read MorePSG-4D是一种全新的表示法,帮助AI理解空间和时间的四维世界。这种技术的GitHub Repo已经开源。该技术能够生成4D全景场景图,通过这种场景图,AI不仅能够理解物体的三维空间位置,还能理解物体随时间的变化。这是一...
Read More