发展的相关内容 - 漫话开发者

2024-05-22 talkingdev

CSTA项目开源，提升视频摘要效果

本项目引入了一种新的基于CNN的时空注意力（CSTA）方法，用于改进视频摘要。与传统的注意力机制不同，CSTA通过使用2D CNN来捕捉帧的视觉重要性，从而更好地理解视频中的关系和关键属性。这种方法不仅能够有效提取视...

2024-05-22 talkingdev

DeepSeek-VL 是一个专注于现实世界应用的全新开源视觉语言模型。该模型特别针对多样化的数据进行了优化，包括来自网页截图、图表以及 OCR（光学字符识别）数据的处理。DeepSeek-VL 的设计目标是提高在复杂和多样化数...

2024-05-22 talkingdev

Phi-3系列的小型模型迎来了14B版本的升级。此次升级的14B版本表现出色，其性能与Command R（104B模型）相媲美。Phi-3 14B模型的改进使其在处理复杂任务和数据分析方面有了显著提升，成为行业内备受瞩目的新星。Huggi...

2024-05-22 talkingdev

Scale AI近日完成了由Accel领投的10亿美元F轮融资，之前的投资者也参与了本轮融资。作为现代人工智能数据浪潮的推动者，Scale AI所提供的服务需求十分巨大，公司在这一领域具有独特的优势。这笔巨额融资将进一步加强...

2024-05-22 talkingdev

在大型视觉语言模型（LVLMs）中，输出结果往往更倾向于语言模型的先验知识，而非实际的视觉输入。这一项目通过引入“校准”和“去偏采样”技术，有效减少了这种偏差。这些技术使得模型在处理各种任务时，能够生成更加准...

2024-05-21 talkingdev

LeMeViT是一种新的方法，通过使用可学习元令牌来降低视觉Transformer的计算成本。这些元令牌能够高效地捕捉关键信息，从而显著提高推理速度。与传统的视觉Transformer相比，LeMeViT在保持高精度的同时，大幅减少了计...

2024-05-21 talkingdev

理解3D场景中物体的位置是一个具有挑战性的问题。然而，通过使用语言引导的3D理解，我们可以精确地为3D空间中的物体标记语义标签。语言引导的3D理解是一种新的技术，它允许我们通过使用特定的语言描述，更准确地确定...

2024-05-21 talkingdev

人工智能在生成艺术2D图像方面的运用早已让人们感到趣味盎然和富有创造力。而这项新的工作，将这种能力扩展到了3D领域，通过高斯喷射技术，以文本输入作为导向，使艺术场景生成更上一层楼。这种技术的出现，无疑为艺...