规模的相关内容 - 漫话开发者

2023-10-05 talkingdev

思考再说：为LLMs添加暂停标记以提高推理能力

最近的研究表明，为ViTs注册器添加[reg]标记可以修复图像注意力映射的突增。这项工作表明，将一系列可学习的[pause]标记预置到序列中可以提高语言模型推理（仅解码器，最高可达10亿）的能力，最多可提高18%。直观上...

2023-10-04 talkingdev

大多数自动驾驶系统都是基于规则的、专家系统和学习模块的大规模组合。Wayve公司的最新研究展示了一个具有90亿参数的联合视频、动作和文本模型，该模型在多样化的场景中表现出色。这个模型通过学习和理解大量的驾驶...

2023-10-04 talkingdev

重新构建大型3D场景，特别是在一些数据缺失的情况下，对于自驾车来说至关重要。这种名为PC-NeRF的新方法，通过结合两个模块来优化多层次的重建，即使在数据不完整的情况下，也能确保3D模型的详细程度。PC-NeRF的两个...

2023-10-03 talkingdev

OpenCompass是一款免费的工具，旨在快速有效地测试大型模型。它的开源特性意味着任何人都可以对其进行修改和优化，以满足特定的需求。OpenCompass的核心优势在于其能够处理大规模的模型，这使得它在处理复杂的机器学...

2023-10-03 talkingdev

语言模型的性能往往受到其上下文长度的限制。一般来说，上下文长度的限制主要源于计算硬件和聪明的算法更新。StreamingLLM（Github Repo）提供了一种算法更新，通过将令牌流式传输至注意力机制，理论上可以支持无限...

2023-09-29 talkingdev

Meta公司新推出的Emu图像生成模型已在用户偏好调查中超越SDXL。Emu模型是在11亿图像对上进行预训练的，只在几千张精心策划的图像上进行了微调。此模型将作为Meta新AI助手计划的主要支柱。Emu的高效性能，证明了大规...

2023-09-27 talkingdev

OpenLM是一个专为训练最多可达70亿参数的中等规模语言模型设计的库和框架。它的设计理念是注重GPU速度和可修改性。作为收敛性验证，已经有在1.25T标记上训练的模型可供使用。这种新型的框架和库能够更好地满足中等规...

2023-09-22 talkingdev

思科宣布以280亿美元现金收购网络安全公司Splunk，这是有史以来最大规模的企业收购之一。Splunk的技术可帮助企业监控和分析数据，从而最大程度地降低遭受黑客攻击的风险并更快地解决技术问题。此次收购将进一步增强...