近期,SilentView团队在GitHub开源了名为GigaTok的超大规模图像分词器项目,其参数量高达30亿(3B),在图像重建任务中展现出卓越性能。传统图像分词器在规模化过程中常面临性能崩溃问题,而GigaTok通过创新的解码器...
Read More近期,一项关于大语言模型(LLMs)的研究揭示了其在处理复杂提示时是否具备多跳推理能力——即连接多个知识片段的推理过程。研究发现,这种潜在的推理过程确实存在,尤其在初始步骤中表现明显。然而,模型对连接知识的...
Read More2023年的研究项目TinyStories提出一个引人入胜的问题:语言模型可以小到什么程度,还能流利地表达英语?随着人工智能技术的进步,人们对高效而准确的小型语言模型的兴趣日益增长。TinyStories的研究人员尝试通过缩小...
Read More根据最新的研究,更大规模的模型需要更大的词汇表。这项研究探讨了词汇规模的扩展定律,揭示了模型规模和词汇大小之间的关系。随着模型规模的增大,词汇表的规模也需要相应扩大。这是因为大型模型需要处理更多的情境...
Read More近日,一种名为TroL的新型高效大型语言和视觉模型 (LLVMs) 在GitHub上发布,其模型规模分别为18亿、38亿和70亿参数。这些模型能够精确地处理和理解大量的语言和图像信息,其性能和效率都达到了非常高的水平。这些模...
Read More近期研究表明,人工通用智能(AGI)的发展可能并未如预期那般顺利。尽管投入了更多的资源,像GPT-4这样的大型语言模型(LLMs)却表现出硬件扩展的极限,收益递减的现象。这意味着,随着模型规模的扩大,其性能提升的...
Read MoreCappy是一款小型模型,专门设计用于接收指令和候选完成,然后为完成度打分,以衡量其完成指令的程度。在这项任务上,Cappy的表现超越了许多更大的模型,这表明它可能作为训练和生成过程中的一个反馈机制。Cappy的成...
Read More最近,一种基于Mamba竞争对手的DNA序列预测模型被开发出来。这个模型不仅非常高效,而且拥有强大的预测能力,而且模型规模非常小。目前,该模型已经在DNA测序领域得到了广泛的应用。
Read More