漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-04-15 talkingdev

[开源]GigaTok:3B参数规模的图像分词器突破,重建性能卓越

近期,SilentView团队在GitHub开源了名为GigaTok的超大规模图像分词器项目,其参数量高达30亿(3B),在图像重建任务中展现出卓越性能。传统图像分词器在规模化过程中常面临性能崩溃问题,而GigaTok通过创新的解码器...

Read More
2025-03-24 talkingdev

[开源] 探索潜在多跳推理:大语言模型的多知识连接能力研究

近期,一项关于大语言模型(LLMs)的研究揭示了其在处理复杂提示时是否具备多跳推理能力——即连接多个知识片段的推理过程。研究发现,这种潜在的推理过程确实存在,尤其在初始步骤中表现明显。然而,模型对连接知识的...

Read More
2025-01-02 talkingdev

探索语言模型的极限:TinyStories展示微型模型的英语表达能力

2023年的研究项目TinyStories提出一个引人入胜的问题:语言模型可以小到什么程度,还能流利地表达英语?随着人工智能技术的进步,人们对高效而准确的小型语言模型的兴趣日益增长。TinyStories的研究人员尝试通过缩小...

Read More
2024-07-22 talkingdev

论文:词汇规模的扩展定律新研究

根据最新的研究,更大规模的模型需要更大的词汇表。这项研究探讨了词汇规模的扩展定律,揭示了模型规模和词汇大小之间的关系。随着模型规模的增大,词汇表的规模也需要相应扩大。这是因为大型模型需要处理更多的情境...

Read More
2024-06-20 talkingdev

TroL-高效大型语言和视觉模型开源

近日,一种名为TroL的新型高效大型语言和视觉模型 (LLVMs) 在GitHub上发布,其模型规模分别为18亿、38亿和70亿参数。这些模型能够精确地处理和理解大量的语言和图像信息,其性能和效率都达到了非常高的水平。这些模...

Read More
2024-03-20 talkingdev

人工智能发展遇瓶颈?GPT-4等大型语言模型显现收益递减

近期研究表明,人工通用智能(AGI)的发展可能并未如预期那般顺利。尽管投入了更多的资源,像GPT-4这样的大型语言模型(LLMs)却表现出硬件扩展的极限,收益递减的现象。这意味着,随着模型规模的扩大,其性能提升的...

Read More
2024-03-18 talkingdev

Cappy:小型评分器如何超越大型多任务语言模型

Cappy是一款小型模型,专门设计用于接收指令和候选完成,然后为完成度打分,以衡量其完成指令的程度。在这项任务上,Cappy的表现超越了许多更大的模型,这表明它可能作为训练和生成过程中的一个反馈机制。Cappy的成...

Read More
2024-03-13 talkingdev

基于Mamba的DNA序列模型

最近,一种基于Mamba竞争对手的DNA序列预测模型被开发出来。这个模型不仅非常高效,而且拥有强大的预测能力,而且模型规模非常小。目前,该模型已经在DNA测序领域得到了广泛的应用。

Read More
  1. Next Page