近期,一项名为Mixture-of-Mamba的创新研究在人工智能领域引起广泛关注。该研究通过将模态感知稀疏性引入状态空间模型(SSMs),实现了高效的多模态预训练。与传统Transformer模型相比,Mixture-of-Mamba在文本、图像...
Read MoreTransformer模型在自然语言处理和其他领域取得了显著的成功,而其核心之一是层归一化(Layer Normalization)。然而,最新的研究提出了一种替代方案:通过精心设计的tanh函数,可以在不依赖层归一化的情况下保持模型...
Read MoreGeoMFormer是一种全新的基于Transformer的模型,旨在通过学习不变量和等变量特征来改进分子模型。这种模型的设计,彻底改变了传统分子建模的方法,为化学和生物科学的研究者提供了新的视角和工具。GeoMFormer的出现...
Read MoreLogit Lens方法已经得到了增强,该方法通过分解logit输出,帮助我们理解Transformer模型的决策过程。这种方法使用“prisms”来处理残差流,注意力层和MLP层,揭示了这些部分如何影响预测,并为gemma-2b模型执行的诸如...
Read More现代变压器模型在处理数据时,每个数据单元都使用相同的预测计算量,但事实上,不同数据单元的预测难度差异很大。DeepMind的最新研究突破了这一限制,允许模型在生成过程中根据数据单元的难易程度提前退出,从而减少...
Read More科研团队近期推出了一项名为DiJiang的创新技术,旨在将现有的Transformer模型转化为更精简、更快速的版本,同时避免了重新训练模型所需的巨大成本。DiJiang技术通过优化模型结构,大幅减少了计算资源的消耗,使得Tra...
Read MoreStability AI宣布推出Stable Diffusion 3,这是一款类似于OpenAI的Sora的Diffusion Transformer。公司训练了一套模型,参数范围从8亿到80亿,这是从以前的图像生成模型中跨越式的飞跃。这些模型将在经过一段时间的研...
Read More近日,一种名为MetaTree的新型决策树算法在GitHub上公开发布。与传统的决策树算法不同,MetaTree采用Transformer模型进行学习,从而提高了泛化能力。根据开发者的介绍,MetaTree在多个数据集上进行了测试,结果表明...
Read More