架构的相关内容 - 漫话开发者

2024-01-30 talkingdev

从零开始构建语言模型的LLM

LLMs from Scratch是学习如何从零开始构建语言模型的一组不完整但有前途的任务。该仓库提供了构建自然语言处理模型所需的基本知识，包括基础数学和机器学习理论，以及一些常见的语言模型架构和实现代码。通过完成这...

2024-01-30 talkingdev

该项目提出了一种新颖的增强Transformer的方法，使用来自不同模态的无关数据，例如使用音频数据来改善图像模型。多模式路径独特地连接了两种不同模态的Transformer，使目标模态能够从另一种模态的优势中受益。

2024-01-29 talkingdev

SegMamba是一种专为3D医学图像分割设计的模型，它提供了一种比Transformer架构更高效的替代方案。SegMamba采用全卷积神经网络架构，可以对3D医学图像进行有效的分割，尤其是在肿瘤分割方面表现出色。与传统的医学影...

2024-01-29 talkingdev

近日，研究人员推出了一种名为SpeechGPT-Gen的新语音合成模型，该模型能够高效地处理语言和声音特性的复杂性。SpeechGPT-Gen是一种基于GPT-2架构的语音合成模型，通过对大量语言数据进行训练，使得模型能够预测下一...

2024-01-26 talkingdev

Adept公司扩大了其Fuyu架构并训练了一个更大的版本，目前是MMMU上排名第三的最佳模型之一。该模型在其他任务中也表现良好（例如，在HumanEval编码基准测试中达到40+）。与其他替代方案相比，扩展此架构的挑战较少，...

2024-01-25 talkingdev

Lumiere是一款使用时空扩散模型进行逼真视频生成的AI视频生成器。它使用的Space-Time U-Net架构可以一次性生成整个视频的时间持续时间。它旨在处理视频中物体的位置以及物体如何移动和变化。Lumiere可以执行文本到视...

2024-01-12 talkingdev

Unsloth是一个轻量化库，可加速语言模型的微调。它现在可以轻松地与TRL在常见的模型架构上配合使用。Unsloth库通过一个简单的API使得模型训练和微调更快速。它可以帮助从训练数据中自动学习、优化和微调模型，使得模...

2024-01-10 talkingdev

研究人员开发出一种人脸视频编辑架构，该架构结合了GAN-NeRF技术用于3D一致性和一种新的稳定器用于平滑的时间相干性。这种方法在编辑视频方面表现出色，通过保持一致的视角和帧之间的无缝转换来实现。