漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-01-03 talkingdev

MosaicBERT:针对快速预训练优化的双向编码器

BERT是一种仅有编码器的Transformer。这意味着它通常用于以嵌入形式表示自然语言,而不是用于生成文本。重要的是,它是最早用于搜索的Transformer之一,因为它可以表示查询和要检索的信息。Mosaic团队集成了FlashAtt...

Read More
2023-12-25 talkingdev

UDiffText-提高AI生成图片中的文字质量

UDiffText是一种全新的方法,可以提高AI生成图片中的文字质量。通过使用专门的文本编码器和大型数据集进行微调,UDiffText显著减少拼写错误并提高文字准确性。

Read More
2023-12-20 talkingdev

基于UNet编码器实现更快的扩散模型

最近的一项研究表明,与解码器相比,使用UNet编码器在扩散模型中表现更加稳定。这一发现导致了一种新的编码器传播方案,显著加快了文本到图像和文本到视频生成等任务的速度。该研究成果已在GitHub上发布。

Read More
2023-12-11 talkingdev

MistralMLX文本生成示例

最近,Mistral发布了一个使用MLX生成文本的示例,这是一种基于人工智能的技术,它可以生成高质量的自然语言文本。该示例代码可以在GitHub上找到,它展示了如何使用Mistral的MLX库来生成文本。MLX库是Mistral的核心开...

Read More
2023-12-08 talkingdev

Google Gemini:原生多模态模型,文本能力达到GPT4水平

Google的旗舰机型Gemini是一款原生多模态模型,其文本能力达到了GPT4的水平,同时还能够处理许多其他数据序列。此外,它还训练了Alpha Code 2,这是一个在代码力量比赛中排名前15%的编码器。Alpha Code 2将在12月13...

Read More
2023-12-07 talkingdev

DiffiT:基于扩散的视觉转换器生成高分辨率图像

该项目探索了视觉转换器在基于扩散的生成学习中的有效性,揭示了Diffusion Vision Transformers(DiffiT)。该模型将U形编码器-解码器架构与新型时变自注意模块相结合。DiffiT可以生成高分辨率的图像,具有非常好的...

Read More
2023-12-05 talkingdev

MoMask-文字转动画技术开源,实现细粒度控制

MoMask文字转动画技术是一项新颖的技术,其作者在此领域的基础性工作已有了新的进展。他们采用了新颖的编码方法,使得最终的动画生成具有细粒度控制能力,可以更具创意地生成动画效果。此技术的优点是可以通过更改编...

Read More
2023-11-01 talkingdev

COMM开源,改进多模态LLMs性能

近期,研究人员深入探究了多模态大型语言模型(MLLMs)中使用的视觉编码器,并发现CLIP和DINO模型中的某些特征特别适合于详细的视觉任务。他们随后引入了COMM,一种结合了两种模型优点的策略。COMM能够显著提高LLMs...

Read More
  1. Prev Page
  2. 3
  3. 4
  4. 5
  5. Next Page