漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-01-26 talkingdev

TensorDict:让你在PyTorch中更好地使用字典和张量

TensorDict是一个非常实用的小工具,它可以让你在PyTorch中使用字典和张量。使用TensorDict可以提高代码的可读性和可用性,同时保持良好的性能。 TensorDict提供了一种简单的方法来将张量转换为字典,并且可以像字...

Read More
2024-01-26 talkingdev

DiffMoog音频技术开源:结合神经网络的模块化合成器

DiffMoog是一种新的音频技术,它将模块化合成器的多功能性与神经网络的强大结合起来。它可以实现自动化声音匹配和定制声音的创建,使其成为音频合成的有价值的工具。该技术已在GitHub上发布。

Read More
2024-01-26 talkingdev

PPT2DST开源方法提高对话跟踪准确率

该项目提出了一种新的提示池方法,用于对话状态跟踪,无需在测试期间使用任务标识符即可适应新用户要求。

Read More
2024-01-25 talkingdev

开源RPG框架,改进文本到图像生成质量

最近,由阿里达摩院、南京邮电大学、南京大学等机构合作开发的RPG框架在GitHub上开源。该框架采用“Recaption、Plan和Generate”的方法来改进文本到图像生成,将复杂的图像创建任务分解为更简单的任务,从而在处理多个...

Read More
2024-01-25 talkingdev

Nano ColBERT:最新开源检索嵌入模型

ColBERT是用于检索的较好的嵌入模型之一。由于许多人正在构建启用RAG的人工智能应用程序,因此值得探索和使用。这个实现是一个简单和直接的复制,没有性能优化和它们所增加的复杂性。它使用HuggingFace的BERT,但实...

Read More
2024-01-24 talkingdev

MM-Interleaved模型开源,可实现图文数据生成

近日,GitHub开源了MM-Interleaved模型,该模型在处理和生成交替的图文数据方面表现出色。MM-Interleaved模型能够根据输入的文本描述生成对应的图像,同时也可以从图像中提取文本。该模型使用了条件生成对抗网络(Co...

Read More
2024-01-23 talkingdev

提升视觉基础模型性能:ViSFT开源

针对图像-文本训练中使用的视觉基础模型,研究人员提出了一种名为ViSFT的新方法,以提高其性能。ViSFT使用类似于语言模型中的微调的两阶段过程来增强视觉基础模型。首先,该模型使用大规模的无监督预训练来学习图像...

Read More
2024-01-23 talkingdev

HuggingFace开源数据过滤库Datatrove

HuggingFace发布了Datatrove,这是一个用于过滤大型文本数据集的库。它具有许多有用的原语和用于文本过滤的完整并行管道。可在C4中使用Gopher质量过滤器的示例。

Read More
  1. Prev Page
  2. 51
  3. 52
  4. 53
  5. Next Page