漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-10-27 talkingdev

论文:评估GPT-4V的光学字符识别能力

本文研究了大型多模型GPT-4V在各种光学字符识别(OCR)任务中的表现,包括读取场景和手写文本,理解复杂的文档结构等。

Read More
2023-10-05 talkingdev

现在可以在Bing Chat中使用OpenAI的DALL-E 3 AI图像生成器

微软已将OpenAI的DALL-E 3集成到Bing Chat中,为用户提供了更强大的图像生成功能。DALL-E 3承诺提高了对提示的理解,能生成更有创意和逼真的图像。此外,微软计划将DALL-E技术应用于其他产品中,例如Windows的Paint...

Read More
2023-10-03 talkingdev

Microsof的UniLM团队的Kosmos-2.5:将自然语言处理技术拓展至图像领域

近年来,Microsoft的UniLM团队在自然语言处理领域取得了一些显著的成果。他们最近推出的Kosmos模型套件已经进军图像领域。这次的特定实例是用于从图像读取文本密集的文件,并为该文件生成文本或标记。这与最近Meta为...

Read More
2023-08-03 talkingdev

Meta发布AudioCraft:一站式生成音频需求的代码库

Meta最新发布的AudioCraft,是一款满足所有生成音频需求的一站式代码库,包括音乐、音效和压缩。AudioCraft的出现,改变了过去我们需要使用多个工具和平台才能完成的音频生成任务,现在只需要这个代码库,就能轻松完...

Read More
2023-06-30 talkingdev

MusicGen: 简化音乐生成的一种新方法开源

Audiocraft推出MusicGen,这是一种简化和增强音乐生成的模型。这种单阶段的自回归Transformer模型不需要像之前的方法那样进行自监督语义表示,通过并行预测所有码本,它更高效地生成音乐,从而每秒音频的步骤更少。

Read More
2023-06-16 talkingdev

Easy OCR: 强大的OCR技术开源库

Easy OCR是一个强大的OCR技术开源库,能够从图像或PDF中提取文本。它已经支持了超过80种语言,并采用了一些最先进的方法。 ## Easy OCR的三大核心优势 - 支持超过80种语言,适用于全球各地的使用者。 - 采用最先进...

Read More
2023-06-15 talkingdev

Audiocraft发布PyTorch库,用于音频生成的深度学习研究

Audiocraft是一个PyTorch库,用于音频生成的深度学习研究,其中包含了最先进的可控文本转音乐模型MusicGen的代码。 ### 核心要点: - Audiocraft是一种用于音频生成的PyTorch库。 - Audiocraft包含最新的可控文本...

Read More
2023-06-13 talkingdev

Audiocraft:音频处理的深度学习库

内容摘要: - Audiocraft是一个音频处理和生成的库 - 它由MusicGen驱动,是一种最先进的可控文本到音乐模型 - Audiocraft基于深度学习技术,具有强大的音频处理能力

Read More
  1. Prev Page
  2. 1
  3. 2
  4. 3