漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-12-12 talkingdev

使用预训练文本到图像扩散模型进行视频编辑

RAVE是一种利用现有文本到图像扩散模型来增强视频的视频编辑方法。这种方法可以在保持原始运动和结构的同时实现高质量的视频编辑。

Read More
2023-12-11 talkingdev

MistralMLX文本生成示例

最近,Mistral发布了一个使用MLX生成文本的示例,这是一种基于人工智能的技术,它可以生成高质量的自然语言文本。该示例代码可以在GitHub上找到,它展示了如何使用Mistral的MLX库来生成文本。MLX库是Mistral的核心开...

Read More
2023-12-07 talkingdev

使用扩散模型从单一视角生成3D图像

Zero123++是一个使用扩散原理从单个输入图像生成一致的多视图图像的模型。通过利用预训练的2D模型,Zero123++解决了纹理质量和对齐问题等挑战。

Read More
2023-12-05 talkingdev

万能GPT来袭,美国政府与英特尔启动ScienceGPT训练计划

近日,美国政府与英特尔公司合作启动了一个名为ScienceGPT的训练计划。该计划旨在训练一个万亿参数的GPT模型,以便提高自然语言处理的效率和精度。GPT(Generative Pre-trained Transformer)是一种基于Transformer...

Read More
2023-12-05 talkingdev

SAFE:一种用于模式识别的融合框架开源

SAFE是一种新的模式识别融合框架,它结合了预训练的视觉和语言模型,使用RGB帧、事件流和语义标签进行融合。该框架能够通过各种传感器收集的数据来识别和理解环境中的对象和场景,具有广泛的应用前景。在实现过程中...

Read More
2023-11-30 talkingdev

论文:创新方法增强手语视频隐私保护

DiffSLVA是一种创新的手语视频匿名化方法,可以在保留语言内容的同时进行隐私保护。该技术使用预训练的扩散模型和专门的面部表情模块,克服了以前的限制,不需要精确的姿势估计。

Read More
2023-11-16 talkingdev

论文:MonoDiffusion-无需地面真值的深度估计技术

MonoDiffusion是一种新的自监督单目深度估计框架,其独特的方法将深度估计问题视为迭代去噪过程。它利用预训练的教师模型指导伪地面真值扩散过程,从而提高深度图精度,无需在训练中使用实际的深度真值。

Read More
2023-11-15 talkingdev

论文:保护视觉语言模型的水印方法

在深度学习领域中,视觉语言模型(VLM)越来越受到重视。由于Embedding as a Service Vision-Language Pre-Trained Models(VLPM)中的预训练模型包含了大量的视觉和语言信息,因此这种模型很容易成为恶意攻击的目标...

Read More
  1. Prev Page
  2. 6
  3. 7
  4. 8
  5. Next Page