漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-09-26 talkingdev

ChatGPT的全新升级:视觉、听觉和语音的全方位提升

ChatGPT正面临一次重大的模式升级,增加了多种新功能。不久的将来,用户将能够与模型进行语音交流,并得到模型的语音回应。此外,用户还可以上传图片并向ChatGPT提问有关图片的问题。这次升级使得ChatGPT在视觉、听...

Read More
2023-09-06 talkingdev

BLoRA开源,同一GPU上批量处理LoRAs

LoRAs是一种小型的参数适配器,通过插入到某些层次来改变底层模型的行为。你可以为基础模型进行批量生成,以提高性能。此外,你还可以对LoRA修改后的模型进行批量处理,并向不同的用户提供具有不同性能的模型。这种...

Read More
2023-09-05 talkingdev

论文:智能学习新系统,不间断地掌握多项任务

本文提出了一种新的系统,该系统可帮助模型在学习新任务的同时,不会忘记旧的任务。这是一种前沿的深度学习技术,主要解决了模型在学习新任务时往往会忘记旧任务的问题,这个问题在AI领域被称为灾难性遗忘。通过这种...

Read More
2023-09-04 talkingdev

多视角扩散的3D生成技术:全局一致性与语义连贯性的新突破

近期,3D生成方法的研究领域又有新进展。这次的新方法,生成出的网格模型在全局上具有一致性,并且在语义上呈现出连贯性。更令人兴奋的是,这项技术还有极大的加速优化空间。通过采用多视角扩散的方法,3D模型生成技...

Read More
2023-08-29 talkingdev

双阶段图模型实现多摄像头物体跟踪

最新研究引入了一种新的图模型,专注于多摄像头多物体跟踪(MC-MOT)的空间和时间问题。与之前的方法不同,该模型首先在不同的摄像头之间连接物体,然后利用该信息进行时间跟踪,使跟踪更加准确,适用于实际场景。这...

Read More
2023-08-25 talkingdev

cheetah:开源的多模态语言模型,用于处理视觉-语言任务

近期的模型常常在处理复杂的视觉-语言任务上遇到困难,这主要是由于它们在理解混合的图像-文本上下文时存在限制。为了评估这些任务,研究人员引入了I4基准。结果显示,视觉提示生成器的注意力存在缺陷。为了解决这个...

Read More
2023-08-25 talkingdev

跨平台多语言包管理器pixi发布

pixi作为一个跨平台多语言包管理器和工作流工具发布。它支持Linux、Windows和macOS上的Python、C++和R语言。pixi提供了类似于Cargo的命令行界面,允许开发者按项目或系统范围安装工具。同时还提供了一个短视频演示。

Read More
2023-08-24 talkingdev

TOPIC开源,多目标跟踪新突破并发布复杂动作数据集BEE23

近日,一群研究者开发出一套名为TOPIC的新系统,能够通过运动和外观线索有效地在视频中跟踪多个对象。TOPIC系统不仅能够处理复杂的运动,而且还可以有效处理对象的外观变化,显著提高了多目标跟踪的准确性和效率。为...

Read More
  1. Prev Page
  2. 5
  3. 6
  4. 7
  5. Next Page