漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-02-07 talkingdev

CapH-单张照片3分钟生成多样化人像

CapHuman是一个框架,可以通过仅一张参考照片生成人物的多种表情和头部姿态。它巧妙地保持了人物的身份特征,让照片生成的多种人像看起来像是来自同一人。CapHuman使用的是神经网络技术,可以从单张照片中提取出关键...

Read More
2024-02-01 talkingdev

MAG-亿级推荐系统图神经网络实现开源

该项目介绍了MAcro Recommendation Graph(MAG)和Macro Graph Neural Networks(MacGNN),这些方法通过将相似的行为模式分组为宏节点来解决图神经网络的计算复杂性,从而显着减少了节点数。MAG和MacGNN能够有效地...

Read More
2024-01-29 talkingdev

论文:3D医学图像分割技术SegMamba

SegMamba是一种专为3D医学图像分割设计的模型,它提供了一种比Transformer架构更高效的替代方案。SegMamba采用全卷积神经网络架构,可以对3D医学图像进行有效的分割,尤其是在肿瘤分割方面表现出色。与传统的医学影...

Read More
2024-01-29 talkingdev

更好的图像相似度度量

图像相似度系统根据两个图像的相似程度给出分数。这项工作通过依赖于合成数据和人类偏好,改进了以前的方法。以往的方法主要是基于像素级别的相似度计算,而本研究使用了更先进的方法,如卷积神经网络,将图像表示为...

Read More
2024-01-26 talkingdev

DiffMoog音频技术开源:结合神经网络的模块化合成器

DiffMoog是一种新的音频技术,它将模块化合成器的多功能性与神经网络的强大结合起来。它可以实现自动化声音匹配和定制声音的创建,使其成为音频合成的有价值的工具。该技术已在GitHub上发布。

Read More
2024-01-24 talkingdev

MM-Interleaved模型开源,可实现图文数据生成

近日,GitHub开源了MM-Interleaved模型,该模型在处理和生成交替的图文数据方面表现出色。MM-Interleaved模型能够根据输入的文本描述生成对应的图像,同时也可以从图像中提取文本。该模型使用了条件生成对抗网络(Co...

Read More
2024-01-24 talkingdev

特斯拉终于发布FSD v12

特斯拉开始推出全自动驾驶Beta v12更新,将车辆控制从显式的C++代码转移到了基于AI的单一神经网络。这一发布标志着该公司实现自动驾驶雄心壮志的重要进展,但是该软件仍被标记为测试版。在软件被小心翼翼地推向选择...

Read More
2024-01-15 talkingdev

斯坦福Monarch-32k检索模型发布,比闭源嵌入式模型表现更佳

Together Compute一直在探索不同的Transformer替代方案。最近,他们发布了一款检索模型,该模型的表现优于许多闭源嵌入式模型,适用于检索任务。该模型命名为Monarch Mixer 32k。它是一个基于深度神经网络的模型,可...

Read More
  1. Prev Page
  2. 7
  3. 8
  4. 9
  5. Next Page