漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-07-18 talkingdev

LiDAR语义分割:SFPNet新方法实现跨技术通用

SFPNet是一种新方法,旨在实现对不同类型的LiDAR技术的泛化。该方法采用稀疏焦点调制技术,而非传统的窗口注意力机制,从而实现了对多级上下文的提取和动态聚合。这一全新的处理方式,使得SFPNet在LiDAR语义分割领域...

Read More
2024-07-11 talkingdev

FlashAttention-3: 异步和低精度实现快速准确的注意力机制

近日,由香港中文大学、清华大学等机构的研究人员提出了一种新的注意力机制模型——FlashAttention-3。相较于传统的注意力机制,FlashAttention-3 实现了异步和低精度计算,从而实现了在保证准确度的同时,大幅提高了...

Read More
2024-06-26 talkingdev

FreeTraj-无需训练自由控制视频生成轨迹

FreeTraj是一种使用扩散模型控制视频生成中的运动轨迹的无需调整的方法。它修改了噪声采样和注意力机制,以指导生成的内容。通过这种方法,用户可以直接操控视频生成的过程,以实现特定的动态效果。FreeTraj的核心优...

Read More
2024-06-19 talkingdev

论文:内容感知混合的超分辨率技术—CAMixerSR

CAMixerSR是一种先进的图像超分辨率处理技术,通过灵活运用卷积处理简单部分和变形窗口注意力处理详细纹理实现。在处理图像的简单部分时,CAMixerSR利用卷积方法,依靠局部像素的平均或加权平均来优化图像。而在处理...

Read More
2024-05-28 talkingdev

Llama 3-V: 用价值500美元和100倍小的模型匹配GPT4-V

近日,计算机科学家们推出了一款名为Llama 3-V的新型人工智能模型,其与GPT4-V性能相当,但模型大小只有GPT4-V的1/100。与GPT4-V的高昂价格相比,Llama 3-V仅需500美元即可获得。这款新型模型可以应用于自然语言处理...

Read More
2024-05-22 talkingdev

CSTA项目开源,提升视频摘要效果

本项目引入了一种新的基于CNN的时空注意力(CSTA)方法,用于改进视频摘要。与传统的注意力机制不同,CSTA通过使用2D CNN来捕捉帧的视觉重要性,从而更好地理解视频中的关系和关键属性。这种方法不仅能够有效提取视...

Read More
2024-04-15 talkingdev

直接从文本生成360度全景图像开源

最近,一个名为PanFusion的项目引起了业界的广泛关注。该项目采用了一种双分支扩散模型,可以直接从文本提示生成360度全景图像。该方法结合了稳定的扩散技术和专门的全景分支,并通过独特的交叉注意力机制来减少图像...

Read More
2024-04-05 talkingdev

论文:LASP技术革新,高效管理语言模型中的长序列数据

Linear Attention Sequence Parallel(LASP)是一套新型策略,专为高效处理语言模型中的长序列而设计。该技术通过创新性地运用线性注意力机制,超越了传统方法,实现了对长序列数据的优化管理。LASP的核心优势在于其...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page