漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-05-14 talkingdev

[开源]UCGM:统一框架实现连续生成模型的训练与采样

加州大学团队在GitHub开源了UCGM项目,为生成式AI领域带来突破性技术框架。该项目创新性地构建了统一架构,可同时支持多步(如扩散模型)和少步(如流模型)连续生成模型的训练与采样流程。通过数学层面的抽象整合,...

Read More
2025-05-14 talkingdev

视觉自回归方法EAR开源:无需量化的连续空间生成技术

近期GitHub开源项目EAR提出了一种突破性的视觉自回归生成方法,通过采用严格适当评分规则(如能量评分)绕过了传统量化步骤,直接在连续数据空间中进行生成。该技术摒弃了传统概率建模的约束,通过数学上严谨的评分...

Read More
2025-05-13 talkingdev

UniVLA-开源通用机器人策略框架,无标注视频学习

OpenDriveLab团队在GitHub开源了UniVLA框架,这项突破性技术通过推断任务中心的潜在动作,实现了从无标注视频中学习跨机器人平台的通用策略。该框架采用先进的视觉-语言-动作联合建模方法,能自适应不同机械结构的机...

Read More
2025-05-12 talkingdev

[开源]FastVLM:苹果发布高效视觉语言模型视觉编码方案,CVPR 2025论文实现

苹果公司近日在GitHub开源了CVPR 2025论文《FastVLM: Efficient Vision Encoding for Vision Language Models》的官方实现代码库。该项目提出了一种高效的视觉编码方法,旨在优化视觉语言模型(VLM)中的视觉信息处...

Read More
2025-05-05 talkingdev

[开源]WebThinker:赋能大语言模型的深度研究框架

中国人民大学自然语言处理实验室推出的WebThinker框架,标志着大语言模型(LRMs)向自主科研领域迈出关键一步。该开源项目通过构建深度研究架构,使LRMs具备三项突破性能力:1)智能化的全网信息检索系统,可自主定...

Read More
2025-05-04 talkingdev

[开源]TScale-基于消费级GPU的分布式训练框架

GitHub开源项目TScale提出了一种创新性的分布式训练解决方案,允许开发者在消费级GPU集群上高效运行大规模模型训练。该项目通过优化通信协议和资源调度算法,显著降低了分布式训练的硬件门槛,使中小型研究团队也能...

Read More
2025-05-03 talkingdev

[开源] QModem 4.51源代码发布:经典调制解调器技术的现代复兴

GitHub上近日发布了QModem 4.51的完整源代码,这一经典调制解调器软件的重新亮相引发了技术社区的广泛关注。该项目由开发者AaronFriel维护,目前已在Hacker News上获得176个点赞和66条评论,显示出开发者社区对复古...

Read More
2025-05-01 talkingdev

SALT开源-跨传感器与场景的半自动标注工具

卡文迪什实验室开发的SALT(Semi-Automatic Labeling Tool)为LiDAR点云处理领域带来突破性解决方案。该工具通过创新的零样本适应技术,能够在不进行额外训练的情况下,直接适配不同厂商的激光雷达传感器(如Velodyn...

Read More
  1. Prev Page
  2. 2
  3. 3
  4. 4
  5. Next Page