AI训练的相关内容 - 漫话开发者

2025-05-16 talkingdev

Nous Research推出Psyche网络：利用闲置GPU资源进行分布式AI训练

Nous Research近期推出的Psyche网络是一个基于Solana区块链的分布式训练系统，该系统允许拥有兼容硬件的用户自愿贡献其GPU资源用于AI模型训练。该项目的首个计划"Consilience"旨在利用20万亿个token训练一个拥有400...

2025-05-05 talkingdev

谷歌研究院近日宣布启动一项名为Amplify的全球数据收集计划，通过与各地区本土专家合作，旨在提升人工智能在服务不足地区的适用性。该计划聚焦非主流语言和文化场景下的数据缺口，采用社区共建模式采集高质量标注数...

2025-05-04 talkingdev

GitHub开源项目TScale提出了一种创新性的分布式训练解决方案，允许开发者在消费级GPU集群上高效运行大规模模型训练。该项目通过优化通信协议和资源调度算法，显著降低了分布式训练的硬件门槛，使中小型研究团队也能...

2025-04-17 talkingdev

DeepSeek近期推出的分布式文件系统（DFS）凭借其高性能、高可靠性和可扩展性，成为业界关注的焦点。该系统采用先进的分布式存储架构，支持海量数据的高效管理与快速访问，特别适用于AI训练、大数据分析等场景。DeepS...

2025-04-07 talkingdev

McGill-NLP实验室推出的Nano Aha Moment项目在GitHub开源，该项目通过极简架构实现高性能深度学习训练——仅需单个文件和一块GPU即可完成从零开始的完整参数调优，并复现了DeepSeek R1-Zero模型的训练范式。这一突破性...

2025-04-07 talkingdev

DeepSeek最新研究论文《Inference-Time Scaling for Generalist Reward Modeling》提出了一种创新方法，通过推理时缩放技术优化奖励模型，从而引导更强大的推理模型生成。该技术标志着这家中国初创公司的一项战略布...

2025-03-14 talkingdev

Audio Flamingo 2 是一个基于Qwen架构构建的最新音频理解模型，其独特之处在于几乎完全使用了合成数据进行训练。这一突破性进展不仅提升了模型在音频处理和理解任务中的表现，还展示了合成数据在AI训练中的巨大潜力...

2025-02-26 talkingdev

Google Cloud近日发布了由Nvidia GB200 NVL72系统驱动的A4X虚拟机实例，该实例配备了72个B200 GPU和36个Grace CPU，专为大规模AI和高并发应用设计。A4X实例的训练效率是前代A3实例的四倍，并且与Google Cloud服务无...