漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-04-30 talkingdev

AI对冲基金项目开源:基于角色提示的资产预测范式

近期GitHub上出现了一个名为AI Hedge Fund的开源项目,该项目通过现代推理模型探索自动化交易的新路径。与同类尝试相比,其创新性在于采用了基于角色提示(persona based prompting)的技术框架,能够聚合对各类基础资...

Read More
2025-04-29 talkingdev

IBM开源Bamba模型:融合Transformer与SSM优势的新型大语言模型

IBM研究院近日推出开源大语言模型Bamba,该模型创新性地结合了Transformer架构的序列建模能力和状态空间模型(SSM)的推理速度优势。作为IBM Granite系列模型的技术前导,Bamba通过注意力机制与状态空间方程的混合设...

Read More
2025-04-29 talkingdev

[论文推荐]ReLearn:大语言模型高效遗忘学习的数据增强与微调方案

来自arXiv的最新研究论文提出ReLearn框架,通过创新的数据增强和微调技术,解决了大语言模型(LLMs)中的关键挑战——'遗忘学习'(Unlearning)。该技术可精准移除模型训练数据中的特定信息,同时保持整体性能,对数据...

Read More
2025-04-28 talkingdev

DeepSeek发布2025年新一代AI模型R2,引领大语言模型技术革新

DeepSeek公司近日宣布将于2025年正式推出新一代人工智能模型DeepSeek-R2,这一重大进展标志着大语言模型技术进入全新发展阶段。根据官方技术博客透露,R2模型将采用创新的混合架构设计,整合了稀疏专家模型(MoE)与密...

Read More
2025-04-25 talkingdev

重大安全漏洞曝光:HiddenLayer发现影响GPT-4等主流大语言模型的通用提示注入绕过技术

网络安全公司HiddenLayer最新研究揭示了一种影响GPT-4、Claude、Gemini等主流大语言模型(LLM)的通用提示注入绕过技术,该发现暴露了当前LLM安全架构中的重大缺陷。这项被称为'策略木偶提示'(Policy Puppetry Prompt)...

Read More
2025-04-25 talkingdev

HP AI Studio助力本地化部署:将DeepSeek-R1大模型蒸馏至个人设备

惠普AI Studio推出创新技术方案,通过模型蒸馏技术将前沿大语言模型DeepSeek-R1的推理能力压缩至可在本地设备运行的轻量级版本。该技术突破实现了大模型从云端到本地的迁移,用户可通过Ollama框架进行本地推理部署,...

Read More
2025-04-24 talkingdev

Hugging Face推出实时可视化大语言模型能耗演示空间

人工智能开源社区Hugging Face最新推出了一项创新性的演示项目,通过可视化界面实时展示大型语言模型(LLM)在交互过程中所消耗的能源量。这一技术突破首次将LLM运行时的能耗数据以直观方式呈现,为研究者和开发者提供...

Read More
2025-04-23 talkingdev

突破性研究:如何教会大语言模型进行实体建模

近日,一项关于大语言模型(LLMs)在实体建模领域应用的研究引发了科技界的广泛关注。该研究探索了如何让LLMs掌握实体建模这一传统上需要专业CAD软件技能的复杂任务。研究者通过创新的训练方法,使LLMs能够理解三维...

Read More
  1. Prev Page
  2. 10
  3. 11
  4. 12
  5. Next Page