近期GitHub上出现了一个名为AI Hedge Fund的开源项目,该项目通过现代推理模型探索自动化交易的新路径。与同类尝试相比,其创新性在于采用了基于角色提示(persona based prompting)的技术框架,能够聚合对各类基础资...
Read MoreIBM研究院近日推出开源大语言模型Bamba,该模型创新性地结合了Transformer架构的序列建模能力和状态空间模型(SSM)的推理速度优势。作为IBM Granite系列模型的技术前导,Bamba通过注意力机制与状态空间方程的混合设...
Read More来自arXiv的最新研究论文提出ReLearn框架,通过创新的数据增强和微调技术,解决了大语言模型(LLMs)中的关键挑战——'遗忘学习'(Unlearning)。该技术可精准移除模型训练数据中的特定信息,同时保持整体性能,对数据...
Read MoreDeepSeek公司近日宣布将于2025年正式推出新一代人工智能模型DeepSeek-R2,这一重大进展标志着大语言模型技术进入全新发展阶段。根据官方技术博客透露,R2模型将采用创新的混合架构设计,整合了稀疏专家模型(MoE)与密...
Read More网络安全公司HiddenLayer最新研究揭示了一种影响GPT-4、Claude、Gemini等主流大语言模型(LLM)的通用提示注入绕过技术,该发现暴露了当前LLM安全架构中的重大缺陷。这项被称为'策略木偶提示'(Policy Puppetry Prompt)...
Read More惠普AI Studio推出创新技术方案,通过模型蒸馏技术将前沿大语言模型DeepSeek-R1的推理能力压缩至可在本地设备运行的轻量级版本。该技术突破实现了大模型从云端到本地的迁移,用户可通过Ollama框架进行本地推理部署,...
Read More人工智能开源社区Hugging Face最新推出了一项创新性的演示项目,通过可视化界面实时展示大型语言模型(LLM)在交互过程中所消耗的能源量。这一技术突破首次将LLM运行时的能耗数据以直观方式呈现,为研究者和开发者提供...
Read More近日,一项关于大语言模型(LLMs)在实体建模领域应用的研究引发了科技界的广泛关注。该研究探索了如何让LLMs掌握实体建模这一传统上需要专业CAD软件技能的复杂任务。研究者通过创新的训练方法,使LLMs能够理解三维...
Read More