谷歌在2024年I/O开发者大会上悄然推出了Gemma系列的新成员Gemma 3n,这一采用自由权重(free weights)设计的轻量化模型引发了AI社区的广泛关注。作为Gemma家族的最新成员,3n版本在模型架构上进行了显著创新,其技...
Read More近日,开发者dipampaul17在GitHub上发布了KVSplit项目,该项目通过差异化精度的KV缓存量化技术,在苹果芯片(M1/M2/M3/M4)上实现了更长上下文的LLM推理。研究发现,LLM推理中的KV缓存中,键(Keys)和值(Values)...
Read More在LlamaCon技术大会上,微软CEO萨提亚·纳德拉与Meta首席执行官共同揭示了人工智能在代码生成领域的重大突破。纳德拉透露,微软目前高达30%的代码由AI自动生成,这一数据标志着软件开发范式正在发生根本性变革。AI特...
Read MoreMeta最新推出的AI应用通过引入Discover信息流功能,为用户提供了与AI互动的社交化分享平台。这一创新设计不仅允许用户公开自己与AI的对话内容,还支持其他用户对这些内容进行评论、点赞甚至二次创作,旨在通过社交互...
Read MorePromptrepo团队推出了一款创新工具,旨在让产品团队(而不仅仅是机器学习工程师)能够轻松进行AI模型的微调。OpenAI首席产品官近期分享了微调技术在从客户支持到深度研究等领域的广泛应用,并称其为严肃AI团队的未来...
Read More来自arXiv的最新研究论文提出了一种名为DFloat11的动态长度浮点无损压缩框架,通过创新性地利用LLM权重中BFloat16格式的低熵特性,实现了30%的模型体积缩减,同时保持输出结果与原始模型的比特级一致性。该技术采用...
Read More惠普AI Studio推出创新技术方案,通过模型蒸馏技术将前沿大语言模型DeepSeek-R1的推理能力压缩至可在本地设备运行的轻量级版本。该技术突破实现了大模型从云端到本地的迁移,用户可通过Ollama框架进行本地推理部署,...
Read MorePrima CPP是llama.cpp的一个扩展项目,旨在通过内存映射(mmaping)技术,使大型模型能够在低内存环境中高效运行。这一技术突破为资源受限的设备部署先进AI模型提供了可能,尤其适用于边缘计算和移动端场景。通过优...
Read More