语言模型的相关内容 - 漫话开发者

2025-04-25 talkingdev

重大安全漏洞曝光：HiddenLayer发现影响GPT-4等主流大语言模型的通用提示注入绕过技术

网络安全公司HiddenLayer最新研究揭示了一种影响GPT-4、Claude、Gemini等主流大语言模型(LLM)的通用提示注入绕过技术，该发现暴露了当前LLM安全架构中的重大缺陷。这项被称为'策略木偶提示'(Policy Puppetry Prompt)...

2025-04-25 talkingdev

来自arXiv的最新研究论文提出了一种名为DFloat11的动态长度浮点无损压缩框架，通过创新性地利用LLM权重中BFloat16格式的低熵特性，实现了30%的模型体积缩减，同时保持输出结果与原始模型的比特级一致性。该技术采用...

2025-04-25 talkingdev

惠普AI Studio推出创新技术方案，通过模型蒸馏技术将前沿大语言模型DeepSeek-R1的推理能力压缩至可在本地设备运行的轻量级版本。该技术突破实现了大模型从云端到本地的迁移，用户可通过Ollama框架进行本地推理部署，...

2025-04-25 talkingdev

近日，自然语言处理领域迎来一项重要技术突破——MiniPLM框架正式发布。该框架创新性地提出了一种高效的小型语言模型（SLM）预训练方法，通过从大型语言模型（LLM）中提取知识进行蒸馏训练，显著提升了小模型的性能表...

2025-04-24 talkingdev

人工智能开源社区Hugging Face最新推出了一项创新性的演示项目，通过可视化界面实时展示大型语言模型(LLM)在交互过程中所消耗的能源量。这一技术突破首次将LLM运行时的能耗数据以直观方式呈现，为研究者和开发者提供...

2025-04-23 talkingdev

探讨了MCPs（模型上下文协议）在人工智能领域的应用前景。作者Charlie Graham深入研究了MCPs，构建了实验性的MCP服务器，并分析了其潜力和局限性。文章指出，MCPs有望将LLMs（大型语言模型）转变为能够执行实际任务...

2025-04-23 talkingdev

近日，一项关于大语言模型（LLMs）在实体建模领域应用的研究引发了科技界的广泛关注。该研究探索了如何让LLMs掌握实体建模这一传统上需要专业CAD软件技能的复杂任务。研究者通过创新的训练方法，使LLMs能够理解三维...

2025-04-23 talkingdev

Cohere公司最新推出的Embed 4多模态嵌入模型，代表了企业级AI搜索与检索技术的重大突破。该模型具备三大核心优势：首先，在100多种语言中实现了领先的多模态与多语言处理能力，大幅提升跨语言业务场景的适用性；其次...