LLM的相关内容 - 漫话开发者

2025-02-06 talkingdev

深入解析推理型LLMs：技术原理与应用前景

随着人工智能技术的快速发展，推理型LLMs（Large Language Models）在自然语言处理领域展现出了巨大的潜力。推理型LLMs不仅能够生成高质量的文本，还具备强大的逻辑推理能力，能够在复杂任务中提供精准的解决方案。...

2025-02-01 talkingdev

近日，一款名为Ratzilla的新型AI技术引起了广泛关注。Ratzilla结合了LLM、agent、embedding、LoRA和RAG等先进技术，展现了在自然语言处理、智能代理和多模态学习领域的强大潜力。该技术通过高效的模型训练和推理机制...

2025-01-31 talkingdev

近日，研究人员通过GitHub仓库公开了一项研究，展示了Chatbot Arena的众包投票系统可以被操纵，从而影响模型排名的可靠性。研究表明，通过战略性操纵技术，某些模型可以在排行榜上被提升或降低排名。这一发现引发了...

2025-01-31 talkingdev

近日，一种名为VIRUS的方法在GitHub上开源，该方法旨在生成对抗性数据，以绕过大型语言模型（LLM）的审核系统，并破坏其安全对齐机制。VIRUS通过精心设计的输入数据，能够有效规避现有的内容过滤和防护措施，从而对L...

2025-01-29 talkingdev

近日，一款名为SmolGPT的轻量级PyTorch实现框架正式发布，旨在帮助开发者从零开始训练小型LLM（Large Language Model）。该框架以其简洁的设计和高效的性能吸引了广泛关注。SmolGPT通过优化模型结构和训练流程，显著...

2025-01-28 talkingdev

本文综述了基础模型的参数高效微调技术，深入探讨了在保持多样化任务性能的同时，如何最小化计算成本的方法。随着基础模型（如LLM）的广泛应用，参数高效微调技术（如LoRA、RAG等）成为研究热点。这些技术通过减少需...

2025-01-28 talkingdev

Qwen团队近日发布了其最新的1M上下文模型，展示了在训练过程中逐步扩展上下文能力的技术进展。该模型不仅性能强劲，还支持本地化运行，显著提升了处理长文本任务的效率。此外，Qwen团队还发布了基于vLLM的推理框架，...

2025-01-27 talkingdev

近日，一款名为ErisForge的Python库在技术社区中引起了广泛关注。该库由一位开发者独立创建，旨在为大型语言模型（LLM）的消融研究提供支持。ErisForge通过简化消融实验的流程，帮助研究人员更高效地分析和理解LLM的...