漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-02-13 talkingdev

DeepMind突破视觉语言模型预训练规模,1000亿图像助力全球任务性能提升

DeepMind近期在视觉语言模型(VLM)预训练领域取得了重大突破,将训练数据规模提升至前所未有的1000亿张图像。这一规模远超以往尝试,显著提升了模型在多样化全球任务中的表现。尽管在西方中心化任务上的性能已趋于...

Read More
2025-02-13 talkingdev

OpenAI公布GPT-5路线图:GPT-4.5将成最后非链式思维模型

OpenAI近日公布了其GPT系列模型的未来发展路线图,计划在推出GPT-5之前,先发布GPT-4.5作为最后一个非链式思维(non-chain-of-thought)模型。GPT-5将实现o-series与GPT-series模型的统一,标志着OpenAI在大型语言模...

Read More
2025-02-10 talkingdev

论文:使用新方法追踪语言模型特征演化,提升模型解释性与控制能力

近日,一项研究提出了一种创新方法,通过无数据余弦相似度技术追踪稀疏自编码器在大型语言模型(LLM)连续层中发现的特征演化过程。该方法能够映射特征的持久性、转换和涌现,生成跨层特征图。研究表明,这些特征图...

Read More
2025-02-09 talkingdev

三大技术观察:AI与LLM的未来发展趋势

在最新的技术观察中,我们总结了三个关键点,揭示了AI与LLM(大型语言模型)领域的未来发展趋势。首先,LLM的embedding技术正在迅速进步,使得模型能够更好地理解和生成自然语言。其次,agent技术的应用范围不断扩大...

Read More
2025-01-31 talkingdev

Qwen2.5-VL Cookbooks发布:助力多任务视觉语言模型应用

近日,Qwen2.5-VL这一全新的视觉语言模型推出了配套的Cookbooks,详细展示了如何利用该模型完成多种不同的任务。Qwen2.5-VL作为一款先进的视觉语言模型,具备强大的多模态处理能力,能够同时理解图像和文本信息。此...

Read More
2025-01-31 talkingdev

VIRUS方法突破LLM安全防护,开源项目引发关注

近日,一种名为VIRUS的方法在GitHub上开源,该方法旨在生成对抗性数据,以绕过大型语言模型(LLM)的审核系统,并破坏其安全对齐机制。VIRUS通过精心设计的输入数据,能够有效规避现有的内容过滤和防护措施,从而对L...

Read More
2025-01-28 talkingdev

Qwen团队推出1M上下文模型,性能强劲且本地化

Qwen团队近日发布了其最新的1M上下文模型,展示了在训练过程中逐步扩展上下文能力的技术进展。该模型不仅性能强劲,还支持本地化运行,显著提升了处理长文本任务的效率。此外,Qwen团队还发布了基于vLLM的推理框架,...

Read More
2025-01-27 talkingdev

开发者推出ErisForge:专为LLM消融设计的Python库

近日,一款名为ErisForge的Python库在技术社区中引起了广泛关注。该库由一位开发者独立创建,旨在为大型语言模型(LLM)的消融研究提供支持。ErisForge通过简化消融实验的流程,帮助研究人员更高效地分析和理解LLM的...

Read More
  1. Prev Page
  2. 9
  3. 10
  4. 11
  5. Next Page