漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-02-14 talkingdev

论文:Jakiro利用Mixture of Experts优化Speculative Decoding,提升推理速度

近日,Jakiro团队通过引入Mixture of Experts(MoE)技术,成功优化了Speculative Decoding的性能。该方法通过生成多样化的预测结果,减少了候选预测之间的相关性,从而显著提升了推理速度。Speculative Decoding作...

Read More
2025-02-14 talkingdev

Meta发布MobileLLM:轻量级移动端语言模型新突破

近日,Meta在Hugging Face Hub上发布了其最新研发的MobileLLM模型检查点。这一系列模型专为移动设备优化,尽管体积小巧,但性能强大,能够在资源受限的环境中高效运行。MobileLLM的推出标志着Meta在移动端AI技术领域...

Read More
2025-02-13 talkingdev

Page Assist开源:本地语言模型助力网页浏览

近日,GitHub上发布了一款名为Page Assist的新工具,旨在通过本地语言模型(LLM)提升网页浏览体验。Page Assist作为众多新兴工具之一,专注于利用本地化的语言处理能力,为用户提供更高效、个性化的网页浏览支持。...

Read More
2025-02-13 talkingdev

微软推出Data Formulator:基于语言模型的数据可视化工具

微软近日在GitHub上发布了一款名为Data Formulator的工具,该工具利用语言模型(LLM)帮助用户快速生成图表并回答与数据集相关的问题。Data Formulator通过API密钥与云端模型连接,能够高效处理数据分析和可视化任务...

Read More
2025-02-13 talkingdev

DeepMind突破视觉语言模型预训练规模,1000亿图像助力全球任务性能提升

DeepMind近期在视觉语言模型(VLM)预训练领域取得了重大突破,将训练数据规模提升至前所未有的1000亿张图像。这一规模远超以往尝试,显著提升了模型在多样化全球任务中的表现。尽管在西方中心化任务上的性能已趋于...

Read More
2025-02-13 talkingdev

OpenAI公布GPT-5路线图:GPT-4.5将成最后非链式思维模型

OpenAI近日公布了其GPT系列模型的未来发展路线图,计划在推出GPT-5之前,先发布GPT-4.5作为最后一个非链式思维(non-chain-of-thought)模型。GPT-5将实现o-series与GPT-series模型的统一,标志着OpenAI在大型语言模...

Read More
2025-02-10 talkingdev

论文:使用新方法追踪语言模型特征演化,提升模型解释性与控制能力

近日,一项研究提出了一种创新方法,通过无数据余弦相似度技术追踪稀疏自编码器在大型语言模型(LLM)连续层中发现的特征演化过程。该方法能够映射特征的持久性、转换和涌现,生成跨层特征图。研究表明,这些特征图...

Read More
2025-02-09 talkingdev

三大技术观察:AI与LLM的未来发展趋势

在最新的技术观察中,我们总结了三个关键点,揭示了AI与LLM(大型语言模型)领域的未来发展趋势。首先,LLM的embedding技术正在迅速进步,使得模型能够更好地理解和生成自然语言。其次,agent技术的应用范围不断扩大...

Read More
  1. Prev Page
  2. 10
  3. 11
  4. 12
  5. Next Page