漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-05-23 talkingdev

MathBench:LLM的数学能力评估新基准

MathBench是一项旨在全面评估大语言模型数学能力的新基准。这一基准的设计初衷是为了填补当前评估工具在数学领域的空白,提供一个更加系统化和科学化的评估方法。MathBench不仅涵盖了基础数学运算,还包括高级数学理...

Read More
2024-05-10 talkingdev

阿里巴巴推出全新大语言模型Qwen2.5

阿里巴巴云已经发布了其最新版的大语言模型 - Tongyi Qianwen Qwen2.5。这一新版本在推理、代码理解以及文本理解等方面相比于Qwen2.0有了显著的改进。Qwen2.5的推出标志着阿里巴巴在人工智能语言模型开发上取得了重...

Read More
2024-02-26 talkingdev

大语言模型中不安全提示的检测方法

GradSafe是一种新的方法,用于检测大型语言模型中的不安全提示,无需进行大量的训练。它通过分析特定参数的梯度,比当前方法更有效地识别不安全的提示。

Read More
2024-02-23 talkingdev

ChartX:测试多模态语言模型理解视觉数据的可视化工具

近日,一种名为ChartX的新工具发布在GitHub上,用于测试多模态大语言模型(MLLM)在解释和推理可视化图表方面的能力。ChartX通过评估模型对图表的理解能力来测试其多模态能力,包括语言和视觉。该工具可以评估多种不...

Read More
2024-02-15 talkingdev

论文:大语言模型的隐私保护能力

随着大型语言模型与外部工具的配对越来越多,数据泄露的新风险已经出现。本文介绍了一种系统性的方法来评估这些人工智能系统保护私人信息的能力。 研究人员发现,当前的大型语言模型在保护隐私方面存在一些问题。它...

Read More
2024-02-14 talkingdev

苹果推出MGIE,一款革命性的AI模型,用于基于指令的图像编辑

苹果推出了一款名为MGIE的开源AI模型,用于图像编辑,使用多模态大语言模型来解释文本指令并执行像素级编辑。这种模型可以将人类语言翻译成图像编辑操作,例如“使图像更亮”或“添加红色滤镜”。苹果表示,MGIE的目的是...

Read More
2024-02-08 talkingdev

论文:新工具解决多模态LLM中的幻觉问题

针对多模态大语言模型(MLLM)中的幻觉问题,研究人员开发了MHaluBench,一个新的评估幻觉检测方法的基准。该工具可以帮助研究人员更好地评估语言模型的幻觉能力,从而有效提高模型的质量和准确性。目前,该工具已经...

Read More
2023-08-28 talkingdev

微软开源DeepSpeed训练长文本模型

DeepSpeed是微软推出的一个库,可以用来扩大语言模型的预训练。虽然使用起来有些复杂,但它提供了强大的抽象功能。微软最近添加了序列并行性,可以训练具有更长上下文长度的模型。这并不是一个新的突破,而是对开源...

Read More
  1. Prev Page
  2. 1
  3. 2
  4. 3
  5. Next Page