LLMs的相关内容 - 漫话开发者

2024-02-23 talkingdev

GTBench-评估游戏中的LLMs

GTBench是一个用于测试类似GPT-4这样的LLMs在各种游戏场景中发现其在策略推理方面的优势和劣势的平台。虽然这些模型在基于概率的游戏中表现出很大的潜力，但在确定性游戏中表现不佳，并且在设计和训练上表现也有所不...

2024-02-22 talkingdev

近日，开源项目BoCoEL在GitHub上发布。BoCoEL是一个用于准确评估LLMs的工具，采用贝叶斯优化方法，能够从大量的LLMs中找到最佳的架构和超参数组合。BoCoEL可以帮助研究者更快地训练出高效的LLMs，提高模型的准确性和...

2024-02-20 talkingdev

Qwen团队发布了两个新的语言模型，分别是1.8B和72B的LLMs，与Llama 2相似，这些模型训练了3T个标记，并且在许多任务上表现出色。除了发布聊天版本和量化版本外，这些模型还在推理、数学和代码方面表现出色。

2024-02-20 talkingdev

研究人员创建了OpenMathInstruct-1，这是一个用于训练开源大型语言模型数学的新数据集，可与闭源模型的性能相匹配。这一突破包含180万个问题解决对，为更加可访问和有竞争力的数学教学AI工具打开了大门。

2024-02-19 talkingdev

最近，研究人员提出了一种新方法，称为SLEB，可以通过剪枝冗余的变压器块来加速大型语言模型（LLMs）的训练和推理。该方法可以减少存储空间和计算成本，同时保持模型的准确性。SLEB通过自适应的剪枝技术来删除冗余的...

2024-02-15 talkingdev

近日，针对LLMs设计的结构化生成语言SGLang在GitHub上发布。SGLang的设计目的是为了帮助LLMs更加轻松地构建结构化的文本生成模型，从而加速生成文本的过程。SGLang采用了类似于HTML的标记语言来描述文本结构，同时支...

2024-02-14 talkingdev

DeepMind和南加州大学的研究人员开发出SELF-DISCOVER框架，该框架显著提高了LLM的推理能力，在类似GPT-4的模型任务中比传统方法提升了32%。这个两阶段的框架使得LLMs能够自主地形成和利用推理结构。这个进步代表了AI...

2024-02-09 talkingdev

一项新研究揭示了多模态大型语言模型（MLLMs）如GPT-4V的一个弱点：它们难以处理特定类型的图像-文本输入，从而导致错误。CorrelationQA是一个基准测试，旨在评估MLLM在图像可能会误导或与文本相矛盾的情况下的表现...