性能的相关内容 - 漫话开发者

2024-06-28 talkingdev

论文：材料科学领域的语言模型

MatText是一套专为评估材料科学中语言模型性能的基准测试工具和数据集。这套工具和数据集的设计目标，是使研究者能够更有效地理解和评估语言模型在材料科学应用中的表现。语言模型在材料科学中的应用，可以帮助科学...

2024-06-28 talkingdev

我们很高兴地宣布，Gemma 2系列的两款新型号——9B和27B现已正式上市。这两款新型号均秉承了Gemma 2系列的一贯优良传统，将先进的技术与优雅的设计完美融合。无论是在性能、可靠性还是易用性方面，Gemma 2的9B和27B都...

2024-06-28 talkingdev

ALPBench是一个专门设计用来对积极学习查询策略进行标准化基准测试的工具。积极学习是一种机器学习技术，其目标是通过选择最有用的数据进行训练，从而提高学习效率。然而，确定哪些数据最有用却是一项具有挑战性的任...

2024-06-28 talkingdev

近日，Meta发布了两款语言模型，旨在将代码编译成汇编语言并能够反编译至LLVM IR。这两款模型在5460亿个高质量数据标记上接受了训练，并进行了进一步的指令调优。Meta的这一创新实现了优化后的汇编性能达到77%，反汇...

2024-06-28 talkingdev

科技巨头们正在将注意力从大型语言模型转移到更有效的小型语言模型（SLMs），苹果和微软引入的模型具有明显较少的参数，但在基准测试中的性能却相当甚至超越了大型语言模型。OpenAI的CEO建议，我们正在超越LLMs的时...

2024-06-27 talkingdev

Moaan InkPalm Plus 是一款奇怪、便宜、小巧，但是功能强大且易于使用的电子阅读器。尽管它的外观和设计可能看起来很奇怪，但它的阅读体验和功能确实使其成为我喜欢的一款阅读器。它采用了一块 6 英寸的 E Ink 触摸...

2024-06-27 talkingdev

这款7b模型在医疗数据上进行了训练，当由医生进行人类偏好评估时，其与GPT-4打成了平手。这表明了医疗领域AI技术的强大进步。这款模型的性能与GPT-4相当，显示出其在理解和解析医疗数据方面的强大能力。这项成就不仅...

2024-06-27 talkingdev

本篇文章分享了两种关键方法，帮助Agent从实验阶段走向真实世界：长期规划和系统级的鲁棒性。这些方法引入了为代理人制定高阶计划的能力，同时允许在剧情中途进行适应，以及采用系统方法智能地协调提供更高精度和性...