漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-02-09 talkingdev

Smaug-72B:开源AI模型的新王者

Abacus AI开发的一款名为“Smaug-72B”的新型开源语言模型,源自阿里巴巴集团的Qwen团队开发的“Qwen-72B”,现在领导Hugging Face的自然语言处理排行榜。在各种基准测试中,Smaug-72B胜过了已经成熟的模型,如GPT-3.5和...

Read More
2024-02-02 talkingdev

论文:文本为基础的图像修复技术发布

本文介绍了一个基于场景和手写文本的基准测试和两个数据集。利用原始、损坏和辅助图像,全局结构引导扩散模型(GSDM)利用文本结构有效恢复清晰文本。该技术在识别准确度和图像质量方面显示出显著的改进。

Read More
2024-02-02 talkingdev

Weaver-专注于讲故事的基础模型

Weaver是一系列专门用于讲述故事的模型。最大的模型(34B参数)在故事讲述基准测试中表现优于GPT-4。

Read More
2024-02-01 talkingdev

谎言、诅咒和基准测试

基准测试是非常有用的工具,但由于其狭窄的范围、过度拟合、污染、可重复性问题和缺乏范围,它们并不是真实世界实用性的最佳指标。

Read More
2024-01-30 talkingdev

RAG:探索ColBERT和RAGatouille

ColBERT是一个出色的模型,用于为RAG应用嵌入查询和索引数据。本文探讨了该方法背后的直觉,并进行了一些基准测试。ColBERT的特点在于,它将查询和文档嵌入到一个共享空间中,从而可以直接在该空间中进行相似性匹配...

Read More
2024-01-29 talkingdev

AgentBoard提升模型评估能力,多轮LLM评估升级

近日,研发团队宣布推出了AgentBoard,一款专为多轮LLM代理设计的基准测试工具。AgentBoard不仅可以评估LLM代理的最终成功率,还提供了分析评估板以进行更详细的模型评估。这款工具可以更全面地评估LLM代理,为LLM代...

Read More
2024-01-26 talkingdev

Fuyu-Heavy多模型表现超越Gemini Pro

Adept公司扩大了其Fuyu架构并训练了一个更大的版本,目前是MMMU上排名第三的最佳模型之一。该模型在其他任务中也表现良好(例如,在HumanEval编码基准测试中达到40+)。与其他替代方案相比,扩展此架构的挑战较少,...

Read More
2024-01-25 talkingdev

论文:MMCbench新基准测试大型多模型

这篇技术报告介绍了MMCBench,这是一个新的基准测试,旨在测试各种任务如文本到图像和语音到文本等情况下大型多模型(LMMs)的一致性和可靠性。该测试涵盖了超过100个流行模型,旨在提高读者对这些AI系统在现实世界...

Read More
  1. Prev Page
  2. 12
  3. 13
  4. 14
  5. Next Page