漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-10-26 talkingdev

论文:Adobe Research推出结构化文档检索工具,解决PDF文档检索难题

Adobe Research推出了一款工具,可以通过结构或文本条件来检索结构化文本文档,这项技术在文档为PDF格式时变得更加困难。此外,Adobe Research还发布了一个基准数据集供进一步研究使用。

Read More
2023-10-25 talkingdev

使用SAM模型进行3D医学影像分割

SAM-Med3D是Segment Anything Model(SAM)的升级版,专门针对3D医学影像进行了优化。虽然原始的SAM在处理3D医学影像时存在困难,但是经过对超过131K个3D掩模的广泛数据集进行训练的SAM-Med3D在捕捉3D空间细节方面使...

Read More
2023-10-24 talkingdev

评估LLMs在多轮对话中的聊天能力

本研究评估了大型语言模型(LLMs)在进行类似于人类的多轮对话时的能力。研究人员使用了一种名为Persona-Chat的数据集,该数据集包含有关对话参与者偏好和兴趣的信息。研究结果表明,LLMs在某些方面表现出了与人类类...

Read More
2023-10-24 talkingdev

新的方法提高目标定位精度

弱监督目标定位通过仅使用简单的图片标签来查找物体。新的背景激活抑制(BAS)方法通过专注于图片的重要部分并忽略其余部分来实现更好的效果,在多个数据集上展现了惊人的结果。

Read More
2023-10-24 talkingdev

自动化生成fine-tune.jsonl文件

调整语言模型需要按特定格式创建训练数据。这通常是令人沮丧和缓慢的过程。本文探讨了自动化该过程的简单方法。 深度学习模型的表现受到其训练数据的质量的影响。因此,对于特定任务,调整语言模型的能力非常重要。...

Read More
2023-10-17 talkingdev

Libgen转换为txt的文本数据集开源

Libgen是许多封闭模型中的数据集。虽然这个数据集的商业使用合法性存在争议,但研究人员仍在使用它来更好地了解语言模型训练数据质量。这个开源的GitHub代码库旨在将Libgen转换为txt文本文档的形式,以便更方便地进...

Read More
2023-10-17 talkingdev

TabLiB 800B发布,推动大规模数据模型发展

近日,TabLiB 800B发布,这是目前最大的公开表格数据集,包括了6.27亿张表格和8670亿个上下文信息的令牌。这个数据集的发布旨在鼓励社区构建更好地理解表格数据的大型数据模型。此外,该数据集还包含了来自不同领域...

Read More
2023-10-11 talkingdev

论文:提升大型语言模型(LLMs)的数学推理能力

研究人员正在探究数据增强技术对提高大型语言模型(LLMs)数学推理能力的影响。他们通过增强现有数据集中的查询,创建了一个新的数据集AugGSM8K,并开发了一个名为MuggleMath的模型。数据增强技术能有效提升模型的数...

Read More
  1. Prev Page
  2. 21
  3. 22
  4. 23
  5. Next Page