数据集的相关内容 - 漫话开发者

2024-03-26 talkingdev

论文：图像合成中的写实阴影生成技术取得新突破

最近的一项研究提出了一种新的图像合成中写实阴影生成的方法，解决了以往在形状和强度准确性方面的挑战。研究人员通过增强ControlNet的强度调节模块以及扩展DESOBA数据集，显著提高了图像中阴影生成的质量。该技术的...

2024-03-22 talkingdev

PuzzleVQA是一个专为测试大型多模态模型，如GPT-4V的抽象推理能力而设计的数据集。该数据集通过一系列复杂的视觉问题和答案对，评估模型在理解和推理方面的表现。这些问题往往需要模型进行深层次的逻辑思考和抽象概...

2024-03-20 talkingdev

近日，一项名为Poster Dataset Distillation的技术引起了广泛关注。该技术能够将庞大的数据集压缩成一个单一的'海报'，使得人工智能模型能够通过不到一张每个类别的图片进行学习。这一创新方法大幅减少了训练AI模型...

2024-03-20 talkingdev

数据分析和人工智能领域的领先企业Databricks近日宣布，已经完成了对Lilac公司的收购。Lilac是一家专注于无监督语言数据集构建系统的公司，此次收购将进一步加强Databricks在自然语言处理（NLP）领域的技术实力。Lil...

2024-03-19 talkingdev

现代语言模型的一个奇特事实是，在训练模型之前，我们首先训练分词器。另一个奇怪的事实是，在大规模场景下，词汇量大小似乎并不是那么重要。本文将深入探讨这两种现象，分析分词器在模型预训练中的角色和影响，以及...

2024-03-19 talkingdev

React Print是一个专注于构建和生成PDF及打印文档的UI工具包，提供了创建发票、文档和手册等的简单可复用组件和模板。该工具包赋予开发者对其布局的完全控制权，包括边距、页眉、页脚等。此外，React Print还允许开...

2024-03-18 talkingdev

HuggingFace Hub最近发布了一个新的数据集，该数据集包含了从财报电话会议中转录的精选问答对。这个数据集对于研究人员和开发者来说是一个宝贵的资源，因为它提供了实际的业务沟通场景中的自然语言处理样本。这些问...

2024-03-18 talkingdev

本文详细介绍了Lamini公司在AMD GPU上进行大型语言模型训练的技术架构。这包括了他们所使用的调度程序、模型训练技术以及其他相关技术细节。Lamini的技术团队选择了AMD GPU作为硬件加速平台，以优化模型训练的性能和...