数据集的相关内容 - 漫话开发者

2024-03-15 talkingdev

ViT-CoMer：新神经网络模型增强Vision Transformers的密集预测任务能力

近日，一项名为ViT-CoMer的神经网络模型问世，增强了Vision Transformers（ViT）在密集预测任务中的表现，而无需预训练。这项研究由卡内基梅隆大学的学者领导，他们在GitHub上公开了相关代码和数据集。ViT-CoMer能够...

2024-03-14 talkingdev

据报道，OpenAI计划在进行漏洞测试和设置安全防护措施后，于今年晚些时候公开发布其文本到视频模型Sora。Sora是一种能够将自然语言描述转化为视频的模型，这项技术在影视制作和游戏开发中有着广泛的应用前景。OpenAI...

2024-03-14 talkingdev

这项研究介绍了一种创新的视频生成方法，使用状态空间模型（SSMs）克服了传统的基于注意力扩散模型的内存限制，重点关注线性内存消耗。在UCF101和MineRL Navigate数据集的测试中，SSMs能够创建具有竞争力质量的更长...

2024-03-14 talkingdev

MoAI是一种新型的大型语言和视觉模型，它通过整合专门的计算机视觉任务的辅助视觉信息来增强当前模型。该模型在 GitHub 上发布，旨在改善自然语言处理和计算机视觉任务之间的互动。MoAI使用了一种新的训练方法，可以...

2024-03-12 talkingdev

互联网档案馆拥有超过2亿个OCR图书页面，可供研究使用。该数据集可用于文本识别、自然语言处理、信息检索等多个领域的研究。研究人员可以使用该数据集进行模型训练、语言建模、数据分析等工作。该数据集的发布将加速...

2024-03-07 talkingdev

微软发布了Orca数学问题数据集。该数据集被用于训练一些当前最先进的数学模型，现在可以被社区用于研究。

2024-03-04 talkingdev

Bonito是一种开源模型，旨在将未注释的文本转换为定制的训练数据集，从而增强大型语言模型对专业任务的适应性，而不需要预先存在的注释。

2024-03-04 talkingdev

这个仓库包含了一系列有用的资源，重点是大型语言模型在视频理解领域的应用。这些资源包括论文、代码和数据集，可以帮助研究人员和工程师更好地理解和应用LLMa模型。LLMa模型是一种基于自然语言处理的技术，在视觉和...