MoAI是一种新型的大型语言和视觉模型,它通过整合专门的计算机视觉任务的辅助视觉信息来增强当前模型。该模型在 GitHub 上发布,旨在改善自然语言处理和计算机视觉任务之间的互动。MoAI使用了一种新的训练方法,可以...
Read More互联网档案馆拥有超过2亿个OCR图书页面,可供研究使用。该数据集可用于文本识别、自然语言处理、信息检索等多个领域的研究。研究人员可以使用该数据集进行模型训练、语言建模、数据分析等工作。该数据集的发布将加速...
Read MoreBonito是一种开源模型,旨在将未注释的文本转换为定制的训练数据集,从而增强大型语言模型对专业任务的适应性,而不需要预先存在的注释。
Read More这个仓库包含了一系列有用的资源,重点是大型语言模型在视频理解领域的应用。这些资源包括论文、代码和数据集,可以帮助研究人员和工程师更好地理解和应用LLMa模型。LLMa模型是一种基于自然语言处理的技术,在视觉和...
Read More本研究致力于提高基于多模态的GPT-4V等模型在低级视觉感知任务中的表现。大规模实验从58,000名人类受试者中收集了18,973张图像的反馈,并创建了Q-Pathway数据集,以分析其清晰度、色彩和亮度。
Read MoreFlowMDM是一种新的模型,用于从文本描述生成长时间连续的人体运动序列。这种首创的扩散模型使用混合位置编码进行逼真的运动创建,无需额外的去噪步骤,在关键数据集上表现出卓越的准确性和逼真度。
Read More由数据质量研究专家创立的 DatalogyAI 公司最近获得了1100万美元的融资。该公司旨在让数据集的可扩展筛选变得更加简单。
Read More