本研究介绍了LLM4SGG弱监督场景图生成方法,该方法利用大型语言模型的能力,从图像标题中更好地提取和对齐关系,解决了图像标题中捕获详细关系和利用所有可用信息的挑战。
Read More近日,一项名为 Character-LLM 的项目在 GitHub 上推出。该项目通过训练大型语言模型,以贝多芬和凯撒大帝等历史名人为蓝本,通过为它们提供特定的人物资料,从而模拟这些历史人物的语言风格和思想特征。这一技术的...
Read More研究人员正在改进我们与文本到图像模型的交互方式,例如Midjourney和Stable Diffusion,这些模型目前需要复杂的提示才能生成图像。他们引入了“交互式文本到图像”,使人们可以自然地与大型语言模型进行交互,以获得更...
Read More研究人员正在探究数据增强技术对提高大型语言模型(LLMs)数学推理能力的影响。他们通过增强现有数据集中的查询,创建了一个新的数据集AugGSM8K,并开发了一个名为MuggleMath的模型。数据增强技术能有效提升模型的数...
Read More研究人员推出了一种名为FAVOR的新方法,该方法通过在帧级别精细融合音频和视觉细节,使大型语言模型能够理解视频。FAVOR方法的推出,为大型语言模型的视频理解能力提供了新的发展空间。这种新方法通过在帧级别精细融...
Read More研究员们创造了一款名为AucArena的模拟平台,旨在在拍卖环境中测试大型语言模型。这些环境是动态的,需要策略性思考。初步测试显示,如果给出合适的提示,这些模型可以在拍卖中表现出色,表现出诸如预算和长期计划等...
Read More近期的一项研究介绍了一种名为MAGVIT-v2的视频标记化工具,有效地将图像和视频输入转化为大型语言模型(LLM)的标记。使用MAGVIT-v2,LLM在视觉生成任务中的表现超过了扩散模型。视频标记化是一种将视觉内容(如图像...
Read More本文研究了LLMs(大型语言模型)如何像社会中的人们一样协同工作。研究人员制造了具有不同个性的计算机“社会”,并观察他们如何在任务中协作,发现他们有时会像人类一样行为,比如跟随多数人的意见或进行辩论。有些团...
Read More