数据集的相关内容 - 漫话开发者

2025-04-04 talkingdev

[论文推荐]CLIP模型存在后门攻击漏洞：仅需少量数据即可实现近100%攻击成功率

最新研究发现，当前广泛应用的CLIP（Contrastive Language-Image Pretraining）多模态模型存在严重的安全隐患。根据arXiv最新论文披露，攻击者通过数据投毒（poisoning）方式植入后门，仅需污染0.5%的训练数据即可实...

2025-04-03 talkingdev

加州大学圣克鲁兹分校视觉、语言与行为实验室（VLAA）在GitHub开源了MedReason项目，这是一个专为提升大语言模型（LLM）医疗推理能力构建的大规模数据集。该数据集通过结构化临床案例、医学知识图谱和多模态数据，旨...

2025-04-03 talkingdev

近期发表在arXiv上的研究论文提出了一种名为CellVTA的创新方法，该方法通过引入基于CNN的适配器模块，将高分辨率空间特征注入到基于视觉Transformer的模型中，显著提升了细胞实例分割的精度。这一技术突破在多个基准...

2025-04-02 talkingdev

UniOcc是一个专为自动驾驶场景设计的统一框架，专注于交通流预测和运动轨迹预报。该框架的创新性在于支持多数据集联合训练，并能进行真实环境与合成场景的跨域评估，为自动驾驶系统的决策规划提供更可靠的预测能力。...

2025-04-02 talkingdev

腾讯ARC实验室最新发布的SEED-Bench-R1基准测试，为多模态大语言模型（MLLM）在复杂视频任务中的表现提供了系统评估框架。该研究重点关注强化学习（RL）和监督微调（SFT）等后训练方法，揭示了RL在视觉感知任务和数...

2025-04-01 talkingdev

近日，一项名为TIDE的创新技术在水下场景理解领域取得重要进展。该技术通过文本到图像转换和密集标注生成方法，能够创建具有一致像素级标签的高质量合成数据集。这一突破性技术解决了水下场景数据获取难、标注成本高...

2025-04-01 talkingdev

Video-R1项目提出了一种创新的基于规则的强化学习（RL）方法，专门用于视频推理任务。该方法采用了GRPO（Generalized Reinforcement Learning with Policy Optimization）的时间变体，并引入了新的数据集来支持训练...

2025-03-31 talkingdev

GitHub热门项目Awesome Vision-to-Music Generation系统性地整理了视觉到音乐（V2M）生成领域的前沿进展，涵盖学术研究突破与工业级应用方案。该项目持续更新的资源库整合了三大核心要素：1）基于深度学习的跨模态生...