计算机视觉的相关内容 - 漫话开发者

2025-05-02 talkingdev

微软OmniParser v2.0：全新截图解析工具性能大提升

微软近日发布了其广受欢迎的截图解析工具OmniParser的重大版本更新——OmniParser v2.0。作为一款领先的视觉信息处理工具，新版本在Screenshot Pro基准测试中表现优异，展现了微软在计算机视觉和自然语言处理领域的技...

2025-05-02 talkingdev

谷歌研究团队近日宣布其医疗对话AI系统AMIE（Articulate Medical Intelligence Explorer）取得重大升级，新增医学影像分析功能。这一突破性进展使AMIE在基于聊天的诊断过程中能够同步解读X光片、CT扫描等医学影像，...

2025-05-01 talkingdev

最新研究表明，人工智能模型已能通过图像中的微小细节实现高精度地理位置识别。这一突破性技术展示了AI在视觉模式识别领域的卓越能力，例如仅凭植被类型、建筑风格或路面纹理等细微特征即可推断拍摄地点，准确率远超...

2025-05-01 talkingdev

卡文迪什实验室开发的SALT（Semi-Automatic Labeling Tool）为LiDAR点云处理领域带来突破性解决方案。该工具通过创新的零样本适应技术，能够在不进行额外训练的情况下，直接适配不同厂商的激光雷达传感器（如Velodyn...

2025-04-30 talkingdev

苏黎世联邦理工学院（ETH）研究人员在GitHub开源了名为'Alias free super resolution'的创新项目，该项目通过算法突破解决了超分辨率技术中长期存在的重建伪影问题。传统超分辨率方法在放大图像时往往会产生锯齿、振...

2025-04-28 talkingdev

华为研究人员在arXiv最新论文中提出了一种创新性的轻量级神经应用控制技术，该技术利用视觉语言模型(VLMs)实现Android设备的应用控制，且仅需极少的额外系统配置。这一突破性进展标志着多模态AI在移动终端交互领域的...

2025-04-28 talkingdev

Meta研究院推出的Pippo项目突破传统三维重建技术限制，开发了一套无需预训练模型的虚拟人体生成系统。该系统仅需输入单张二维人像，即可输出具有高保真细节的多视角3D人体表征，其核心技术可能涉及神经辐射场（NeRF...

2025-04-26 talkingdev

OpenAI最新发布的o3模型展示了其通过照片猜测拍摄地点的惊人能力，这一技术突破仿佛将科幻小说中的场景带入了现实。用户只需上传一张照片，o3便能基于图像中的视觉线索（如建筑风格、植被类型、车牌信息等）进行地理...