视觉识别的相关内容 - 漫话开发者

2025-04-25 talkingdev

[开源] Magnitude：基于视觉大模型的Web应用测试框架，开源发布

开发者Anders和Tom近日在Hacker News上宣布推出Magnitude，一个完全开源的、基于视觉大模型（VLM）的端到端Web应用测试框架。该框架旨在解决传统浏览器代理测试工具速度慢、成本高且结果不一致的问题。Magnitude采用...

2025-04-24 talkingdev

马斯克旗下人工智能公司xAI推出的Grok聊天机器人近日迎来重要升级，新增了视觉识别能力。这一功能允许iOS用户上传图片或通过摄像头捕捉画面，随后向Grok提问关于所看到内容的问题。该功能与OpenAI的ChatGPT和谷歌的G...

2025-04-21 talkingdev

Gemini作为谷歌推出的多模态AI模型，其视觉能力一直备受业界关注。最新研究发现，Gemini在图像分割这一计算机视觉核心任务上展现出惊人的易用性。图像分割技术可将数字图像分解为多个具有语义意义的区域，是自动驾驶...

2024-09-19 talkingdev

近日，设计师社区发布了3000个免费的SVG图标，专为热门品牌设计。这些图标涵盖了广泛的行业和用途，旨在为设计师、开发者以及品牌营销人员提供灵活的视觉资源。SVG格式的优势在于其可缩放性，使得这些图标在不同尺寸...

2024-04-15 talkingdev

xAI公司近日宣布，其最新旗舰模型Grok-1.5已具备视觉功能，与现有最先进模型相比肩，甚至在某些方面超越。Grok-1.5的推出，标志着xAI在人工智能视觉识别领域迈出了重要一步。该模型利用深度学习技术和大量图像数据进...

2023-09-14 talkingdev

研究人员已经找到一种方法，通过使用名为校正流（Rectified Flow）的技术，加快将文本转化为图像的过程。校正流技术是一种新颖的方法，它可以加速和优化图像的生成过程。这种方法凭借其高效的性能，为文本到图像的快...

2023-09-11 talkingdev

本研究的作者们开发了一种新方法，只需要一张照片，就能准确地确定篮球在3D空间中的位置。这对于体育分析和机器人技术等领域来说，具有重大意义。对于传统的3D定位技术，通常需要多个相机或传感器才能实现精确定位，...

2023-08-08 talkingdev

本研究引入了一种数据集，用于探究AI是否能像人类一样“看”图像。该数据集主要分为三个组别——Must-Act、Must-Abstain和Uncertain——设计用于测试AI在清晰、不清晰或模糊图像上的决策能力。Must-Act组中的图像是明确的...