漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-01-09 talkingdev

V*搜索:提高GPT-V验证码识别性能的视觉算法

V*是一种新的基于图像的搜索算法,可以显著提高GPT-V(和其他VLM)验证码识别性能。这项技术的开发者表示,V*可以通过大量的图像数据来训练模型,从而提高模型的精度。V*算法的另一个优点是它可以将不同的图像元素组...

Read More
2023-12-15 talkingdev

Gemini多模态能力初探

Gemini在各种视觉任务中比许多开放模型表现更好。它在相同任务中似乎与GPT-V竞争力十足。

Read More
2023-11-22 talkingdev

tldraw开源:使用GPT-V自动生成网页代码

tldraw最近发布了一款病毒式应用程序,它可以让用户使用类似绘画的界面快速设计软件,然后使用GPT-V为设计生成Web代码。这一功能非常出色,生成的代码健壮可靠,同时还支持自然语言指令。

Read More
2023-11-16 talkingdev

一个开源的GPT-V生成UI的Demo

最近,一位GitHub用户发布了一款基于GPT-V生成UI的Demo。该Demo使用了一款简单易用的手绘界面,可用于创建HTML网站。用户只需在手绘界面中简单勾画出所需的UI元素,GPT-V模型即可自动将其转化成相应的HTML代码。该De...

Read More