漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-01-16 talkingdev

Surya开源,多语言OCR工具包提供准确的文本检测

排线检测是在图像或PDF中在文本行周围放置一个边界框的过程。Surya是一个非常强大的多语言排线检测模型,并已在GitHub上开源发布。该模型可以识别多种语言,包括中文、英文、法文、德文和印地文等,并且可以在不同的...

Read More
2023-07-19 talkingdev

改善视频深度稳定性的新型工具(GitHub Repo)

最近,一篇新的研究论文介绍了一种名为“神经视频深度稳定器”的新方法,可以在视频中提供一致且准确的深度估计。同时,研究团队还发布了有史以来最大的自然场景视频深度数据集,名为“野生视频深度”。通过这种新的方法...

Read More
2023-05-03 talkingdev

利用单一样本生成自然3D场景

近日,一项新的技术突破,利用2D基于补丁的框架来生成3D场景。该算法设计使得可以创建具有现实结构和外观的多样化高质量的自然场景。 ### 该技术的三大核心要点: - 利用单一样本生成自然3D场景; - 引入算法设计...

Read More