漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-07-22 talkingdev

OpenOCR-统一开源的文本检测与识别基准

OpenOCR是一个旨在统一场景文本检测与识别算法的训练和评估基准。它通过提供一系列的评估标准,使得科研人员和工程师们能够在相同的条件下,对他们的算法进行测试与比较。这为文本检测与识别领域的研究提供了一个公...

Read More
2024-03-12 talkingdev

互联网档案馆图书数据集开放

互联网档案馆拥有超过2亿个OCR图书页面,可供研究使用。该数据集可用于文本识别、自然语言处理、信息检索等多个领域的研究。研究人员可以使用该数据集进行模型训练、语言建模、数据分析等工作。该数据集的发布将加速...

Read More
2024-02-26 talkingdev

新技术提高复杂场景下的文本识别能力

近日,研究人员提出了一种新的文本识别方法——类别感知的掩膜引导特征细化(CAM feature refinement),该方法可以有效提高文本在复杂场景下的识别能力。该方法通过对文本图像进行类别感知的特征细化,达到更好的文本...

Read More
2024-01-16 talkingdev

Surya开源,多语言OCR工具包提供准确的文本检测

排线检测是在图像或PDF中在文本行周围放置一个边界框的过程。Surya是一个非常强大的多语言排线检测模型,并已在GitHub上开源发布。该模型可以识别多种语言,包括中文、英文、法文、德文和印地文等,并且可以在不同的...

Read More
2023-10-25 talkingdev

谷歌AI产品泄密:多模态Gemini和革命性应用原型设计功能Stubbs

谷歌将用多模态AI模型Gemini取代PaLM 2,并将其引入Makersuite,提供图像和文本识别功能。该公司还拥有一个名为Stubbs的隐藏工具,使用户可以构建和启动AI生成的应用原型。Makersuite将很快完全支持语言翻译。

Read More