漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-07-22 talkingdev

OpenOCR-统一开源的文本检测与识别基准

OpenOCR是一个旨在统一场景文本检测与识别算法的训练和评估基准。它通过提供一系列的评估标准,使得科研人员和工程师们能够在相同的条件下,对他们的算法进行测试与比较。这为文本检测与识别领域的研究提供了一个公...

Read More
2024-05-23 talkingdev

Tarsier:提升LLMs与网页交互的开源工具

Reworkd公司近日发布了一款名为Tarsier的新工具,旨在通过使用括号和ID对网页元素进行视觉标记,增强大语言模型(LLMs)的网页交互任务处理能力。Tarsier利用OCR生成的文本表示,使得没有视觉功能的LLM也能理解网页...

Read More
2024-05-23 talkingdev

MiniCMP-V开源新版本,可在手机上处理视觉任务

近日,MiniCMP-V发布了一个基于Llama 3训练的新版本。这款8B模型在多个任务上表现出色,甚至超越了许多闭源的专有模型。新版本的MiniCMP-V不仅支持30种不同的语言,还在光学字符识别(OCR)和视觉问答(visual quest...

Read More
2024-05-22 talkingdev

DeepSeek-VL:面向现实世界的开源视觉语言模型

DeepSeek-VL 是一个专注于现实世界应用的全新开源视觉语言模型。该模型特别针对多样化的数据进行了优化,包括来自网页截图、图表以及 OCR(光学字符识别)数据的处理。DeepSeek-VL 的设计目标是提高在复杂和多样化数...

Read More
2024-05-09 talkingdev

开源模型DocRes:一站式处理文档图像修复

近期,GitHub上发布了一款名为DocRes的新模型,能够简化文档图像修复的复杂性。该模型旨在处理五个任务:去扭曲、去阴影、美化外观、去模糊以及二值化。所有这些功能都集成在一个系统中,使得用户可以在一个平台上完...

Read More
2024-04-03 talkingdev

工业领域OCR数据集发布,涵盖2600万页高质量PDF文档

近日,一个庞大的工业文档OCR数据集正式发布,该数据集包含了2600万页的高质量PDF文档,总计约180亿个标记。这些文档涵盖了工业领域的广泛内容,包括机械设计、电气工程、自动化控制等多个方面。该数据集的发布,将...

Read More
2024-03-12 talkingdev

互联网档案馆图书数据集开放

互联网档案馆拥有超过2亿个OCR图书页面,可供研究使用。该数据集可用于文本识别、自然语言处理、信息检索等多个领域的研究。研究人员可以使用该数据集进行模型训练、语言建模、数据分析等工作。该数据集的发布将加速...

Read More
2024-02-12 talkingdev

Miracode:Minecraft字体的可读版本现已在GitHub上开源

Miracode是基于Minecraft UI字体的Monocraft字体的可读版本。 这个开源项目具有更好的可读性和更多的字形,可以在开发和设计中使用。 这个开源项目已经在GitHub上发布,供所有人使用。Miracode的发布标志着Minecraft...

Read More
  1. Prev Page
  2. 2
  3. 3
  4. 4
  5. Next Page