漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-05-23 talkingdev

Tarsier:提升LLMs与网页交互的开源工具

Reworkd公司近日发布了一款名为Tarsier的新工具,旨在通过使用括号和ID对网页元素进行视觉标记,增强大语言模型(LLMs)的网页交互任务处理能力。Tarsier利用OCR生成的文本表示,使得没有视觉功能的LLM也能理解网页...

Read More
2024-05-23 talkingdev

MiniCMP-V开源新版本,可在手机上处理视觉任务

近日,MiniCMP-V发布了一个基于Llama 3训练的新版本。这款8B模型在多个任务上表现出色,甚至超越了许多闭源的专有模型。新版本的MiniCMP-V不仅支持30种不同的语言,还在光学字符识别(OCR)和视觉问答(visual quest...

Read More
2024-05-22 talkingdev

CSTA项目开源,提升视频摘要效果

本项目引入了一种新的基于CNN的时空注意力(CSTA)方法,用于改进视频摘要。与传统的注意力机制不同,CSTA通过使用2D CNN来捕捉帧的视觉重要性,从而更好地理解视频中的关系和关键属性。这种方法不仅能够有效提取视...

Read More
2024-05-22 talkingdev

DeepSeek-VL:面向现实世界的开源视觉语言模型

DeepSeek-VL 是一个专注于现实世界应用的全新开源视觉语言模型。该模型特别针对多样化的数据进行了优化,包括来自网页截图、图表以及 OCR(光学字符识别)数据的处理。DeepSeek-VL 的设计目标是提高在复杂和多样化数...

Read More
2024-05-21 talkingdev

PSG-4D全景场景图生成,让AI理解时空世界的技术开源

PSG-4D是一种全新的表示法,帮助AI理解空间和时间的四维世界。这种技术的GitHub Repo已经开源。该技术能够生成4D全景场景图,通过这种场景图,AI不仅能够理解物体的三维空间位置,还能理解物体随时间的变化。这是一...

Read More
2024-05-21 talkingdev

Devon开源:你的AI结对编程程序员

近日,一款名为Devon的开源软件在GitHub Repo上发布。这款软件被设计为一款双人编程工具,可以帮助开发者在编程过程中进行协作。双人编程,也称为配对编程,是一种软件开发技术,其中两个程序员共享一个工作区,一起...

Read More
2024-05-20 talkingdev

pg_timeseries:PostgreSQL开源时间序列扩展

pg_timeseries是一个开源时间序列扩展,专为PostgreSQL数据库设计。它提供了可扩展的基于时间的数据存储和查询功能,可用于存储和处理各种类型的时间数据。该扩展提供了一些重要的功能,如数据插入和查询,时间插值...

Read More
2024-05-20 talkingdev

Model Explorer-开源模型资源管理器让模型调试更便利

谷歌近日发布了一款名为 'Model Explorer' 的模型探索器,该工具可以帮助用户轻松查看并审查自己的模型计算图。这项新的工具对于调试和性能工程来说相当有用。Model Explorer以GitHub Repo形式存在,用户可以方便地...

Read More
  1. Prev Page
  2. 23
  3. 24
  4. 25
  5. Next Page