漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-07-02 talkingdev

ScreenPipe:用LLM将屏幕转化为动作

最新的技术开发,现在可以通过LLM将您的屏幕转化为一系列的动作。这是一款开源软件,已经在GitHub Repo上发布。它允许用户通过简单的编程语言将屏幕上的动态信息转化为操作,打开了一个全新的交互方式。它提供了新的...

Read More
2024-07-02 talkingdev

改进推理效率的Block Transformer

这个代码库引入了一种新型的Transformer变压器,其KV缓存大小大幅度减少。虽然尚未在大规模上得到证实,但理论上,它可以匹配常规变压器的性能。这意味着,我们现在有了一种新的工具,可以在处理复杂的计算问题时,...

Read More
2024-07-02 talkingdev

UnSAM-无监督SAM自动图像分割技术开源

无监督SAM(UnSAM)是一种新型的全图像分割模型,它消除了对人工注释的需求。UnSAM通过结合自上而下和自下而上的聚类方法,识别视觉场景中的层次结构,采用一种分而治之的方法。在复杂的视觉场景中,这种方法可以更...

Read More
2024-07-02 talkingdev

Web2Code开源-网页代码生成的新流程

研究人员已经开发出一种新的流程,以改进Web2Code指令调谐。这个过程涉及到创建新的网页图像-代码配对,优化现有的网页代码生成数据,创建新的文本问题-回答配对,以及优化现有的网页理解数据。这个新进程的开发,不...

Read More
2024-07-02 talkingdev

ReaLHF开源-提高训练效率

ReaLHF是一个创新的系统,通过在训练过程中动态重新分配参数并优化并行化,提升了人类反馈的强化学习(RLHF)的效率。这一技术的主要特点在于,它可以根据训练的实际需求,灵活调整系统参数和并行化优化策略,从而实...

Read More
2024-07-02 talkingdev

AutoCodeRover-自动化软件改进工具开源

AutoCodeRover是一款新的工具,专门用于自动化软件改进,包括修复漏洞和添加功能。该工具结合了大型语言模型(LLM)和先进的代码搜索技术,以实现优化和提升。通过使用这款工具,开发者可以更有效地进行代码的修改和...

Read More
2024-07-01 talkingdev

Vision Agent开源:助力解决视觉任务

Vision Agent是一个强大的库,旨在帮助您利用代理框架生成代码,以解决您的视觉任务。该库可用于各种需要处理图像和视频的应用场景,包括但不限于计算机视觉、机器学习、人工智能等领域。借助Vision Agent,您可以轻...

Read More
2024-07-01 talkingdev

纽约大学全面开源高性能视觉模型Cambrian-1

纽约大学(NYU)最近推出了一种全面公开、性能卓越的视觉模型Cambrian-1。此模型对文本编码器和数据混合进行了大规模的消融研究。这一技术的开发,将对视觉模型的研发产生深远影响,推动相关技术向前发展。全面开放...

Read More
  1. Prev Page
  2. 14
  3. 15
  4. 16
  5. Next Page