漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-06-20 talkingdev

Logit Prisms:分解Transformer输出以提高解释性

Logit Lens方法已经得到了增强,该方法通过分解logit输出,帮助我们理解Transformer模型的决策过程。这种方法使用“prisms”来处理残差流,注意力层和MLP层,揭示了这些部分如何影响预测,并为gemma-2b模型执行的诸如...

Read More
2024-06-20 talkingdev

微软发布全新顶尖视觉模型Florence-2

微软最近发布了一套名为Florence-2的MIT许可的小型视觉语言模型(VLMs)。这套模型在图像标注、边界识别和分类等任务上,表现出色,大大超过了许多体型更大的模型。Florence-2模型的发布,标志着微软在人工智能和机...

Read More
2024-06-19 talkingdev

FireFunction-v2:匹配GPT4-o功能调用基准的开源模型

FireFunction-v2是一个开放模型,它在功能调用基准上与GPT4-o相匹配,这个模型是在Llama 3 70B的基础上训练出来的。这一模型的开发将为AI领域带来新的突破。FireFunction-v2的性能表现优秀,证明了它在处理大规模数...

Read More
2024-06-19 talkingdev

开源本地代理Open Interpreter,无缝控制模型并全程离线运行

近期,开源的本地代理工具Open Interpreter刚刚完成了一次重大升级。据了解,此次升级让这款工具具备了无缝控制计算机的能力,而且可以全程离线、本地运行。这意味着用户无需连接互联网,就可以自由使用这款工具,极...

Read More
2024-06-19 talkingdev

IBM Granite代码开源:开放模型实现深度升级

IBM最近在GitHub上发布了Granite代码模型,这些开放模型具有最先进的代码性能,能够进行深度升级以初始化更大的模型。与许多其他代码模型不同,这些模型还擅长修复代码、解释代码以及评估改进空间。这些模型的开放性...

Read More
2024-06-19 talkingdev

论文:图像的子对象标记化,革新视觉模型理解方式

子对象标记化为视觉模型理解图像开辟了新的途径。不同于将图像划分为固定的方形片段,采用子对象标记化的模型会从有意义的段落,例如物体的部分来观察图像。这种新的视觉模型理解方式,相比传统的划分方案,可能更加...

Read More
2024-06-19 talkingdev

Meta发布Chameleon模型并开源,支持同时操作图像和文本

蜥蜴(Chameleon)是一个早期融合模型,它能同时操作图像和文本标记。其团队几周前发布了这篇论文。现在,他们已经发布了模型检查点以及推理代码。这一模型的发布,标志着图像和文本融合技术的新进展,同时,它的开...

Read More
2024-06-19 talkingdev

多视图图像赋能3D表征学习:Duoduo CLIP模型发布

近日,一款名为Duoduo CLIP的3D表征学习模型引起了业界的广泛关注。与传统的3D表征学习模型不同,Duoduo CLIP采用多视图图像,而非点云数据作为输入。这种独特的设计,使得Duoduo CLIP在3D表征学习的效果上,可能会...

Read More
  1. Prev Page
  2. 22
  3. 23
  4. 24
  5. Next Page