漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-02-09 talkingdev

MobileVLM,为移动设备量身打造的先进视觉语言模型

MobileVLM V2是一系列为移动设备量身打造的先进视觉语言模型,通过创新的架构展示了显著的性能提升。新的MobileVLM V2拥有更快的推理速度,更高的准确性和更广泛的应用场景。MobileVLM V2不仅支持图像和文本之间的交...

Read More
2024-02-07 talkingdev

阿里Qwen 1.5多语言模型发布

Qwen 1.5模型发布,参数从0.5B到72B,是一套令人印象深刻的多语言模型。有趣的是,最小的模型是第一个严肃的小于10亿参数的语言模型。

Read More
2024-02-05 talkingdev

开源嵌入模型的新阶段

BGE-M3项目介绍了一种多功能的嵌入模型,其在多功能性(密集、多向量和稀疏检索)、多语言性(支持100多种语言)和多粒度性(处理从短句子到长达8192个标记的文档输入)方面表现优异。它使用混合检索管道,结合不同...

Read More
2024-02-05 talkingdev

Bard推出图像生成服务,支持多语言

Bard宣布推出新的图像生成服务,支持多种语言,包括英语、法语、德语、西班牙语、意大利语和葡萄牙语。该服务可以帮助用户轻松地生成高质量的图像,用户可以选择不同的样式和主题来定制自己的图片。Bard表示,该服务...

Read More
2024-01-16 talkingdev

Surya开源,多语言OCR工具包提供准确的文本检测

排线检测是在图像或PDF中在文本行周围放置一个边界框的过程。Surya是一个非常强大的多语言排线检测模型,并已在GitHub上开源发布。该模型可以识别多种语言,包括中文、英文、法文、德文和印地文等,并且可以在不同的...

Read More
2024-01-10 talkingdev

开源LLM Gateway,实现多语言模型之间的路由

Portkey AI最近开源了LLM Gateway,实现了多个不同语言模型之间的路由。这个开源项目旨在简化在不同的语言模型之间进行选择和路由的过程,从而更好地利用不同模型的优势,提高语言模型的整体性能。 LLM Gateway是一...

Read More
2023-12-22 talkingdev

论文:Diff-Text,无需训练的多语言场景文本生成技术

Diff-Text是一种新的无需训练的框架,可用于创建任何语言的具有文本的逼真图像。它通过使用手绘图像作为先验,增强了稳定扩散模型的多语言能力。

Read More
2023-12-15 talkingdev

Google推出Imagen2,提供文本和标志生成功能

Google推出了Imagen 2,这是一种增强的AI图像模型,可供经批准的Google Cloud Vertex AI用户使用,提供文本渲染,标志以及多语言翻译等新功能。Imagen 2可以通过Google Cloud的AutoML API和Vision API实现。该模型使...

Read More
  1. Prev Page
  2. 3
  3. 4
  4. 5
  5. Next Page