漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-07-09 talkingdev

SenseVoice开源:具有多重语音情感理解能力的基础模型

近日,GitHub发布了一款名为SenseVoice的语音基础模型。这款模型拥有多重语音理解能力,包括自动语音识别、口语语言识别、语音情感识别以及音频事件检测。自动语音识别技术可以实现对人类语音的智能理解;口语语言识...

Read More
2024-07-05 talkingdev

SEMamba:一种基于Mamba状态空间模型的语音增强系统

SEMamba是一款全新的语音增强系统,它利用了Mamba状态空间模型来提高语音信号的清晰度。这款语音增强系统的主要目标是通过去噪和清晰的语音信号处理,来提高人们的语音识别和理解。SEMamba系统具有高度的灵活性,能...

Read More
2024-06-26 talkingdev

OpenGlass开源:普通眼镜变身AI智能眼镜

OpenGlass是一款创新的技术项目,其目标是将任何眼镜转变为AI技术驱动的智能眼镜。这款项目的核心理念是利用AI技术,使得传统的眼镜拥有智能眼镜的功能,包括语音识别、图像识别和现实增强等技术。这样,用户无需更...

Read More
2024-06-23 talkingdev

Llama.ttf:一种既是字体又是LLM的创新技术

Llama.ttf是一种新型字体技术,它不仅可以作为字体使用,还能充当LLM(低级语言模型)的一部分。该技术通过将LLM嵌入字体中,使得字体在呈现文本的同时,也能进行机器学习任务。这项技术的研究者表示,Llama.ttf可以...

Read More
2024-06-20 talkingdev

Paramount开源,LLM Agent精度测量技术

近日,知名的开源平台GitHub上的Paramount项目公开了一项新的技术——LLMs(Large Language Models)的Agent精度测量。该技术旨在提升大型语言模型的代理精度,助力开发者更加准确地评估和优化模型性能。据了解,LLMs...

Read More
2024-05-28 talkingdev

Llama 3-V: 用价值500美元和100倍小的模型匹配GPT4-V

近日,计算机科学家们推出了一款名为Llama 3-V的新型人工智能模型,其与GPT4-V性能相当,但模型大小只有GPT4-V的1/100。与GPT4-V的高昂价格相比,Llama 3-V仅需500美元即可获得。这款新型模型可以应用于自然语言处理...

Read More
2024-05-22 talkingdev

苹果发布新无障碍功能,包含眼动追踪技术

苹果公司宣布即将推出一系列利用AI和机器学习的新无障碍功能,其中包括iPad的眼动追踪技术、使用前置摄像头进行iPhone导航、以及通过自定义声音让Siri执行任务的语音快捷方式。其他即将推出的功能还包括音乐触感反馈...

Read More
2024-05-21 talkingdev

SoundHound AI与Perplexity合作,提供精准、最新的网络查询回应

近日,知名的语音识别和自然语言处理技术提供商SoundHound的AI聊天助手宣布将与Perplexity进行合作。Perplexity是一家专注于提供精准、最新的网络查询回应的公司,其技术在搜索引擎、聊天机器人等领域有着广泛应用。...

Read More
  1. Prev Page
  2. 2
  3. 3
  4. 4
  5. Next Page