漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-07-27 talkingdev

SemanticGrep-基于Word2Vec的文本搜索工具

一个名为Semantic Grep的新工具可以让用户更轻松地搜索和查找文本数据。该工具基于Word2Vec算法,可以查找与搜索短语相关的单词和短语,从而提供更准确的搜索结果。它可以用于多种用途,例如搜索代码、文档、论文等...

Read More
2024-07-24 talkingdev

MINT-1T-拥有万亿令牌的多模态数据集

研究人员宣布了一个新的数据集,其中包含了一个拥有1万亿令牌的多模态数据集。该数据集包括图像、音频和文本数据,并可用于训练人工智能算法。通过使用这个数据集,研究人员可以更好地理解人类语言和视觉系统的工作...

Read More
2024-07-02 talkingdev

论文:以10亿人格特征来创建合成数据的新方法

近期,一项新的研究将网络文本视为来自某种“人格”,并以此作为条件,显著提高了下游任务的性能。研究人员发现,在数学领域,这种方法使性能提升了20个百分点。这项研究的方法是通过大规模网络文本数据,创造出约10亿...

Read More
2024-06-04 talkingdev

FineWeb:高质量网络规模文本数据集发布

训练语言模型需要数万亿高质量的标记数据。关于这些数据集构建的信息大多未公开。然而,FineWeb团队在一篇精彩的博文中讨论了不同的数据集清理和过滤策略。文章的作者们发布了许多顶级的数据集,用于语言模型训练。...

Read More
2024-05-22 talkingdev

论文:基于LLMs的文本分类智能专家系统

智能专家系统是一种利用大型语言模型(LLMs)进行文本分类的新方法。该系统通过减少对广泛的预处理和领域专业知识的需求,大大简化了文本分类过程。LLMs具备强大的自然语言处理能力,能够更高效地理解和分类复杂的文...

Read More
2024-05-01 talkingdev

Phospho:开源的LLM应用文本数据分析平台

最近,GitHub仓库上新增了一款名为Phospho的文本分析平台。这款平台主要针对LLM应用进行文本分析,提供了一种全新的处理文本数据的方法。Phospho可以帮助开发者处理大量的文本数据,提取有用的信息,并进行深度分析...

Read More
2024-03-20 talkingdev

苹果公司发布全新“MM1”人工智能模型细节

苹果公司近期公布了其新型人工智能模型“MM1”的详细信息。这一模型在训练大型语言模型方面采用了一种创新方法,能够无缝整合文本和视觉信息。这种整合方式有望提升AI模型在理解和处理复杂信息方面的能力,特别是在处...

Read More
2024-03-14 talkingdev

OpenAI计划今年发布文本到视频模型Sora

据报道,OpenAI计划在进行漏洞测试和设置安全防护措施后,于今年晚些时候公开发布其文本到视频模型Sora。Sora是一种能够将自然语言描述转化为视频的模型,这项技术在影视制作和游戏开发中有着广泛的应用前景。OpenAI...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page