模型开发的相关内容 - 漫话开发者

2024-07-05 talkingdev

论文：UIST新分词方法显著提升点击率预测

UIST是一种创新的方法，通过将密集嵌入转换为用户和项目表示的紧凑、离散的令牌，显著地改善了点击率预测。不同于传统的持续嵌入方法，UIST将嵌入空间离散化，使得模型能够捕捉到更加细粒度的特征。此外，这种离散化...

2024-06-06 talkingdev

研究人员发现了一种方法，可以在无需进行矩阵乘法（MatMul）的情况下，依然保持大型语言模型的强大性能，甚至在参数规模达到数十亿时仍然有效。这一突破性技术有望显著提高计算效率，减少资源消耗，并为未来的AI模型...

2024-05-27 talkingdev

评估语言模型一直以来都是一个复杂的任务，尤其是在大多数评估细节都只存在于大型公司内部的情况下。这篇论文展示了一套可重复且强大的评估标准，为研究人员提供了一个实用的框架。论文中包括了对困惑度评估的详细讨...

2024-05-20 talkingdev

谷歌近日发布了一款名为 'Model Explorer' 的模型探索器，该工具可以帮助用户轻松查看并审查自己的模型计算图。这项新的工具对于调试和性能工程来说相当有用。Model Explorer以GitHub Repo形式存在，用户可以方便地...

2024-05-13 talkingdev

亚马逊近日发布了名为Bedrock Studio的网络平台，这是亚马逊Bedrock生成式人工智能环境中的一个重要组成部分。Bedrock Studio的设计目标是帮助开发者在一站式的环境中进行人工智能模型的实验、调优及部署。亚马逊这...

2024-05-10 talkingdev

阿里巴巴云已经发布了其最新版的大语言模型 - Tongyi Qianwen Qwen2.5。这一新版本在推理、代码理解以及文本理解等方面相比于Qwen2.0有了显著的改进。Qwen2.5的推出标志着阿里巴巴在人工智能语言模型开发上取得了重...

2024-04-10 talkingdev

近日，GitHub上发布了一项新的基准测试工具——化学工作台（Chemistry Bench），旨在评估大型语言模型在处理化学问题方面的能力。该工具与Big-Bench兼容，能够对语言模型的科学素养进行有效衡量。化学工作台通过一系列...

2024-04-03 talkingdev

YC支持的25家创业公司通过培训或微调自有的基础模型，打破了构建AI模型需要巨额资源的传统观念。这些公司在短时间内取得了显著成就，如创造专业音乐和设计新型蛋白质。这些公司利用YC的资金和技术支持，跨越不同领域...