模型部署的相关内容 - 漫话开发者

2025-04-16 talkingdev

[开源]Auto Deploy (GitHub Repo)：NVIDIA推出PyTorch和Hugging Face模型高效部署新方案

NVIDIA在GitHub开源项目TensorRT-LLM中发布了名为Auto Deploy的创新工具，该技术实现了将PyTorch和Hugging Face模型转化为高效可部署格式的重大突破。通过TensorRT-LLM的优化编译器，模型推理速度可提升数倍，特别适...

2025-04-04 talkingdev

机器学习作为人工智能的核心技术之一，近年来在学术界和工业界均取得了显著进展。本文从理论基础出发，系统性地介绍了机器学习的核心概念、算法分类及实际应用场景。监督学习、无监督学习和强化学习三大范式构成了机...

2025-02-26 talkingdev

近日，Character AI在其大规模推理系统中成功减少了KV缓存的使用，并在一个简化版的GPT模型中实现了这一优化。通过这一技术改进，内存使用量减少了40%。这一优化不仅提升了系统的运行效率，还为未来更大规模的AI模型...

2024-12-16 talkingdev

近日，一项新的LLM（大型语言模型）优化技术在人工智能领域引起了广泛关注。这项技术通过在模型架构和训练算法上的创新，实现了对LLM内存消耗的显著降低，从而大幅度减少了模型部署和运行的成本。具体来说，这项技术...

2024-08-11 talkingdev

OpenDevin是一个为AI软件开发者提供通用Agent服务的开放平台，旨在提供一个统一的接口，使得AI软件开发者能够更加方便地使用各种不同类型的AI算法和模型。该平台提供了一系列的工具和接口，包括数据集管理、模型训练...

2024-05-16 talkingdev

Quary是一款开源商业智能工具，可以帮助工程师连接数据库，编写SQL查询以转换、组织和记录数据库中的表，创建图表、仪表板和报告，通过版本控制进行测试、协作和迭代重构，以及将组织良好、记录完整的模型部署回数据...

2024-04-30 talkingdev

近日，一款名为Mistral.rs的LLM推理平台在GitHub上备受关注。它可以支持多种设备上的推理，支持量化，并且具有易于使用的应用程序，带有OpenAI API兼容的HTTP服务器和Python绑定。无论是在深度学习推理、设备兼容性...

2024-03-19 talkingdev

英伟达在其开发者大会上宣布了新一代人工智能芯片及软件。这款名为Blackwell的AI图形处理器预计将于今年晚些时候出货。同时推出的NIM软件旨在简化AI的部署过程。英伟达力求通过NIM软件使得所有模型能够在其所有GPU上...