近日,一篇关于构建基于大语言模型(LLM)的智能体系统的实践框架引发业内关注。该框架提出以评估为核心的开发方法论(Evaluation-centric Development),为AI智能体的研发提供了系统性指导。文章深入探讨了如何通...
Read MoreLRAGE(Legal RAG Evaluation Toolkit)是一个开源的评估框架,专门用于在法律领域的检索增强生成(RAG)任务中评估大语言模型(LLM)的性能。该工具包集成了多种数据集和评估工具,为研究人员提供了一个全面的平台...
Read MoreAI编程工具开发商Anysphere近日完成9亿美元新一轮融资,由Thrive Capital领投,估值飙升至90亿美元。现有投资者a16z和Accel跟投。该公司旗下产品Cursor作为AI辅助编程工具的代表,正引发行业高度关注。值得注意的是...
Read MoreDefold作为一款轻量级、高性能的跨平台游戏引擎,正逐渐成为全球开发者的新宠。其支持2D和3D游戏开发,并具备一键发布至多平台的能力,包括iOS、Android、HTML5、Windows、macOS和Linux等。Defold采用Lua脚本语言,...
Read More近日,一款名为Lux的全新包管理器在开发者社区中引发了广泛关注。作为专为Lua语言设计的高端工具,Lux旨在为开发者提供更高效、更便捷的依赖管理体验。Lux不仅支持快速的包安装和版本控制,还提供了丰富的命令行工具...
Read MoreRoblox近日宣布开源其生成式AI系统Cube,该系统专注于3D和4D模型的生成。Cube的Beta版本将被集成到Roblox Studio中,并作为Lua API供开发者使用。这一重大技术突破不仅展示了Roblox在生成式AI领域的深厚积累,更预示...
Read MoreDeepEval是一个开源框架,专注于评估和测试大型语言模型系统。它整合了最新的研究成果,通过本地运行的模型来评估模型输出。DeepEval支持通过RAG、微调、LangChain、LlamaIndex等多种方式实现的应用。该框架可帮助开...
Read More近日,GitHub上发布了一个专注于评估蒸馏LLM(Large Language Models)性能的开源项目。该项目提供了两种互补的量化指标,旨在帮助研究人员和开发者更精确地衡量LLM蒸馏的效果。蒸馏技术是一种通过将大型模型的知识...
Read More