神经网络的相关内容 - 漫话开发者

2025-07-03 talkingdev

[论文推荐]GNN与Transformer结合：新型神经网络架构预测器诞生

研究人员最新提出了一种创新的神经网络架构预测器，该预测器将图神经网络（GNN）与Transformer架构相结合，通过引入兄弟感知令牌混合器（sibling-aware token mixer）和双向图同构前馈网络（bidirectional graph iso...

2025-07-03 talkingdev

最新研究将因果图学习技术成功拓展至回归任务领域，通过创新性地采用对比学习框架优化干预策略，显著提升了图级别回归任务中对混杂变量的处理能力。该技术突破来自arXiv预印本平台的最新论文，其核心价值在于解决了...

2025-06-30 talkingdev

艾伦人工智能研究所（Allen Institute for AI）近日开源了Genesys项目，这是一个基于分布式进化系统的创新框架。该系统利用大型语言模型（LLM）作为智能体，通过遗传编程技术自动探索和发现更优的语言模型架构。这一...

2025-06-27 talkingdev

ExtensityAI团队在GitHub开源了SymbolicAI项目，这是一个基于神经符号系统（Neuro-Symbolic）架构设计的组合式可微分编程库，旨在为大语言模型（LLMs）提供结构化推理能力。该项目通过将符号逻辑与神经网络梯度优化...

2025-06-27 talkingdev

Meta旗下FAIR研究团队在arXiv最新论文中提出重大架构革新，通过名为Dynamic Tanh（DyT）的逐元素操作替代传统归一化层，使Transformer模型在保持性能的同时摆脱了对归一化层的依赖。这种S型曲线模拟技术能够自然复现...

2025-06-03 talkingdev

一项突破性研究通过对比模型在随机数据（无法泛化）和真实文本上的训练表现，开发出区分记忆与泛化的新方法。研究发现，模型会先记忆训练数据直至容量饱和，随后转向学习通用模式。以GPT类Transformer为例，每个参数...

2025-05-29 talkingdev

Goodfire公司最新发布的Paint With Ember工具突破了传统文本提示的局限，允许用户通过绘制简单的像素图像直接操控图像模型的神经激活。该工具采用稀疏自编码器技术，将Stable Diffusion XL-Turbo的内部特征解码为可...

2025-05-23 talkingdev

谷歌最新一期Release Notes播客深度解析了I/O 2025大会的AI技术突破，重点介绍了三大核心创新：1) Gemini 2.5 Pro Deep Think作为下一代多模态AI系统，通过增强的递归神经网络架构实现复杂逻辑推理，其万亿级参数规...