X的相关内容 - 漫话开发者

2025-02-28 talkingdev

Meta发布新一代混合现实眼镜Aria gen 2，拓展机器人技术应用

Meta近日发布了其新一代混合现实眼镜Aria gen 2，这款设备以其强大的视觉能力引起了广泛关注。Aria gen 2不仅在虚拟现实和增强现实领域表现出色，还在机器人技术等多个领域展现了广泛的应用潜力。其先进的视觉系统能...

2025-02-27 talkingdev

微软近日发布了两款全新的开源语言模型Phi-4-mini和Phi-4-multimodal，这两款模型在硬件效率和多模态处理方面表现出色。其中，Phi-4-mini拥有38亿参数，专注于文本任务；而Phi-4-multimodal则具备56亿参数，能够处理...

2025-02-27 talkingdev

Allen AI近日宣布，其通过持续微调Qwen VL模型，成功训练出一款强大的PDF文本提取工具——OlmOCR。该模型基于超过20万份PDF文档进行训练，能够高效、精准地提取PDF中的文本内容。OlmOCR的推出标志着PDF文本提取技术的...

2025-02-27 talkingdev

近日，Qwen公司预览了一款全新的推理模型，该模型在数学和代码领域表现出色，取得了显著的成果。Qwen计划将这一模型与其强大的Max模型一同以开放权重的形式发布。这一举措不仅展示了Qwen在人工智能领域的技术实力，...

2025-02-27 talkingdev

ElevenLabs近日宣布推出其自主研发的转录模型Scribe，该模型支持99种语言，并具备高精度转录能力。Scribe不仅提供词级时间戳和说话人分离功能，还能适应真实世界中的各种音频环境。这一技术的推出将极大提升语音转文...

2025-02-27 talkingdev

近日，ForeverVM推出了一项创新技术，允许开发者在持久化的沙盒环境中运行AI生成的代码。这一技术通过创建状态化的沙盒环境，使得代码可以在其中无限期运行，同时保持环境的状态不变。这对于测试和验证AI生成的代码...

2025-02-27 talkingdev

随着Vision Language Models（VLMs）的快速发展，传统的光学字符识别（OCR）技术正面临被取代的可能。VLMs结合了计算机视觉和自然语言处理的能力，能够更准确地理解和解析图像中的文本内容。与OCR相比，VLMs不仅能识...

2025-02-26 talkingdev

Google Cloud近日发布了由Nvidia GB200 NVL72系统驱动的A4X虚拟机实例，该实例配备了72个B200 GPU和36个Grace CPU，专为大规模AI和高并发应用设计。A4X实例的训练效率是前代A3实例的四倍，并且与Google Cloud服务无...