上下文的相关内容 - 漫话开发者

2024-03-05 talkingdev

AI领域再次掀起高潮，Anthropic公司的Claude 3声称具有“接近人类”能力

Anthropic的Claude 3似乎在一系列认知任务上树立了新的行业标准。该公司声称，在某些情况下，它接近于“人类水平”的能力。Claude 3有三个模型：Claude 3 Haiku，Claude 3 Sonnet（为Claude.ai聊天机器人提供动力）和C...

2024-03-01 talkingdev

Big Code项目发布了旗舰编码模型的另一个版本StarCoder v2。该模型具有16k上下文窗口，经过4T令牌的训练，性能强劲，但仍然低于DeepSeek编码器。StarCoder v2将在程序员社区和人工智能研究领域引起轰动，标志着Big C...

2024-03-01 talkingdev

Dual Chunk Attention（DCA）扩展了大型语言模型（如Llama2 70B）的能力，使它们能够处理超过100k个令牌而无需额外的训练。它将注意力计算分解成块，增强了模型对短期和长期上下文的理解。

2024-02-27 talkingdev

Mistral AI推出了一款名为Mistral Large的新型语言大模型，以与GPT-4和Claude 2等顶级模型竞争。该公司还推出了一项名为Le Chat的新服务，以与ChatGPT竞争。通过该公司的API，访问Mistral Large的成本为每百万输入令...

2024-02-22 talkingdev

近期，AI领域的重大进展，特别是谷歌的Gemini提供了超过一百万标记的上下文窗口，以及Groq的硬件使得GPT-3.5模型的响应几乎是即时的，这标志着AI应用迈入了实践时代，同时也凸显了领袖们理解和适应快速演变的AI应用...

2024-02-22 talkingdev

Gemini Pro 1.5是Gemini系列的一次巨大升级。该模型具有100万令牌上下文大小，远大于Claude 2.1的20万和gpt-4-turbo的12.8万令牌上下文大小。虽然该模型仍然可能漏掉一些东西并产生错误细节，但它能够处理并提取短视...

2024-02-20 talkingdev

谷歌发布了一款新的 MoE 模型，命名为 Gemini 1.5 Pro，它的性能可以与 Gemini 1.0 Ultra 媲美。同时，它支持上下文1百万令牌，并且相比较于 Gemini 1.0 Ultra，使用更少的计算资源，因为它更小巧。这个模型是本地多...

2024-02-20 talkingdev

最近，这位Reddit用户将两个复杂的代码库放入了GPT-4-Turbo-128K和Gemini 1.5中，并向它们提出了问题。代码库实现了一个并行的inet运行时，因此涉及一些难以处理的编译器内容。在理解代码库的任务中，Gemini 1.5完全...