Llama 3 8B 与 Mistral 7B：小型 LLM 定价考量

尽管大部分注意力都集中在寻找“史上最佳”的大型语言模型上，但小型语言模型提供了一种经济高效的替代方案，并且在特定的用例中同样表现出色。

在开发最佳生成式 AI 模型的竞赛中，拥有数十亿参数的模型（如 GPT-4 和 Claude 3）无疑是最强大的。然而，有时您并不需要这些大型模型的全部功能，而这些模型也伴随着更高的价格。

小型语言模型则提供了更经济实惠的选择，且在许多特定场景中表现更佳。在这些模型中，Llama 3 8B 在排行榜上的表现优于此前广泛采用的首选小型模型 Mistral 7B。

尽管排行榜排名是一个有用的衡量指标，但它并不能全面展现实际情况。考虑其他因素（如训练数据、可用性和定价）同样至关重要。

值得注意的是，Llama 3 8B 和 Mistral 7B 都可以在本地部署，同时也可以通过多个平台（包括 Amazon Bedrock 提供的托管服务）进行访问。

在本次比较中，我们将重点讨论这两款模型在托管服务中的表现。

Llama 3 8B

Llama 3 8B 是 Meta 于 2024 年 4 月发布的拥有 80 亿参数的语言模型。

与上一代 Llama 2 相比，Llama 3 8B 的数据训练集规模扩大了七倍，并更加侧重于代码相关内容。该模型非常适用于各种场景，例如文本摘要与分类、情感分析和语言翻译。

Mistral 7B

Mistral 7B 是一款高效的稠密 Transformer 模型，在性能和成本之间实现了良好的平衡。

该模型于 2023 年 9 月由 Mistral AI 发布，一直是寻求小型且经济实惠语言模型的用户首选。常见的应用场景包括文本摘要与结构化、问答系统以及代码补全。

模型对比：Llama 3 8B 与 Mistral 7B

尽管 Llama 3 8B 在主流排行榜中表现优于 Mistral 7B，但在选择模型时还有其他因素需要考虑，包括：

Token 限制

通过 Amazon Bedrock，两款模型的最大 Token 限制均为 8k。

参数规模

Llama 3 8B 的参数量比 Mistral 7B 多 10 亿。这可能带来更优异的性能和响应质量，但也伴随着一些缺点，例如推理速度较慢和计算资源需求更高。不过，Meta 提供的基准测试显示，Llama 3 8B 的推理速度与 Llama 2 7B 相同，这归功于其新优化的 tokenizer。

训练数据

Llama 3 8B 使用超过 15 万亿个 token 的公共数据训练，知识截止时间为 2023 年 3 月。而 Mistral 7B 的训练数据则未公开，Mistral 的 CEO 表示这是由于行业竞争的激烈性。用户推测其知识截止时间约为 2023 年 2 月。

可用区域

通过 Amazon Bedrock，Llama 3 8B 仅在亚太地区（孟买）提供服务；而 Mistral 7B 覆盖的区域更多，包括亚太地区（悉尼）、欧洲（巴黎和爱尔兰）以及亚太地区（孟买）。

语言支持

Llama 3 8B 支持超过 30 种语言，但在英语领域表现最优。而 Mistral 7B 仅在英语环境中表现出色。

定价对比：Llama 3 8B 与 Mistral 7B

通过 Amazon Bedrock，按需定价标准如下：

模型	价格：输入 token/1000个	价格：输出 token/1000个
Llama 3 8B	$0.0004	$0.0006
Mistral 7B	$0.00015	$0.0002

差异非常显著。Mistral 7B 在输入 tokens 上的成本比 Llama 3 8B 低 62.5%，在输出 tokens 上则低 66.7%。

价格对比示例：Llama 3 8B 与 Mistral 7B

每月处理的文章数： 200,000 篇文章
每篇文章的平均输入 token 数： 1,000 个 token
每篇文章的平均输出 token 数： 500 个 token

Llama 3 8B 价格（Amazon Bedrock）

输入 token： 每千个 token 收费 $0.0004
输出 token： 每千个 token 收费 $0.0006

Llama 3 8B 费用计算

输入费用：

200,000 × 1,000 ÷ 1,000 × 0.0004 = 200,000 × 0.0004 = 80 美元

输出费用：

200,000 × 500 ÷ 1,000 × 0.0006 = 200,000 × 0.0003 = 60 美元

Llama 3 8B 每月总费用：

80 + 60 = 140 美元

Mistral 7B 价格（Amazon Bedrock）

输入 token： 每千个 token 收费 $0.00015
输出 token： 每千个 token 收费 $0.0002

Mistral 7B 费用计算

输入费用：

200,000 × 1,000 ÷ 1,000 × 0.00015 = 200,000 × 0.00015 = 30 美元

输出费用：

200,000 × 500 ÷ 1,000 × 0.0002 = 200,000 × 0.0001 = 20 美元

Mistral 7B 每月总费用：

30 + 20 = 50 美元

费用比较

Llama 3 8B： $140/月
Mistral 7B： $50/月

对于相同的使用场景，Mistral 7B 的成本比 Llama 3 8B 低 64.3%。这一显著的节省来源于 Mistral 7B 的输入和输出 token 价格远低于 Llama 3 8B，使其成为处理大量数据的场景（如文本摘要服务）中更加经济高效的选择。

结论

正如常见的情况一样，性能和价格之间需要找到平衡。Llama 3 8B 在热门排行榜上超越了 Mistral 7B，并且提供了额外的优势，如额外的十亿个参数，同时仍保持较快的推理速度和更广泛的语言支持。然而，Mistral 7B 依然是一个强大且轻量级的模型，以超过 60% 的成本优势提供出色的性能。

想了解如何优化这些模型的云成本？Mofcloud 提供 AI + FinOps 解决方案，帮助您监控和降低 LLM 部署费用。预约演示以获取更多洞察！