小型 LLM 对比：哪款适合你?

OpenAI、Anthropic 和 Google 都在激烈竞争，致力于推出最智能的大型语言模型 (LLM)，从其数十亿参数的高性能模型（分别为 GPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Pro）中可见一斑。

然而，正如我们在之前的小型模型定价比较博客中提到的，许多使用场景并不需要这种高规格、高性能的模型，尤其是当这些模型价格昂贵时。

较小且更具成本效益的模型在各种通用语言任务中表现出色，同时对更多的应用场景和预算更为友好。选择合适的模型时，排行榜具有重要参考意义，但由于排行榜不断变化，并且无法全面覆盖每个模型在特定任务和行业中的表现，因此选择时仍需具体分析。

接下来，我们将探讨 GPT-4o Mini、Claude 3 Haiku 和 Gemini 1.5 Flash 的常见使用场景、模型规格以及价格比较。

GPT-4o Mini

2024 年 7 月发布的 GPT-4o Mini 是 OpenAI 推出的最具成本效益的小型模型，用于取代 GPT-3.5 Turbo，因其性能更高且成本更低。 OpenAI 推荐的使用场景包括需要串联或并行执行多个模型调用的应用程序、大量上下文处理（如整个代码库或对话历史），以及实时客户支持。

Claude 3 Haiku

Claude 3 Haiku 以其卓越的速度、低成本和文本处理能力而闻名。 Anthropic 提到，其文本和图像处理能力可实现用 1 美元处理 400 个最高法院案例或 2500 张图片。Amazon 推荐其用于实时客户支持、翻译、内容审核、优化物流、库存管理以及从非结构化数据中提取信息。

Gemini 1.5 Flash

Gemini 1.5 Flash 提供了高达 100 万令牌的上下文窗口。正如 Google 所描述，这相当于“1 小时的视频、11 小时的音频、超过 30,000 行代码的代码库，或超过 70 万字的内容。” Google 列出的使用场景包括信息检索、对象识别和推理。该模型可通过 Google AI Studio 或 Google Cloud Vertex AI 获取。

模型规格对比：GPT-4o Mini vs Claude 3 Haiku vs Gemini 1.5 Flash

模型	GPT-4o Mini	Claude 3 Haiku	Gemini 1.5 Flash
最大输入 Tokens	128,000	200,000	1,000,000
最大输出 Tokens	16,384	4,096	8,192
参数	80亿	未知	未知
训练数据	2023 10月	2023 8月	2023 11月
语言	多语言理解，但未具体说明支持的语言	英文，西班牙文，日文等	100+
[MMLU]	82	75.2	78.9

从性能或规格角度来看，没有明确的赢家，因为每个模型都有其优势和理想的使用场景。然而，一些显著的观察点是，GPT-4o Mini 拥有最高的 MMLU 分数，而 Gemini 1.5 Flash 则以其巨大的上下文窗口脱颖而出。

模型定价对比：GPT-4o Mini vs Claude 3 Haiku vs Gemini 1.5 Flash

这些模型代表了各自家族中最具性价比的选项。为了确保公平比较，我们将通过其主要的企业级产品来审视每个模型的定价，这些产品提供了额外的安全性和功能。 GPT-4o Mini 使用 Azure 的 OpenAI 服务，Claude 3 Haiku 通过 Amazon Bedrock 提供，而 Gemini 1.5 Flash 则由 Google AI Studio 提供。

以下是这些模型在美国东部地区每 1,000 个 token 的成本对比：

模型	1000 input token 价格	1000 output token 价格
Gemini 1.5 Flash (Prompts < 128K)	$0.000075	$0.00030
Gemini 1.5 Flash (Prompts > 128K)	$0.000150	$0.00060
GPT-4o Mini (Global Deployment)	$0.000150	$0.00060
GPT-4o Mini (Regional API)	$0.000165	$0.00066
Claude 3 Haiku	$0.000250	$0.00125