
小型 LLM 对比:哪款适合你?
OpenAI、Anthropic 和 Google 都在激烈竞争,致力于推出最智能的大型语言模型 (LLM),从其数十亿参数的高性能模型(分别为 GPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Pro)中可见一斑。
然而,正如我们在之前的小型模型定价比较博客中提到的,许多使用场景并不需要这种高规格、高性能的模型,尤其是当这些模型价格昂贵时。
较小且更具成本效益的模型在各种通用语言任务中表现出色,同时对更多的应用场景和预算更为友好。选择合适的模型时,排行榜具有重要参考意义,但由于排行榜不断变化,并且无法全面覆盖每个模型在特定任务和行业中的表现,因此选择时仍需具体分析。
接下来,我们将探讨 GPT-4o Mini、Claude 3 Haiku 和 Gemini 1.5 Flash 的常见使用场景、模型规格以及价格比较。
GPT-4o Mini
2024 年 7 月发布的 GPT-4o Mini 是 OpenAI 推出的最具成本效益的小型模型,用于取代 GPT-3.5 Turbo,因其性能更高且成本更低。 OpenAI 推荐的使用场景包括需要串联或并行执行多个模型调用的应用程序、大量上下文处理(如整个代码库或对话历史),以及实时客户支持。
Claude 3 Haiku
Claude 3 Haiku 以其卓越的速度、低成本和文本处理能力而闻名。 Anthropic 提到,其文本和图像处理能力可实现用 1 美元处理 400 个最高法院案例或 2500 张图片。Amazon 推荐其用于实时客户支持、翻译、内容审核、优化物流、库存管理以及从非结构化数据中提取信息。
Gemini 1.5 Flash
Gemini 1.5 Flash 提供了高达 100 万令牌的上下文窗口。 正如 Google 所描述,这相当于“1 小时的视频、11 小时的音频、超过 30,000 行代码的代码库,或超过 70 万字的内容。” Google 列出的使用场景包括信息检索、对象识别和推理。该模型可通过 Google AI Studio 或 Google Cloud Vertex AI 获取。
模型规格对比:GPT-4o Mini vs Claude 3 Haiku vs Gemini 1.5 Flash
模型 | GPT-4o Mini | Claude 3 Haiku | Gemini 1.5 Flash |
---|---|---|---|
最大输入 Tokens | 128,000 | 200,000 | 1,000,000 |
最大输出 Tokens | 16,384 | 4,096 | 8,192 |
参数 | 80亿 | 未知 | 未知 |
训练数据 | 2023 10月 | 2023 8月 | 2023 11月 |
语言 | 多语言理解,但未具体说明支持的语言 | 英文,西班牙文,日文等 | 100+ |
[MMLU] | 82 | 75.2 | 78.9 |
从性能或规格角度来看,没有明确的赢家,因为每个模型都有其优势和理想的使用场景。然而,一些显著的观察点是,GPT-4o Mini 拥有最高的 MMLU 分数,而 Gemini 1.5 Flash 则以其巨大的上下文窗口脱颖而出。
模型定价对比:GPT-4o Mini vs Claude 3 Haiku vs Gemini 1.5 Flash
这些模型代表了各自家族中最具性价比的选项。 为了确保公平比较,我们将通过其主要的企业级产品来审视每个模型的定价,这些产品提供了额外的安全性和功能。 GPT-4o Mini 使用 Azure 的 OpenAI 服务,Claude 3 Haiku 通过 Amazon Bedrock 提供,而 Gemini 1.5 Flash 则由 Google AI Studio 提供。
以下是这些模型在美国东部地区每 1,000 个 token 的成本对比:
模型 | 1000 input token 价格 | 1000 output token 价格 |
---|---|---|
Gemini 1.5 Flash (Prompts < 128K) | $0.000075 | $0.00030 |
Gemini 1.5 Flash (Prompts > 128K) | $0.000150 | $0.00060 |
GPT-4o Mini (Global Deployment) | $0.000150 | $0.00060 |
GPT-4o Mini (Regional API) | $0.000165 | $0.00066 |
Claude 3 Haiku | $0.000250 | $0.00125 |
Claude 3 Haiku 是这三者中最昂贵的模型,其输入 token 的费用比 Gemini 1.5 Flash(128K token 以上的提示)和 GPT-4o Mini(全球部署)高出 66.67%,输出 token 的费用则高出 108.33%。
Gemini 1.5 Flash(128K token 以下的提示)是最便宜的选项,其价格仅为 Gemini 1.5 Flash(128K token 以上的提示)和 GPT-4o Mini(全球部署)的一半。
总结
尽管每个模型都有其优势,并可能更适合某些特定应用,但 Gemini 1.5 Flash 的低价格,再加上支持最多一百万 token 的提示,使其成为以成本为主要考量的使用案例的理想选择。
关于 Mof
Mof 是 Mofcloud 打造的 AI + FinOps 云降本增效平台,帮助用户打造高效云基础设施。平台提供智能账单、组织架构、标签管理、财务报表等功能。
成为我们的客户,使用 Mof 了解您的云成本,通过自动化和集中化方式掌握云降本增效。
联系我们
有云成本管理需求?欢迎随时联系!
公众号
企业微信客服
业务咨询
技术社区
地址
北京市海淀区自主创新大厦 5层