Type something to search...
小型 LLM 对比:哪款适合你?

小型 LLM 对比:哪款适合你?

OpenAIAnthropicGoogle 都在激烈竞争,致力于推出最智能的大型语言模型 (LLM),从其数十亿参数的高性能模型(分别为 GPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Pro)中可见一斑。

然而,正如我们在之前的小型模型定价比较博客中提到的,许多使用场景并不需要这种高规格、高性能的模型,尤其是当这些模型价格昂贵时。

较小且更具成本效益的模型在各种通用语言任务中表现出色,同时对更多的应用场景和预算更为友好。选择合适的模型时,排行榜具有重要参考意义,但由于排行榜不断变化,并且无法全面覆盖每个模型在特定任务和行业中的表现,因此选择时仍需具体分析。

接下来,我们将探讨 GPT-4o Mini、Claude 3 Haiku 和 Gemini 1.5 Flash 的常见使用场景、模型规格以及价格比较。


GPT-4o Mini

2024 年 7 月发布的 GPT-4o Mini 是 OpenAI 推出的最具成本效益的小型模型,用于取代 GPT-3.5 Turbo,因其性能更高且成本更低。 OpenAI 推荐的使用场景包括需要串联或并行执行多个模型调用的应用程序、大量上下文处理(如整个代码库或对话历史),以及实时客户支持。


Claude 3 Haiku

Claude 3 Haiku 以其卓越的速度、低成本和文本处理能力而闻名。 Anthropic 提到,其文本和图像处理能力可实现用 1 美元处理 400 个最高法院案例或 2500 张图片。Amazon 推荐其用于实时客户支持、翻译、内容审核、优化物流、库存管理以及从非结构化数据中提取信息。


Gemini 1.5 Flash

Gemini 1.5 Flash 提供了高达 100 万令牌的上下文窗口。 正如 Google 所描述,这相当于“1 小时的视频、11 小时的音频、超过 30,000 行代码的代码库,或超过 70 万字的内容。” Google 列出的使用场景包括信息检索、对象识别和推理。该模型可通过 Google AI Studio 或 Google Cloud Vertex AI 获取。


模型规格对比:GPT-4o Mini vs Claude 3 Haiku vs Gemini 1.5 Flash

模型GPT-4o MiniClaude 3 HaikuGemini 1.5 Flash
最大输入 Tokens128,000200,0001,000,000
最大输出 Tokens16,3844,0968,192
参数80亿未知未知
训练数据2023 10月2023 8月2023 11月
语言多语言理解,但未具体说明支持的语言英文,西班牙文,日文等100+
[MMLU]8275.278.9

从性能或规格角度来看,没有明确的赢家,因为每个模型都有其优势和理想的使用场景。然而,一些显著的观察点是,GPT-4o Mini 拥有最高的 MMLU 分数,而 Gemini 1.5 Flash 则以其巨大的上下文窗口脱颖而出。


模型定价对比:GPT-4o Mini vs Claude 3 Haiku vs Gemini 1.5 Flash

这些模型代表了各自家族中最具性价比的选项。 为了确保公平比较,我们将通过其主要的企业级产品来审视每个模型的定价,这些产品提供了额外的安全性和功能。 GPT-4o Mini 使用 Azure 的 OpenAI 服务,Claude 3 Haiku 通过 Amazon Bedrock 提供,而 Gemini 1.5 Flash 则由 Google AI Studio 提供。

以下是这些模型在美国东部地区每 1,000 个 token 的成本对比:

模型1000 input token 价格1000 output token 价格
Gemini 1.5 Flash (Prompts < 128K)$0.000075$0.00030
Gemini 1.5 Flash (Prompts > 128K)$0.000150$0.00060
GPT-4o Mini (Global Deployment)$0.000150$0.00060
GPT-4o Mini (Regional API)$0.000165$0.00066
Claude 3 Haiku$0.000250$0.00125

Claude 3 Haiku 是这三者中最昂贵的模型,其输入 token 的费用比 Gemini 1.5 Flash(128K token 以上的提示)和 GPT-4o Mini(全球部署)高出 66.67%,输出 token 的费用则高出 108.33%。

Gemini 1.5 Flash(128K token 以下的提示)是最便宜的选项,其价格仅为 Gemini 1.5 Flash(128K token 以上的提示)和 GPT-4o Mini(全球部署)的一半。


总结

尽管每个模型都有其优势,并可能更适合某些特定应用,但 Gemini 1.5 Flash 的低价格,再加上支持最多一百万 token 的提示,使其成为以成本为主要考量的使用案例的理想选择。


关于 Mof

MofMofcloud 打造的 AI + FinOps 云降本增效平台,帮助用户打造高效云基础设施。平台提供智能账单、组织架构、标签管理、财务报表等功能。

成为我们的客户,使用 Mof 了解您的云成本,通过自动化和集中化方式掌握云降本增效。

预约演示


联系我们

有云成本管理需求?欢迎随时联系!

公众号

Mofcloud 微信公众号二维码

企业微信客服

Mofcloud 企业微信客服二维码

业务咨询

contact@mofcloud.com

技术社区

mofcloud/issuer

地址

北京市海淀区自主创新大厦 5层

标签 :

推荐阅读