gpt-oss-20b¶
在这篇文章中
信息
gpt-oss-20b 是 OpenAI 推出的一款中型开放权重模型,专为在本地部署或特定用例中实现低延迟高效运行而设计。该模型拥有 200 亿参数,其中活跃参数为 36 亿,使其能够在资源受限的硬件(如配备 16GB 内存的设备)上运行。它支持本地部署,包括在消费级硬件上运行。
gpt-oss-20b 的主要功能¶
- 优化的架构:gpt-oss-20b 模型总参数为 200 亿,仅激活 36 亿参数,在高效利用资源的同时确保高性能。
- 扩展的代理能力:该模型内置了函数调用、网页浏览、Python 代码执行以及生成结构化输出的能力。它在解决任务和调用工具方面表现出色。
- 可调节强度的推理:在功能上,该模型是一个可靠的任务求解器,支持思维链(chain-of-thought)推理等方法。它提供三个可自定义的推理强度级别。
- 性能与兼容性:gpt-oss-20b 模型在常见基准测试中表现出与 OpenAI o3-mini 相当的结果。得益于优化,它可以在配备 16 GB 内存的边缘设备上运行。
- 多语言支持:该模型具备多语言功能。为了获得最佳效果,建议明确指定交互的目标语言和文化背景。
- 数据量化:对 MXFP4 格式的支持确保了模型在资源受限硬件上的高效运行,提升了整体系统性能。
部署功能¶
| ID | 兼容操作系统 | VM | BM | VGPU | GPU | 最小 CPU (核心) | 最小 RAM (Gb) | 最小 HDD/SSD (Gb) | 订购 |
|---|---|---|---|---|---|---|---|---|---|
| 345 | Ubuntu 22.04 GPU | - | - | + | + | 8 | 60 | 15 | ORDER |
构建的技术规格:
- 内核更新至版本 6 的 Ubuntu 22.04;
- 最新的 Nvidia 驱动程序;
- CUDA Toolkit;
- 用于管理模型的 Ollama;
- 用于 Web 界面的 OpenWebUI。
安装特点:
- 安装时间为 25-45 分钟,包括操作系统设置;
- Ollama 服务器在 GPU/RAM 内存中加载并运行 gpt-oss-20b 模型;
- Open WebUI 作为连接到 Ollama 服务器的 Web 应用程序进行部署;
- 用户通过 Open WebUI Web 界面与模型交互,以完成编程和代理任务;
- 所有计算和代码处理均在服务器本地进行;
- 管理员可以使用 OpenWebUI 工具配置模型以执行特定的开发任务;
- 支持各种量化级别以优化内存使用。
部署 gpt-oss-20b 后的入门指南¶
付款后,服务器就绪的通知将发送至下单时注册的电子邮件。邮件中将包含 VPS IP 地址、服务器访问的登录名和密码,以及 OpenWebUI 控制面板的链接。客户通过 服务器管理面板和 API — Invapi 管理设备。
- 操作系统服务器访问凭据(例如通过 SSH)将通过收到的电子邮件发送。
- 带有 Open WebUI Web 界面的 Ollama 控制面板链接:位于 Invapi 控制面板的 webpanel 标签中,路径为 Configuration >> Tags 选项卡。确切的链接(例如
https://gpt-oss<Server_ID_from_Invapi>.hostkey.in)将在服务器交付时发送的电子邮件中提供。
首次访问 webpanel 标签链接时,将打开欢迎页面。点击 Get started 按钮开始设置。
点击 webpanel 标签中的链接后,将打开 Get started with Open WebUI 登录窗口,您需要在此处创建聊天机器人的管理员账户名称、电子邮件和密码,然后按下 Create Admin Account 按钮:

注意
注册第一个用户后,系统会自动为其分配管理员角色。为了确保安全并控制注册流程,所有后续的注册请求都必须从管理员账户在 OpenWebUI 中批准。
注册成功后,将打开带有 Gpt-oss-20b 访问权限的主 Open WebUI 界面:

备注
有关使用带有 Open WebUI 的 Ollama 控制面板的详细信息,请参阅文章 AI Chatbot on Your Own Server。
备注
为了与 gpt-oss-20b 模型配合实现最佳运行效果,建议使用至少 16 GB 显存的 GPU 用于 20B 模型。为了高效处理长代码上下文和复杂的代理任务,我们建议使用 24 GB 显存的 GPU。有关 Ollama 设置和 Open WebUI 的详细信息,请参阅 Ollama 开发者文档 和 Open WebUI 开发者文档。
使用建议
为了最大化 gpt-oss 20B 模型的效率,建议:
- 将模型用于推理任务,包括思维链处理。该模型支持可调节的推理级别:低、中、高,这些级别通过系统提示进行配置。
- 利用模型内置的代理能力,如函数调用、Python 代码执行和结构化输出。
- 利用其代理能力,将模型用于多阶段开发任务。
- 通过 API 将模型与现有开发工具集成,考虑到它支持微调并以 OpenAI Harmony 响应格式运行。该模型专为高效部署和低延迟而设计,包括本地部署。
使用 API 订购带有 gpt-oss-20b 的服务器¶
要使用 API 安装此软件,请遵循 这些说明。