推理加速新选择！Xinference 1.16.0 支持瀚博 GPU 与持续批处理_网络技术

推理加速新选择！Xinference 1.16.0 支持瀚博 GPU 与持续批处理

发布时间 - 2025-12-31 00:00:00 点击率：次

Xorbits Inference（Xinference）是一款高性能、全功能的分布式推理平台，广泛适配大语言模型（LLM）、语音识别模型、多模态模型等多种AI模型。借助 Xinference，用户可快速实现私有化一键部署——无论是自研模型还是社区热门开源模型，均能轻松上手：https://www./link/544d8a7bb8401b0c7450ed9d6950a1fc 都将助您高效接入前沿AI能力，释放更多创新潜力。其核心能力与特色包括：

? 模型部署，极简高效：大幅简化大语言模型、语音识别模型及多模态模型的上线流程，单条命令即可完成完整部署。
⚡️ 模型丰富，开箱即用：内置大量中英文主流大模型，如 Baichuan、ChatGLM2 等，支持一键调用；内置模型库正持续高速扩充中！
? 异构加速，性能跃升：依托 ggml 引擎，实现 CPU 与 GPU 协同推理，显著降低响应延迟，提升整体吞吐量。
⚙️ 接口多元，灵活集成：提供 OpenAI 兼容 RESTful API（含 Function Calling）、RPC、CLI 命令行工具、Web 可视化界面等多种交互方式，便于模型管理与系统对接。
? 分布式调度，集群协同：原生支持跨节点分布式部署，结合智能资源调度器，按模型规模动态分配至不同设备，最大化利用集群算力。
? 生态开放，无缝融合：深度兼容 LangChain、LlamaIndex、Dify、Chatbox 等主流 AI 开发框架与工具链，开箱即连。

———————————————————————— ————————————————————————

? Xinference v1.16.0 版本更新概览

✅ 本次重点升级

? 新增瀚博半导体 GPU（VACC）支持：正式适配 VACC 架构，并扩展至视觉语言模型（VLM）推理场景，进一步拓展国产硬件生态覆盖。
? Apple MLX 后端新增持续批处理（Continuous Batching）：MLX 聊天类模型现已支持并发请求处理，大幅提升服务吞吐与并发响应能力。
? 新增模型支持
* Qwen-Image-Layered
* Fun-ASR-Nano-2512
* Fun-ASR-MLT-Nano-2512
⚠️ Python 版本要求调整：自本版本起，最低运行环境为 Python 3.10，不再兼容 Python 3.9 及更早版本。

? 社区版更新详情

? 快速安装方式

pip 安装：pip install 'xinference==1.16.0'
Docker 部署：拉取最新镜像，或在已有容器内通过 pip 升级

? 新增模型支持

Qwen-Image-Layered
Fun-ASR-Nano-2512
Fun-ASR-MLT-Nano-2512

✨ 功能新增

vLLM 后端：新增对 DeepSeek-V3.2 / DeepSeek-V3.2-Exp 的 vLLM 引擎支持
VACC（瀚博半导体 GPU）：全面支持 LLM 与 VLM 场景下的推理加速
MLX：聊天模型启用持续批处理机制，实现高并发推理
Rerank 模块：支持异步批量处理（async batch）
模型启动配置：新增 architectures 字段用于精细化识别模型架构
Web UI：图像类模型支持通过环境变量及自定义参数灵活配置
MiniMaxM2ForCausalLM：新增 vLLM 后端兼容支持

? 能力增强

副本调度优化：GPU index 分配策略更连续，提升资源利用率
Docker 镜像升级：基础环境升级至 CUDA 12.9，集成 vLLM v0.11.2
新增 torchaudio 2.9.0 兼容支持
模型元数据（JSON）持续完善：覆盖 DeepSeek、GLM、LLaMA、Jina、Z-Image 等多个系列

? 问题修复

修复 PaddleOCR-VL 输出结果异常问题
修复自定义 embedding / rerank 模块的解析错误
修复 CPU 模式下启动失败及多 worker 启动异常
修复 OCR API 返回空响应的问题
修复 n_gpu 参数解析与传递逻辑缺陷

? 文档更新

补充新上线模型的详细说明文档
完善 v1.15.0 版本发布日志内容

? 企业版专属升级

昇腾平台性能强化：在昇腾硬件上实现更高推理效率与更强运行稳定性
微调能力升级：优化全流程微调体验，支持更复杂的企业级训练任务与定制化调优需求

参考链接

中文版更新日志：https://www./link/34d4da4dbe2204c93ce46975c5466b82
英文版更新日志：https://www./link/f47e65e203e26f9f640a3c1d52f45a9c

———————————————————————— ————————————————————————

衷心感谢每一位社区贡献者对 Xinference 项目的支持与共建！我们也诚挚欢迎更多开发者、研究人员和企业用户加入 Xinference 的使用与开发行列。欢迎前往 https://www./link/ac13ef4bd5a77bb7ad082cc2428ae72d 为我们点亮 ⭐ Star，以便第一时间获取后续版本更新通知。

源码地址：点击下载

# python # html # js # git # json # docker # github # app # 工具 # 后端 # ai # 环境变量

相关栏目：【网站优化151355 】【网络推广146373 】【网络技术251813 】【 AI营销90571 】

上一篇：修改简历模板,如何修改个人简历比较好？有哪些好的建议？

下一篇：百度建站中心：网站建设与SEO优化核心技巧提升搜索排名

相关栏目网站优化
网络推广
网络技术
AI营销

最新文章 Sublime怎么一键压缩JS代码 Su sublime如何在搜索中使用正则表达式 Sublime如何设置透明窗口效果 Su mysql如何设计商品表结构_mysql css属性背景图不显示怎么办_通过检查路如何使用Golang实现排序_Golan 农历闰月是怎么回事_为合回归年加一月调整塑造《刺客信条》艾吉奥传奇的编剧离开育碧 1英里等于多少公里 1mile和km的换 css grid布局中行和列是如何定义的 PS批量旋转和翻转图片，快速校正图片方向 C# Swagger UI自定义方法 C OPPO手机九宫格和全键盘怎么切换_OP Go语言如何实现用户登录注册_Golan 1节飞行速度多少公里每小时 1节是多少公纸嫁衣8千子树第五章庙门怎么开启庙门 Laravel 多行数据编辑表单中实现逐明日之后如何提升钓鱼等级明日之后提升钓支付宝怎样查年度账单_支付宝年度账单查看 C# 多线程UI更新Dispatcher

上一篇：修改简历模板,如何修改个人简历比较好？有哪些好的建议？

下一篇：百度建站中心：网站建设与SEO优化核心技巧提升搜索排名