推理加速新选择!Xinference 1.16.0 支持瀚博 GPU 与持续批处理
发布时间 - 2025-12-31 00:00:00 点击率:次Xorbits Inference(Xinference)是一款高性能、全功能的分布式推理平台,广泛适配大语言模型(LLM)、语音识别模型、多模态模型等多种AI模型。借助 Xinference,用户可快速实现私有化一键部署——无论是自研模型还是社区热门开源模型,均能轻松上手:https://www./link/544d8a7bb8401b0c7450ed9d6950a1fc 都将助您高效接入前沿AI能力,释放更多创新潜力。其核心能力与特色包括:
- ? 模型部署,极简高效:大幅简化大语言模型、语音识别模型及多模态模型的上线流程,单条命令即可完成完整部署。
- ⚡️ 模型丰富,开箱即用:内置大量中英文主流大模型,如 Baichuan、ChatGLM2 等,支持一键调用;内置模型库正持续高速扩充中!
- ? 异构加速,性能跃升:依托 ggml 引擎,实现 CPU 与 GPU 协同推理,显著降低响应延迟,提升整体吞吐量。
- ⚙️ 接口多元,灵活集成:提供 OpenAI 兼容 RESTful API(含 Function Calling)、RPC、CLI 命令行工具、Web 可视化界面等多种交互方式,便于模型管理与系统对接。
- ? 分布式调度,集群协同:原生支持跨节点分布式部署,结合智能资源调度器,按模型规模动态分配至不同设备,最大化利用集群算力。
- ? 生态开放,无缝融合:深度兼容 LangChain、LlamaIndex、Dify、Chatbox 等主流 AI 开发框架与工具链,开箱即连。
———————————————————————— ————————————————————————
? Xinference v1.16.0 版本更新概览
✅ 本次重点升级
- ? 新增瀚博半导体 GPU(VACC)支持:正式适配 VACC 架构,并扩展至视觉语言模型(VLM)推理场景,进一步拓展国产硬件生态覆盖。
- ? Apple MLX 后端新增持续批处理(Continuous Batching):MLX 聊天类模型现已支持并发请求处理,大幅提升服务吞吐与并发响应能力。
- ? 新增模型支持
* Qwen-Image-Layered
* Fun-ASR-Nano-2512
* Fun-ASR-MLT-Nano-2512 - ⚠️ Python 版本要求调整:自本版本起,最低运行环境为 Python 3.10,不再兼容 Python 3.9 及更早版本。
? 社区版更新详情
? 快速安装方式
- pip 安装:
pip install 'xinference==1.16.0' - Docker 部署:拉取最新镜像,或在已有容器内通过 pip 升级
? 新增模型支持
- Qwen-Image-Layered
- Fun-ASR-Nano-2512
- Fun-ASR-MLT-Nano-2512
✨ 功能新增
- vLLM 后端:新增对 DeepSeek-V3.2 / DeepSeek-V3.2-Exp 的 vLLM 引擎支持
- VACC(瀚博半导体 GPU):全面支持 LLM 与 VLM 场景下的推理加速
- MLX:聊天模型启用持续批处理机制,实现高并发推理
- Rerank 模块:支持异步批量处理(async batch)
- 模型启动配置:新增
architectures字段用于精细化识别模型架构 - Web UI:图像类模型支持通过环境变量及自定义参数灵活配置
- MiniMaxM2ForCausalLM:新增 vLLM 后端兼容支持
? 能力增强
- 副本调度优化:GPU index 分配策略更连续,提升资源利用率
- Docker 镜像升级:基础环境升级至 CUDA 12.9,集成 vLLM v0.11.2
- 新增 torchaudio 2.9.0 兼容支持
- 模型元数据(JSON)持续完善:覆盖 DeepSeek、GLM、LLaMA、Jina、Z-Image 等多个系列
? 问题修复
- 修复 PaddleOCR-VL 输出结果异常问题
- 修复自定义 embedding / rerank 模块的解析错误
- 修复 CPU 模式下启动失败及多 worker 启动异常
- 修复 OCR API 返回空响应的问题
- 修复
n_gpu参数解析与传递逻辑缺陷
? 文档更新
- 补充新上线模型的详细说明文档
- 完善 v1.15.0 版本发布日志内容
? 企业版专属升级
- 昇腾平台性能强化:在昇腾硬件上实现更高推理效率与更强运行稳定性
- 微调能力升级:优化全流程微调体验,支持更复杂的企业级训练任务与定制化调优需求
参考链接
- 中文版更新日志:https://www./link/34d4da4dbe2204c93ce46975c5466b82
- 英文版更新日志:https://www./link/f47e65e203e26f9f640a3c1d52f45a9c
———————————————————————— ————————————————————————
衷心感谢每一位社区贡献者对 Xinference 项目的支持与共建!我们也诚挚欢迎更多开发者、研究人员和企业用户加入 Xinference 的使用与开发行列。欢迎前往 https://www./link/ac13ef4bd5a77bb7ad082cc2428ae72d 为我们点亮 ⭐ Star,以便第一时间获取后续版本更新通知。
源码地址:点击下载
# python
# html
# js
# git
# json
# docker
# github
# app
# 工具
# 后端
# ai
# 环境变量
相关栏目:
【
网站优化151355 】
【
网络推广146373 】
【
网络技术251813 】
【
AI营销90571 】
相关推荐:
Laravel如何使用Facades(门面)及其工作原理_Laravel门面模式与底层机制
Laravel怎么创建自己的包(Package)_Laravel扩展包开发入门到发布
手机怎么制作网站教程步骤,手机怎么做自己的网页链接?
佛山企业网站制作公司有哪些,沟通100网上服务官网?
JavaScript如何实现类型判断_typeof和instanceof有什么区别
制作旅游网站html,怎样注册旅游网站?
Laravel如何获取当前登录用户信息_Laravel Auth门面使用与Session用户读取【技巧】
JavaScript模板引擎Template.js使用详解
Chrome浏览器标签页分组怎么用_谷歌浏览器整理标签页技巧【效率】
bootstrap日历插件datetimepicker使用方法
齐河建站公司:营销型网站建设与SEO优化双核驱动策略
免费制作统计图的网站有哪些,如何看待现如今年轻人买房难的情况?
高端云建站费用究竟需要多少预算?
Laravel如何与Docker(Sail)协同开发?(环境搭建教程)
安克发布新款氮化镓充电宝:体积缩小 30%,支持 200W 输出
Python自然语言搜索引擎项目教程_倒排索引查询优化案例
如何用ChatGPT准备面试 模拟面试问答与职场话术练习教程
宙斯浏览器文件分类查看教程 快速筛选视频文档与图片方法
如何用y主机助手快速搭建网站?
QQ浏览器网页版登录入口 个人中心在线进入
昵图网官方站入口 昵图网素材图库官网入口
EditPlus中的正则表达式 实战(1)
Laravel如何配置中间件Middleware_Laravel自定义中间件拦截请求与权限校验【步骤】
微博html5版本怎么弄发语音微博_语音录制入口及时长限制操作【教程】
如何在阿里云高效完成企业建站全流程?
潮流网站制作头像软件下载,适合母子的网名有哪些?
html5怎么画眼睛_HT5用Canvas或SVG画眼球瞳孔加JS控制动态【绘制】
Laravel如何创建自定义Facades?(详细步骤)
Python并发异常传播_错误处理解析【教程】
如何用PHP快速搭建CMS系统?
laravel怎么为API路由添加签名中间件保护_laravel API路由签名中间件保护方法
iOS UIView常见属性方法小结
Android利用动画实现背景逐渐变暗
Laravel如何实现事件和监听器?(Event & Listener实战)
Laravel Asset编译怎么配置_Laravel Vite前端构建工具使用
Android Socket接口实现即时通讯实例代码
Laravel如何实现多对多模型关联?(Eloquent教程)
北京网页设计制作网站有哪些,继续教育自动播放怎么设置?
如何用景安虚拟主机手机版绑定域名建站?
Laravel如何监控和管理失败的队列任务_Laravel失败任务处理与监控
公司网站制作需要多少钱,找人做公司网站需要多少钱?
百度浏览器如何管理插件 百度浏览器插件管理方法
Laravel怎么返回JSON格式数据_Laravel API资源Response响应格式化【技巧】
如何用好域名打造高点击率的自主建站?
javascript中闭包概念与用法深入理解
如何挑选最适合建站的高性能VPS主机?
网站设计制作书签怎么做,怎样将网页添加到书签/主页书签/桌面?
如何在Ubuntu系统下快速搭建WordPress个人网站?
Laravel Eloquent关联是什么_Laravel模型一对一与一对多关系精讲
专业商城网站制作公司有哪些,pi商城官网是哪个?

