Prometheus是做什么的_云原生监控工具原理解析
发布时间 - 2026-01-29 00:00:00 点击率:次Prometheus是专为云原生设计的时间序列监控系统,专注指标采集与告警;采用Pull模型实现可控采集、动态适配与故障可视,短生命周期任务需Pushgateway中转;remote_write可将数据持久化至SLS MetricStore,但需严格配置URL、认证及队列参数;PromQL使用须遵循标签聚合规则、函数类型约束与时间窗口语义,避免标签爆炸。
Prometheus 是一个专为云原生环境设计的时间序列数据库+监控告警系统,核心作用是拉取、存储、查询和告警——不是日志系统,也不是全链路追踪工具,它只管「指标」(metrics)。
为什么用 Pull 模型而不是 Push?
绝大多数监控系统(如 Zabbix)靠客户端主动上报,但 Prometheus 反其道而行:它自己定时去 http://target:port/metrics 抓数据。这样做的好处很实在:
- 服务端完全掌控采集节奏,避免瞬时大量 Push 导致接收端雪崩
- 天然适配 Kubernetes 等动态环境——只要服务发现能列出 endpoint,Prometheus 就
能自动跟进,不用每个 Pod 都配推送地址
- 抓取失败直接体现在
up{job="xxx"}这个内置指标里,宕机、网络不通、exporter 崩溃一目了然
坏处也明显:如果目标实例生命周期极短(比如几秒的批处理任务),根本来不及被拉到,就得靠 Pushgateway 中转——但注意,Pushgateway 不是通用替代方案,滥用会导致指标陈旧、重复、难以关联实例标签。
remote_write 到日志服务,本质是“换存储”而非“换用途”
本地 TSDB 默认只存 15 天,且单机扩展性有限。把数据通过 remote_write 发往阿里云 SLS 的 MetricStore,其实是把 Prometheus 当成一个“采集+规则引擎”,把持久化和查询卸给后端。关键点在于:
-
url必须严格匹配格式:https://{project}.{sls-endpoint}/prometheus/{project}/{metricstore}/api/v1/write,少一个路径段或写错大小写都会返回404 Not Found -
basic_auth的username是阿里云 AccessKey ID,password是 AccessKey Secret——不能填成 RAM 子账号的密钥,也不能误用 STS 临时 Token -
queue_config参数直接影响稳定性:capacity: 20480是内存队列上限,max_samples_per_send: 2048控制每次发多少样本;若网络抖动频繁,max_backoff设太小会导致重试风暴,设太大又会积压延迟
这不是“备份”,而是生产级长期存储方案。一旦启用,alert.rules 和 recording rules 仍由 Prometheus Server 执行,只是原始样本落盘位置变了。
PromQL 查询快,但别把它当 SQL 用
很多人第一次写 sum by (instance) (rate(http_requests_total[5m])) 觉得很酷,但很快会撞上两个现实:
- 所有聚合操作(
sum、avg、count)必须带by或without显式声明标签保留逻辑,否则报错many-to-many matching not allowed -
rate()只接受计数器(Counter),对仪表盘(Gauge)用rate()会得到 0 或 NaN;想看内存使用率变化趋势,得用delta(memory_usage_bytes[1h])或直接查原始值 - 时间范围选择器(如
[5m])不是“过去 5 分钟”,而是“当前时刻往前推 5 分钟的数据窗口”,所以irate()更适合突刺类指标,rate()更稳但有延迟
真正卡住人的,往往不是语法,而是标签爆炸(label explosion):比如给每个 HTTP 请求加 trace_id 标签,几十万唯一值会让 TSDB 内存暴涨、查询变慢甚至 OOM。Prometheus 的强大,始终建立在“合理打标”这个前提上。
它不解决日志检索,也不做分布式追踪,更不保证金融级精度。把它的能力边界划清楚,比堆功能更重要。
# word
# access
# 工具
# 后端
# 阿里云
# 金融
# kubernetes
# 为什么
# gate
# asic
# golang
# sql
# 分布式
# count
# Token
# 堆
# alert
# 选择器
# 数据库
# http
# https
# prometheus
# zabbix
# 专为
# 监控系统
# 是一个
# 很多人
# 环境设计
# 把它
# 批处理
# 太大
# 这样做
# 这不是
相关栏目:
【
网站优化151355 】
【
网络推广146373 】
【
网络技术251813 】
【
AI营销90571 】
相关推荐:
Laravel怎么使用Markdown渲染文档_Laravel将Markdown内容转HTML页面展示【实战】
Laravel如何使用模型观察者?(Observer代码示例)
如何快速搭建支持数据库操作的智能建站平台?
郑州企业网站制作公司,郑州招聘网站有哪些?
Laravel怎么配置S3云存储驱动_Laravel集成阿里云OSS或AWS S3存储桶【教程】
如何自己制作一个网站链接,如何制作一个企业网站,建设网站的基本步骤有哪些?
在线制作视频网站免费,都有哪些好的动漫网站?
韩国代理服务器如何选?解析IP设置技巧与跨境访问优化指南
如何用JavaScript实现文本编辑器_光标和选区怎么处理
Python图片处理进阶教程_Pillow滤镜与图像增强
INTERNET浏览器怎样恢复关闭标签页_INTERNET浏览器标签恢复快捷键与方法【指南】
Laravel安装步骤详细教程_Laravel环境搭建指南
JS实现鼠标移上去显示图片或微信二维码
Laravel如何使用Socialite实现第三方登录?(微信/GitHub示例)
深圳防火门网站制作公司,深圳中天明防火门怎么编码?
Laravel Fortify是什么,和Jetstream有什么关系
香港服务器网站推广:SEO优化与外贸独立站搭建策略
Laravel如何升级到最新的版本_Laravel版本升级流程与兼容性处理
Laravel怎么实现API接口鉴权_Laravel Sanctum令牌生成与请求验证【教程】
EditPlus中的正则表达式实战(6)
,在苏州找工作,上哪个网站比较好?
如何快速生成高效建站系统源代码?
javascript中的数组方法有哪些_如何利用数组方法简化数据处理
JS经典正则表达式笔试题汇总
微信小程序 input输入框控件详解及实例(多种示例)
如何将凡科建站内容保存为本地文件?
微信小程序 闭包写法详细介绍
如何获取上海专业网站定制建站电话?
Laravel如何优化应用性能?(缓存和优化命令)
Laravel Eloquent:优雅地将关联模型字段扁平化到主模型中
BootStrap整体框架之基础布局组件
微信小程序 canvas开发实例及注意事项
Firefox Developer Edition开发者版本入口
HTML5空格和nbsp有啥关系_nbsp的作用及使用场景【说明】
ChatGPT怎么生成Excel公式_ChatGPT公式生成方法【指南】
北京专业网站制作设计师招聘,北京白云观官方网站?
北京企业网站设计制作公司,北京铁路集团官方网站?
黑客如何利用漏洞与弱口令入侵网站服务器?
百度输入法ai组件怎么删除 百度输入法ai组件移除工具
Python3.6正式版新特性预览
详解jQuery中基本的动画方法
JavaScript Ajax实现异步通信
如何快速选择适合个人网站的云服务器配置?
linux top下的 minerd 木马清除方法
实例解析angularjs的filter过滤器
ChatGPT 4.0官网入口地址 ChatGPT在线体验官网
如何确保FTP站点访问权限与数据传输安全?
Laravel怎么导出Excel文件_Laravel Excel插件使用教程
Laravel怎么在Blade中安全地输出原始HTML内容
如何利用DOS批处理实现定时关机操作详解


