Netdata:面向精益团队的全栈可观测性开源监控平台
Netdata 是一个开源的实时基础设施监控平台,提供每秒指标、ML 驱动的异常检测和零配置部署,帮助团队高效监控并排查问题。
访问我们的主页菜单:关于我们 | 主要功能 | 快速开始 | 工作原理 | 常见问题 | 文档 | 社区 | 贡献 | 许可证警告人们会对 Netdata 上瘾。一旦你在系统上使用它,就无法回头。
Netdata 是一个开源的实时基础设施监控平台。你可以监控、检测并处理整个基础设施中的问题。核心优势:- 即时洞察——通过 Netdata,你可以获取每秒的指标和可视化。- 零配置——无需复杂设置即可立即部署。
- 机器学习驱动——可以检测异常、预测问题并自动化分析。- 高效——以最小的资源消耗和最大的可扩展性进行监控。- 安全且分布式——数据保存在本地,无需集中收集。通过 Netdata,你可以获得每秒的实时更新。
一目了然,没有复杂性。所有英雄都有一个伟大的起源故事。点击了解我们的故事。2013 年,在 Costa Tsaousis 担任首席运营官的公司,很大一部分基于云的交易悄然失败,严重影响了业务绩效。
Costa 和他的团队尝试了当时所有可用的故障排除工具,但都无法找出根本原因。正如 Costa 后来写道:“我不敢相信监控系统提供的指标如此之少、分辨率如此之低、扩展性如此之差、运行成本如此之高。
”沮丧之下,他决定从头开始构建自己的监控工具。
这个决定导致了无数个深夜和周末。它也引发了基础设施监控和故障排除方式在方法和成本上的根本性转变。根据阿姆斯特丹大学的研究,Netdata 是监控基于 Docker 的系统最节能的工具。
该研究还表明,与其他监控解决方案相比,Netdata 在 CPU 使用率、RAM 使用率和执行时间方面表现出色。注意想要将 Netdata 与 Prometheus 进行对比?查看完整比较。
这个由三部分组成的架构使你能够从单节点扩展到复杂的多云环境:使用 Netdata,你可以跨平台监控所有这些组件:在 Linux 上,你可以持续监控所有内核功能和硬件传感器的错误,包括 Intel/AMD/Nvidia GPU、PCI AER、RAM EDAC、IPMI、
S.M.A.R.T、Intel RAPL、NVMe、风扇、电源和电压读数。你可以在所有主要操作系统上安装 Netdata。
开始:选择你的平台并按照安装指南操作:注意你可以通过 http://localhost:19999 访问 Netdata UI(如果远程访问,则为 http://NODE:19999)。
Netdata 会自动发现大多数指标,但你也可以手动配置一些收集器:你可以使用数百个内置警报,并集成电子邮件、Slack、Telegram、PagerDuty、Discord、Microsoft Teams 等。
注意:如果配置了 MTA,电子邮件警报默认生效。
你可以使用 Netdata Parents 集中管理仪表板、警报和存储:注意你可以将 Netdata Parents 用于中央仪表板、更长的数据保留和警报配置。
登录 Netdata Cloud 并连接你的节点,以实现:- 从任何地方访问- 水平可扩展性和多节点仪表板- 警报和数据收集的 UI 配置- 基于角色的访问控制- 提供免费层级注意Netdata Cloud 是可选的。
你的数据保留在你的基础设施中。查看 Netdata 的实际运行法兰克福 | 纽约 | 亚特兰大 | 旧金山 | 多伦多 | 新加坡 | 班加罗尔这些演示集群以默认配置运行,并显示真实的监控数据。
选择离你最近的实例以获得最佳性能。使用 Netdata,你可以运行一个模块化管道,用于指标收集、处理和可视化。
流程图 TBA[Netdata Agent]:mainNodeA1(收集):green --> AA2(存储):green --> AA3(学习):green --> AA4(检测):green --> AA5(检查):green --> AA6(流式传输):
green --> AA7(归档):green --> AA8(查询):green --> AA9(评分):green --> AclassDef green fill:#bbf3bb,stroke:#333,stroke-width:1px,color:
#000classDef mainNode fill:#f0f0f0,stroke:#333,stroke-width:1px,color:#333对于每个 Agent,你可以:- 收集——从系统、容器、应用程序、日志、API 和合成检查中收集指标。
- 存储——将指标保存到高效的分层时间序列数据库中。- 学习——使用最近的行为按指标训练 ML 模型。
- 检测——使用训练好的 ML 模型识别异常。- 检查——根据预设或自定义警报规则评估指标。- 流式传输——实时将指标发送到 Netdata Parents。- 归档——将指标导出到 Prometheus、InfluxDB、OpenTSDB、Graphite 等。
- 查询——通过 API 访问指标,用于仪表板或第三方工具。- 评分——使用评分引擎查找指标之间的模式和相关性。
注意了解更多:Netdata 的架构通过 Netdata Agent,你可以开箱即用地使用这些核心功能:Netdata 积极支持云原生计算基金会(CNCF)并是其成员。它是 CNCF 生态中最受关注的项目之一。
Netdata 安全吗?是的。Netdata 遵循 OpenSSF 最佳实践,采用安全优先的设计,并定期接受社区审计。Netdata 会消耗大量资源吗?不会。即使使用 ML 和每秒指标,Netdata 也使用最少的资源。
- 生产系统上默认约 5% CPU 和 150 MiB RAM- 当 ML 和警报被禁用并使用临时存储时,
<1% CPU 和约 100 MiB RAM- Parents 在适当硬件上可扩展到每秒数百万个指标你可以使用仪表板中的 Netdata Monitoring 部分检查其资源使用情况。数据可以保留多久?
只要你的磁盘允许。
通过 Netdata,你可以使用分层保留:- 第 0 层:每秒分辨率- 第 1 层:每分钟分辨率- 第 2 层:每小时分辨率这些会根据缩放级别自动查询。Netdata 可以扩展到多台服务器吗?
是的。使用 Netdata,你可以:- 通过多个 Agent 水平扩展- 通过强大的 Parents 垂直扩展- 通过 Netdata Cloud 无限扩展你可以使用 Netdata Cloud 将多个独立的基础设施合并到一个逻辑视图中。
磁盘 I/O 是问题吗?不是。Netdata 最小化磁盘使用:- 指标每 17 分钟均匀刷新到磁盘- 使用直接 I/O 和压缩(ZSTD)- 可以完全在 RAM 中运行或流式传输到 Parent你可以使用 alloc 或 ram 模式实现无磁盘写入。
Netdata 与 Prometheus + Grafana 有何不同?使用 Netdata,你获得的是一个完整的监控解决方案,而不仅仅是工具。
- 无需手动设置或仪表板- 内置 ML、警报、仪表板和相关性分析- 更高效、更易部署Netdata 与商业 SaaS 工具有何不同?使用 Netdata,你可以将所有指标存储在你的基础设施上——无需采样、无需聚合、无需丢失。
- 默认高分辨率指标- 每个指标独立 ML,而非共享模型- 无限可扩展性,成本不会飙升Netdata 可以与 Nagios、Zabbix 等一起运行吗?是的。你可以将 Netdata 与传统工具一起使用。
使用 Netdata,你可以获得:- 实时、高分辨率监控- 零配置和自动生成的仪表板- 异常检测和高级可视化如果感到不知所措怎么办?
你可以从小处开始:- 使用仪表板的目录和搜索功能- 探索异常评分(“AR”切换)- 在 Netdata Cloud 中创建自定义仪表板我必须使用 Netdata Cloud 吗?不。Netdata Cloud 是可选的。
Netdata 没有它也能工作,但使用 Cloud 你可以:- 通过 SSO 远程访问- 保存仪表板自定义设置- 集中配置警报- 通过基于角色的访问进行协作Netdata 收集哪些遥测数据?匿名遥测有助于改进产品。
你可以禁用它:- 在安装程序中添加 --disable-telemetry,或- 创建 /etc/netdata/.opt-out-from-anonymous-statistics 并重启 Netdata遥测帮助我们了解使用情况,而不是跟踪用户。
不会收集私人数据。谁在使用 Netdata?你将加入包括以下用户的行列:- 主要公司(Amazon、ABN AMRO 等)
本文为机器翻译辅以 AI 润色,仅供参考。原始事实以原文为准。