故障模式

常见网站可用性问题说明

了解网站可用性事故背后的常见层级,从 DNS 错误、SSL 信任失败,到端口关闭、应用过载和特定路径问题。

大多数可用性事故一旦按层级分类,就不再神秘。难点在于用户往往用同一句话描述它们:“网站宕机了。”在诊断中,这句话可能意味着 DNS 记录损坏、443 上没有监听、证书过期、源站过载返回 503,或区域性路由问题。好的排障从把症状归入正确的故障家族开始。

不同失败在用户眼里很相似

浏览器错误页、空白超时和 503 都可能被描述成“宕机”,但它们来自不同层级。

按层级思考能节省时间

一旦知道问题在 DNS、连接、TLS、HTTP 还是路由层,下一步工具和可能负责人会清晰很多。

一份报告应该导向一个下一步

诊断的目的不是收集所有数据点,而是快速缩小问题,让下一项检查变得明显。

01

主要可用性问题家族

这些类别覆盖公开网站上最常见的实际事故。

名称解析问题

主机名无法正确解析、解析到错误位置,或因陈旧或不匹配的 DNS 数据表现不一致。

服务可达性问题

目标主机可能存在,但预期 Web 端口从某个探测位置看是关闭、被过滤、被拒绝或超时。

TLS 信任问题

服务可达到足以开始 HTTPS,但证书、主机名、证书链或协议协商阻止了可信会话。

应用层问题

请求到达了网站,但最终 HTTP 结果显示服务器错误、过载、维护状态或访问限制。

02

症状、可能层级和最佳第一步

当同事或客户的描述很笼统时,可把它当作快速分类表。

症状可能层级最佳第一步
主机名无法解析或解析结果很奇怪DNS网站检查,然后 DNS 检查
浏览器提示证书或 HTTPS 信任问题TLS / SSLSSL 检查,然后网站检查
80/443 连接被拒绝或超时端口或网络可达性端口检查,然后 Ping 或 traceroute
网站返回 403、429、500、502、503 或 504应用 / 边缘 / 上游网站检查,然后按需使用主机检查或 SSL/DNS 后续检查
只有部分用户或地区投诉路由、DNS 传播、地理或策略差异网站检查,并结合方法边界从其他环境继续验证

03

清晰的初步排查顺序

这个顺序能避免你在工具之间来回切换却没有新信息。

01

从准确失败 URL 开始

尽量使用真实主机名、协议和路径,这样重定向和证书行为才仍然相关。

02

分类第一个失败层级

判断第一个严重信号指向 DNS、连接、TLS,还是 HTTP/应用响应。

03

打开一个专门后续工具

只有当第一次宽检查告诉你哪个层级值得关注后,再使用 DNS 检查、SSL 检查、端口检查、Ping 或 traceroute。

04

检查结果是否可能受位置影响

如果只有部分用户投诉,或网站在 CDN 或区域策略后面,在做宽泛结论前要记住单个服务器视角的限制。

04

经常误导人的信号

这些观察在技术上可能是真的,但仍会把人带向错误诊断。

  • “Ping 能通,所以网站一定没问题。”
  • “证书有效,所以 HTTPS 不可能是问题。”
  • “DNS 有答案,所以故障一定在应用里。”
  • “网站从这里的一个位置或两个探测位置失败,所以一定对所有人都宕机。”

05

缩小常见可用性问题的最佳工具

选择与你现在最怀疑的问题家族匹配的工具。

常见网站可用性问题解答

宕机分诊最常见的第一步错误是什么?

把所有症状都当成一个笼统的网站宕机,而不是把 DNS、连接、TLS 和 HTTP/应用问题分成不同层级。

如果网站返回 503,还应该检查 DNS 或 SSL 吗?

通常应用或上游是第一个明显问题,但如果同一报告中的重定向、主机名或证书行为可疑,DNS 或 SSL 仍可能相关。

为什么有些事故只影响部分用户?

因为 DNS 缓存、区域边缘、网络服务商路由、地理限制和客户端特定的信任行为,都可能因用户而异。

相关工具

相关指南