记博客服务被压垮的历程

2024-08-18

我们有个博客服务，用WordPress做的，最初的目的就是给内部使用，所以当时设计的时候支持的qps很低，而且线上只用了一台机器部署。

虽然服务被压垮是个悲伤的事情，但是整个过程却是十分有趣。在此需要深深的感谢一下我们的运维团队。

我们开始查看高流量的来源

告知运维后，运维决定将流量导到商城首页 - 凡是打开该团队APP的用户，最先看到的是商城首页。服务得以正常运行，我们也收割了一些流量。

后来该团队负责人看到了我们联系的内容，表达了歉意，并把启动页移除。

这次查找问题的历程还是蛮有意思的，从服务被压垮到收割流量，很大的一个反转。但是也暴露了很多问题：

使用其他组的服务，仅仅和业务方确认不够，一定要和服务所有人进行确认。因为业务方可能缺乏技术方面的一些思考，而且容易产生这种流量被收割，给他人做嫁衣的情况
没有常备机器资源。机器资源有限，虽然扩容了4台机器，仍然满足不了需求，而当时只有4台适合扩容。机器资源问题在使用容器后会被解决。
处理方案并不是最优的。机器扩容并非首，。以当时的流量来看，机器扩容后也撑不住，最好的做法是限流，同时知道URL后做nginx层缓存。因为扩容后，这些库容的机器CPU也到100%，影响了这些机器上面的服务。
突发情况没有应急预案。对于所有服务，高并发情况下，都应该有一套应急预案，按照预案走，可以处理的更加有章法一些。
缺乏降级、熔断等能力，这是一个成熟的IT公司必备技能之一，需要后面进行补齐。