我有五台服务器,分布在三个云厂商,跨了好几个城市。

听起来很夸张,其实就是一步一步长出来的。最早就一台,跑点小东西。后来服务越来越多,一台扛不住了,就开始加。加着加着就五台了。

有人问我,一个人管五台机器不累吗?说实话,要是没有一套体系,确实累。但搭好了体系之后,其实也就那么回事。

今天聊聊我是怎么搭这套运维体系的。

为什么是五台

一开始我也觉得一台够用了。Web 服务、数据库、Redis 全放一起,省事。

后来问题来了:服务之间互相抢资源,数据库吃内存把 Web 服务挤挂了。而且鸡蛋放一个篮子里,机器一挂全完蛋。

所以我按职责拆了:

  • A(腾讯云):核心业务,跑主力服务
  • B(阿里云):轻量应用 + 监控中心
  • C(腾讯云):网关层 + AI 助手
  • D(华为云):边缘节点

四个字母代替,不暴露更多信息。你们只要知道:不同云厂商、不同城市、互相备份

用过三个云厂商的体会是:各有各的坑。腾讯云网络好,阿里云生态全,华为云性价比高。鸡蛋不放一个篮子,不是矫情,是教训。

SSH 管理:密钥是底线

五台机器,首先得解决”怎么连上去”的问题。

第一件事:禁掉密码登录,只用密钥。这不是装逼,是基本操作。密码再复杂也扛不住暴力破解,密钥认证直接把这条路堵死了。

第二件事:改掉默认端口。22 端口是全网扫描器的重点关照对象,换个端口能挡掉 99% 的噪音。

第三件事:用 SSH Config 统管所有机器。不用记 IP,不用记端口,ssh A 直接进去。

1
2
3
4
5
Host A
HostName x.x.x.x
Port xxxx
User root
IdentityFile ~/.ssh/key_a

有人会说为什么不用 Ansible?五台机器,真没必要。SSH Config 加一个简单的巡检脚本,够了。工具不是越高级越好,够用就行。

Docker:所有服务容器化

我的原则是:宿主机上除了 Docker,啥都不装

好处是明显的:

  • 装环境不污染宿主机
  • 迁移方便,compose 文件 + 数据目录搬过去就能跑
  • 出问题直接重建容器,不用排查依赖冲突

每个服务一个目录,结构统一:

1
2
3
service-name/
├── docker-compose.yml
└── data/

重启策略一律 unless-stopped,机器重启后服务自动拉起来,不用手动操作。

遇到过几次镜像拉不下来的问题,解决方案大家都懂:找镜像源,或者在能拉到的机器上拉完再搬过去。具体方式不多说了,网上一搜一堆。

网络:不是裸奔上生产

服务器之间要通信,但不是所有端口都该暴露出去。

我的策略很简单:公网只开 SSH、80、443,其余全关。Web 服务走 HTTPS,管理走 SSH,其他服务之间的通信走内网端口但不对外开放。防火墙规则白名单模式,默认拒绝,按需放行。

Tailscale 也部署了,主要是给手机、笔记本这些移动设备用的 — 出门在外也能直接连到内网管理服务,不用开额外的公网端口。

内部服务还加了一层统一认证,没登录的人连页面都看不到,直接挡在外面。这一层不复杂,但安全感拉满。

边缘还加了 CDN,国内访问加速的同时顺便挡一波攻击。说实话个人站点被扫是常态,有 CDN 和 WAF 至少不用担心流量打满。

监控:出了问题得知道

监控方案我选了轻量级的,没有上 Prometheus + Grafana 那一套。不是说那套不好,而是五台机器用那套属于杀鸡用牛刀。

现在的架构是:一台机器跑中心节点,其余机器装 Agent,数据自动上报。CPU、内存、磁盘、网络,一个面板全看完。

告警也配了,推到手机上。半夜服务挂了能收到通知,不用第二天早上才发现。

备份:数据丢了就真没了

备份这件事,没出过事的人觉得不重要,出过一次事的人再也不敢不备份。

我的策略是每天凌晨自动跑,备份完传到对象存储。脚本是 AI 帮忙写的,逻辑很简单:导出数据库、打包配置文件、传到 OSS、删掉过期备份。

配置和工作空间用 Git 管理,推到私有仓库。相当于异地备份,就算服务器硬盘炸了,代码和配置也不会丢。

有一个教训想分享:备份不验证等于没备份。定期做一次恢复测试,才知道备份文件到底能不能用。我之前就遇到过备份脚本有问题、跑了两个月才发现的情况。

域名与路由

一个域名管所有服务,靠子域名区分。这种管理方式的好处是:统一管理 DNS 记录,证书也好处理。

域名和 DNS 现在全部交给 AI 维护了。新增一个服务,跟 AI 说一声”加个子域名指向 C 机器”,它自己去跑 DNS 解析、更新记录,我只下指令。以前手动加 DNS 记录、改配置、重启服务这些事,现在一句话搞定。

证书目前用的是通配符方案,一个证书覆盖所有子域名,省心省力。部分服务用了 Caddy 做反向代理,自动申请和续期确实方便,但还没全部切过来 — 稳定的服务不想动,没必要为了统一而统一。

AI 助手:2026 年的新姿势

这是和其他运维博主最大的不同 — 我有一个 AI 助手 24 小时在线。

它能干什么:

  • 服务器巡检,跑完直接出报告
  • 日志分析,异常自动预警
  • 写备份脚本、写监控脚本
  • DNS、域名、证书管理,一句话搞定
  • 群聊里直接问”服务器有没有异常”

人负责决策,AI 负责执行。以前运维是”出了问题去查”,现在是”AI 查完了告诉我”。效率差多少不好量化,但确实回不去了。

最后

五台机器的运维,一个人扛得动吗?

扛得动,靠的是体系。不是每天盯着五台机器看,而是搭好自动化,让机器自己跑、自己备份、自己报警。人只在出问题的时候介入。

不需要追求大而全。够用、稳定、能快速恢复,这三条比什么都重要。

如果你想搞个人基础设施,我的建议是:先从一台开始,跑稳了再加。别一上来就搞五台,会把自己搞晕的。