当前位置：首页 > 问答 > 正文

PostgreSQL 报错 undefined_column 怎么搞远程修复不完全流程分享

那天下午,我正在悠闲地喝着茶，突然手机开始疯狂震动，拿起来一看，是一个运维兄弟打来的紧急电话，声音都变了调：“哥！不好了！线上一个PostgreSQL数据库报错了，好像是说啥列不存在（undefined column），用户那边已经炸锅了，页面全白了！”

我一听“undefined column”，心里咯噔一下，这错误听起来简单，但在线上环境，尤其是在搞远程修复的时候，处理起来每一步都得像走钢丝一样小心，我让他别慌，先把错误信息的完整截图发给我，然后立刻开始远程连回公司跳板机。

第一步：确认问题，而不是盲目动手

来源：老DBA的惨痛教训记录

错误信息截图很快就发过来了,清晰显示：ERROR: column "user_phone" does not exist，确实是最经典的“未定义列”错误，但我没有立刻去想怎么加列，我首先问了运维兄弟几个问题：

他查了一下回复说,是用户点击“个人中心”时出现的，最近一次发布在半小时前，发布清单里确实有数据库改动，而且现在是所有访问个人中心的用户都报错。

听到这里,我心里大概有数了，这极大概率是代码版本和数据库版本不一致导致的，新代码已经引用了user_phone这个新字段，但数据库里的表还没来得及加上这个列，这种情况在紧张的发布过程中很常见。

第二步：紧急止血，而不是根治

来源：某次事故复盘会总结

线上服务全白,每一秒都是损失，我的首要目标是先让服务恢复，哪怕是用一种“不完美”的方式，我立刻让运维兄弟做两件事：

立刻回滚代码版本：联系负责发布的同学，紧急将代码回滚到上一个稳定版本，这是最快、最有效的止血方法，先让用户的页面能正常打开再说。
在回滚期间，锁定数据库：我叮嘱他，在回滚完成、服务基本稳定之前，绝对不允许任何人对数据库进行ALTER TABLE之类的加列操作，防止在混乱中操作失误，引发更复杂的问题。

大约五分钟后,运维兄弟反馈，代码回滚完成，页面白屏问题解决，服务暂时恢复正常，用户那边算是安抚住了，但我们都知道，这只是暂时的，该加的列还是得加。

第三步：制定稳妥的加列方案

来源：团队内部数据库变更SOP（标准操作规程）

现在压力小了一些,可以坐下来好好规划怎么加这个user_phone列了，远程操作，看不见摸不着，全靠命令和信任，所以流程必须清晰。

确认表结构和变更内容：我让开发同学把本次需要执行的SQL脚本发给我，脚本很简单，就是一句：ALTER TABLE users ADD COLUMN user_phone varchar(20);，我习惯性地在测试环境先执行了一遍，确认语法无误。
选择业务低峰期：虽然问题急，但不能蛮干，我查看了监控图表，决定在凌晨一点左右进行变更，那时流量最小。
评估影响：加列操作在PostgreSQL中，如果该列没有默认值，理论上会是瞬间完成的（PostgreSQL 11之后的重写规则有变化，但此表不大，影响可忽略），但为了保险起见，我仍然要求有回滚方案，回滚方案就是：如果加列失败或引发不可预知问题，立即再次回滚代码版本，使新代码失效。
通知相关方：在内部协作群里发布了凌晨一点的维护窗口通知，告知影响范围。

第四步：远程执行与监控

来源：个人踩坑笔记

到了凌晨一点,我再次通过远程连接上线，整个过程像做手术一样：

开启事务：我首先执行了BEGIN;命令，将整个加列操作放在一个事务里，这是一个重要的习惯，万一执行过程中我发现有什么不对劲，我可以立刻用ROLLBACK;回滚整个操作，数据库会恢复到操作前的状态，就像什么都没发生过一样，这是远程操作的“安全绳”。
执行DDL：我小心翼翼地输入了那条ALTER TABLE ...语句并按下了回车。
瞬间完成：如我所料，对于这张不大的表，命令瞬间返回了ALTER TABLE的成功提示。
提交事务：我接着输入COMMIT;，正式提交了这个变更。
立刻验证：我不相信感觉，只相信结果，我马上用SELECT * FROM users LIMIT 1;查询了一条记录，确认user_phone字段已经安静地躺在那里，值是NULL。
通知上线：在群里通知运维和开发同学，数据库变更成功完成，可以重新发布新版本的代码了。