- 博客(4)
- 收藏
- 关注
原创 记一个在pg库的sql中仿雪花算法生成随机数的写法
公司要求把直连机构库改为从接口查询,然后表里面有个字段是序列号,非空不重复。接口又不提供这个字段,还不准动表结构,就只能自己在sql中生成。
2025-01-08 16:46:55
154
原创 记PG库with XX as(update)insert 写法来实现去重(相同数据就更新,不相同就新增),结果去重不生效问题的大坑
我预想的执行过程是,第一个id=1,month=01插入进去后,第二个id=1进来,就把month给更新为02,最后table里面就只有两条数据(id='1',month='02'),(id='3',month='03')。table_tmp有新的三条数据(id='1',month='11'),(id='1',month='12'),(id='3',month='13'),背景为hadoop任务,要把hive表里面的数据导入到pg库,但是里面有重复数据,重复判断标准为很多个字段聚合在一起。
2024-12-17 17:24:00
281
原创 记一次千万级数据批量清理指定数据的过程
后来想到我这个整体update的操作,要找到对应数据,还要对表中间数据进行处理,最重要的是数据量大了,wal操作需要的时间更多,就放弃了直接使用update。最先想到的优化方案是猜测因为要清理的字段有约束跟索引,可能涉及检查一致性、索引更新等操作所以慢,就把约束、索引那些删了,结果跑了一个多小时还是不行。最后决定的方案是新建一个临时表,把主表的数据复制过去,在复制的时候把要改的字段置为空,然后直接truncate主表,最后再把临时表数据倒回去。整个过程10来分钟搞定。
2024-12-17 16:11:16
211
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人