当前位置:首页 > 短网址资讯 > 正文内容

高效排查短网址系统故障:高并发引起的系统设计“踩坑”案例

www.ft12.com6年前 (2018-09-10)短网址资讯2489

短网址的判定逻辑十分复杂,一方面是各种类型的网址,有正常的短链接,另外是短网址保证用户的使用,特别是商家的影响面非常广,任何一个小故障都可能引发一些社会问题,所以FT12短网址对产品的质量,对服务的连续性有严格的要求。FT12短网址的技术人员在日常的研发运维过程中,积累了丰富的实战经验。今天,为大家分享一个关于故障,排查,分析和改进的真实案例。他山之石可以攻玉,希望对广大开发和运维工程师带来帮助。



背景说明

某日,做产品X的开发接到客户公司电话,说是对账出了1分钱的差错,无法处理。本着“客户第一”的宗旨,开发立马上线查看情况。查完发现,按照产品X当日的年化收益率,正常情况下用户在转入57元后一共收益3分钱,合计是57.03元。但是该客户当日却有一笔消费57.04元,导致客户公司系统对多出的1分钱处理不了。再进一步分析,发现用户收益结转时多了1分钱的收益,并且已消费……

也就是说,本来用户只有3分钱收益,结果多发了1分钱给他,也就给公司造成1分钱的损失!用户在产品X里当天收益本应该是0.03元,怎么会变成0.04元呢?多出的1分钱收益从哪里来的呢?

短网址数据库记录分析

带着上面的一系列疑问,开发人员首先排查了产品X收益的数据库记录。通过查询数据库发现,该用户收益结转在同一天内存在2笔交易记录。交易记录1创建时间为8:00:23,记录2创建时间为8:00:29,交易记录12的最后修改时间均为8:00:29,如图4-1所示。

正常情况下产品X收益每天只会结转一次,而这个用户当日有两笔收益结转记录。开发人员怀疑,很可能是出现了并发问题。

继续跟踪第一笔“TXID a”的记录,开发确认线上日志存在超时情况,失败原因是数据库链接数已满,线程等待提交。

分布式锁超时时间是5s,第一笔记录从创建到修改提交经历了6s,由此可见是在分布式锁失效之后,获得了数据库链接,进行提交成功。

有了以上三个排查思路后,我们可以开始逆推整个过程。

反向查询短网址对应的真实网址

根据数据库记录逆推当时的运行情况,如图4-2所示。

1)由于数据库连接数被占满,流水1创建的事务处于等待提交状态。

2)系统A发现交易失败,重试次数不满8次的,立即发起重试,触发生成流水2的请求。

35s以内数据均被分布式锁拦截,无法提交。

4)经过5s后,系统B的分布式锁失效,此时事务仍在等待未提交。

56s时,流水2成功越过数据库查询幂等校验发起事务,此时流水1拿到数据库连接,流水12两个事务同时提交。

6)由于数据库未做唯一索引,且支付受理模块打穿下层幂等原则,生成2TXID,导致两事务同时提交成功。

7)收益结转重复记账,用户多了一笔收入。

图4-2  数据库分布式锁超时并发控制失效

深入分析

完成了整个问题的过程逆推后,开发人员进一步分析,发现问题真正的原因还是在系统设计上。如图4-3所示,系统A的事务允许一定时间的等待,而上层业务的重试时间又比这个等待的时间要短。这就存在一个问题:系统A的事务还在等待中,业务就又发起了重试。如果是在这个应用场景下(可能业务上对重试要求更高一些),那么对幂等控制的要求就更高了。而仅仅通过一个分布式锁来控制,如果分布式锁的超时时间设置的比事务允许等待的时间短,那么在锁失效之后就一定会同时提交两笔请求。

继续对整个过程抽象化,开发人员得出一个结论:分布式锁在以下条件同时满足的情况下并发控制会被打穿。

1)上层业务系统层面有重试机制。

2)业务请求存在一定时间之后提交成功的情况,例如本例中第一次请求在事务等待6s后获得了数据库链接,提交数据库成功。

3)下游系统缺乏其他有效的幂等控制手段。

思考

了解了问题的来龙去脉后,接下来要怎么解决这类问题呢?我们想了以下几个方案。

1)调整B系统上的tr和分布式锁超时时间,tr超时调整为10s,分布式锁超时调整为30s短链接的高并发可以被有效的释放。

2)防止做收益结转产生并发控制幂等,调整了收益结转流水号的生成规则:前8位取X收益结转传入的交易号的前8位,第10位系统版本设置为“9”,最后8seq取交易号的最后8位,降低问题出现几率。

方案一:调整超时时间

调整超时时间后,业务重试时间与分布式锁有效时间的分布时间轴如图4-4所示,即在事务允许等待后提交成功的时间之外,再进行重试,另外分布式锁在整个阶段均有效,防止提交。

图4-4  分布式锁超时并发控制时间轴

方案一验证有效。

方案二:增加幂等控制(推荐)

如图4-5所示,单纯靠分布式锁不是控制并发幂等的方式,最稳妥的方式还是在提交记录的时候通过数据库严格控制幂等。确保不论如何设置超时时间,都不会出现幂等控制的问题。

图4-5  分布式锁超时并发控制时间轴

方案二验证有效。

小结

短网址用户的使用体验是我们努力的重中之重,而幂等控制又是短网址安全机制的最主要原理。回顾本文案例,从问题分析定位,到整个逻辑的梳理清洗,其中涉及了三个时间轴的相互作用,再加上事务、分布式锁、重试等,整个问题发生的逻辑还是比较复杂的。因此,在系统并发幂等控制设计中,单纯的分布式锁并不具备严格控制并发幂等的作用,建议在系统设计时,将第三方唯一性的幂等控制作为幂等控制的兜底方案,控制好这道幂等防线,这样不论业务如何设计,就万变不离其宗了。

扫描二维码推送至手机访问。

版权声明:本文由短链接发布,如需转载请注明出处。

本文链接:https://www.ft12.com/article_538.html

分享给朋友:

相关文章

FT12短网址:干事业不是先有钱,而是先有胆!

FT12短网址:干事业不是先有钱,而是先有胆!

胆量决议财富1、想常人之不敢想,做常人之不敢做2、不拼,怎么知道不行3、有没有勇气走出第一步,往往是人生的分水岭4、人的成功是被冒险逼出来的5、不冒险即是最大的冒险,咱们坚决不做老实人6、惧怕失利,就等于回绝成功7、要想知道梨子的滋味,就要...

FT12短网址:面向中间件的开发模式

FT12短网址:面向中间件的开发模式

中间件,middleware,短网址服务,是软件开发中一个比较古老的名词。以前toB的软件还是主流的时候,厂商特别喜欢玩中间件这个概念,目的就是为了让客户更心甘情愿地为厂商自己凭空增加的中间层付费。时代不同了,现在我们需要的大部分中间件都能...

言出必行,最重承诺的三大星座!

言出必行,最重承诺的三大星座!

信守诺言是立身处世的基本,所以答应的事一定要做到哦!★摩羯座★摩羯座的人善良、稳健、成熟,对原则性的问题非常执着,尤其是诚实守信这些基本道德准则,是必须遵守的。因此ta们大都言而有信,一诺千金。不过摩羯处事小心,一般不会答应别人的请求,只在...

都有哪些地方需要用到短网址?

为什么有那么多互联网企业推出短网址业务?包括google、百度、新浪、腾讯......首先网址缩短这种服务是在微博出现之后才流行开来的,原因很简单,微博140字限制,能表达的内容本来就两三句,如果再出现一个网址,就会占用非常大的篇幅,比如本...

从知识付费不同时期的演化趋势 看其蜕变轨迹

从知识付费不同时期的演化趋势 看其蜕变轨迹

【FT12短网址资讯】信息技能革命后,泥沙聚下的信息爆炸逐步被精准对接用户需要的商业开发筛选,常识也从海量的信息中被抽离,摇身一变从免费同享的资本成了待价而沽的商品。上一年知乎、分答、得到等途径的火爆,真实撬动了常识付费这个万亿规划的新商场...

小鹏汽车与海格通信合作研发北斗智能汽车导航系统,市场巨大

小鹏汽车与海格通信合作研发北斗智能汽车导航系统,市场巨大

[ 短网址导读 ] 在5月23日举行的第八届我国卫星导航学术年会上,小鹏轿车与斗极导航范畴公司海格通讯宣告达成战略协作,共同在高精度定位效劳、高精度导航地图及人机交互引擎方面进行技能与商品探究。亿欧轿车音讯,继本月初发布了在广东肇...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。