海拍客全链路压测实践

2022年03月20日 1,975次浏览

姚俊杰(闻羽)

一、压测需求和目标

1.1 前言
全链路压测在海拍客已经有2~3年的实践。海拍客是一家母婴互联网产业平台，致力于将海内外新的品牌、新的知识、好的消费理念通过全中国母婴店，带给三线以下城市的消费者，帮助消费者完成消费升级。

随着业务的快速发展，我们日常遇到的系统性能压力问题也逐渐出现，甚至经常会因一些突发的营销活动，导致系统性能指标突然暴涨，可能导致我们系统的瘫痪。最近几年，随着系统架构的不断升级，以及电商业务的多样化和各种促销活动，传统性能测试已不能满足现有系统架构的需要。

所以，全链路压测变得越来越基础，也越发重要。经历了两年多的全链路压测实践与总结沉淀，通过录制流量回放，模拟大促真实流量，串联线上全部系统，让核心系统流程成倍比的同步放大用户真实流量，海拍客压测平台和全链路压测体系已经能够承担起公司整个后台服务稳定性的重任。

1.2 压测需求和目标
目前公司压测需求一般来源以下几个方面：常规划压测、年终大促保障、新系统上线支持、技术升级验证、站点容量规划以及性能瓶颈探测等。

1、常规化压测：由于日常需求迭代可能对系统产生的影响，通过定期定时常规化的压测保障核心业务接口的性能避免意料之外的故障

2、年终大促保障：在大促业务峰值到来前，通过充分的性能压测，确保重大活动等峰值业务稳定性，保障峰值业务不受损。

3、新系统上线支持：在新系统上线前，通过执行性能压测能够对系统的负载能力有较为清晰的认知，从而结合预估的潜在用户数量保障系统上线后的用户体验。

4、技术升级验证：在系统重构过程中，通过性能压测验证对比，可以有效验证新技术的高效性，指导系统重构。

5、站点容量规划：通过性能压测实现对站点精细化的容量规划，指导分布式系统机器资源分配。

6、性能瓶颈探测：通过性能压测探测系统中的性能瓶颈点，进行针对性优化，从而提升系统性能。

2.1 压测平台

主要支持两种压测方式：

1）基于jmeter二次开发的http和dubbo单接口压测

2）线上流量录制回放

两种压测方式支持的功能比较：

流量录制与回放技术的具体实现可参考：
流量录制与回放技术在海拍客的应用

2.2 压测流程
经过几年的实践和演进，海拍客全链路压测流程已非常完整，主要流程如下：

梳理清楚端到端的请求链路、技术架构、分层结构、模块划分，以及RPC、消息、缓存、数据库等中间件的使用情况，分析潜在的瓶颈点，并针对性的增加监控指标、制定应急预案。

3.1 通过借助平台工具链路抓取pinpoint链路，梳理压测某个应用时同时要关注的上下游依赖
下图是流量从用户入口，到hop网关层、mall2c应用，以及下层依赖的ucenter、icp、crm-core等服务的应用级链路。

3.2 借助dubbo服务框架，查询应用依赖
比如buy应用压测时，需要同时关注下面依赖的其他应用，为后续申请压测标和影子库做准备。

3.3 系统架构需要关注的链路如下：

每个组件都可能产生不同的性能问题：

首先确定压测目标之后，我们开始进入正题。压测场景的设计主要包括：业务场景建模、测试数据准备、压测执行三个关键步骤。下面我们用实战的方式说明每个步骤的常见做法。

4.1 业务场景建模：

主要来源于链路分析、业务分析，以便建立的压测模型可以更真实的还原生产环境的压力分布，这点最主要压测负责人对于技术架构和业务场景的理解，
由于营销活动的玩法特异，根据需要可适当融合两种压测方，录制回放与接口回放并行施压的场景毕竟达到压测目的为第一优先级。
流量预估根据压测目标确定该业务场景下的压测最大流量（预估QPS算法= （录制流量时QPS*当日的GMV÷ 目标的GMV）±流量变化（业务需求迭代可能导致的流量变化）
数据预热是否需要执行缓存预热相关操作等等

4.2 测试数据准备可分为两类：