海拍客门店应季属性挖掘

2022年05月16日 692次浏览

智能应用组

业务背景与需求

业务背景

品牌和门店是海拍客平台的主体,针对门店和商品的营销生命周期的建设也是产品和业务一直在构建和优化的基础设之一;此次的“品牌门店营销生命周期”项目也是基于此背景和需要提出的具体方案,该方案的核心有两块:基于商品视角的门店生命周期画像和基于门店视角的门店偏好画像;前者在推荐系统,搜索系统等渠道中已经有了相应的落地和应用,但后者一直是我们平台的短板;尤其是门店对品牌的偏好,对购买时间的偏好,对单品的复购周期,对应季品的偏好等的挖掘。该博客正在在此业务背景中分享算法组在门店应季品,应季属性方面的挖掘实践。

正如前文介绍,门店应季属性 一直是业务和产品想挖掘的一个痛点,该属性的精准定位可以有效帮助门店及时发掘应季商品,不仅提升门店的销量同时也降低了门店的品类运营成本;但在以往的方案中,不管是通过业务规则还是在推荐系统中,对门店应季属性的发掘和认知都是后验性的,没有有效的方案可以提前准确匹配,只有等到这段时间之后才能通过统计或者经验汇总一部分应季品类,无法有效解决门店应季商品的问题;基于此业务背景,通过业务规则和统计方法构建了这一套门店应季属性的挖掘方案,以满足门店应季属性提前精准匹配的业务需求。

需求介绍

基于上述“品牌门店营销生命周期”的业务背景以及HIPAC平台各类实际数据,通过挖掘门店应季属性,具体包括门店应季品类,门店商品,应季品牌,应季时间等,将应季属性应用到各个业务模块中,以达到提升业务目标的目的。对于需求方来说,最终需要输出每个区域在每个叶子类目中的各个应季属性,形成标准文档;在此基础上,与门店视角相关的其他门店偏好属性也是可以继续挖掘的内容,包括品牌偏好,AIPL生命周期所处阶段,品牌复购周期等等。

应季属性在推荐系统中的应用

推荐系统介绍

推荐系统的核心功能是在有大量商品/内容和大量用户的场景下进行精准高效的货店匹配,这类场景在现实生活中应用非常广泛,电商的商品推荐系统就是其中一种。推荐系统是一套综合性非常强的技术方案,其综合性主要体现在业务目标多元化,用户需求个性化,技术方案融合化,评估标准丰富化等方面。推荐系统的核心模块主要有两个:召回,排序。

  • 召回 主要的任务就是从所有的商品池中粗略筛选出符合每个用户个性化需求的产品,形成产品列表;该环节由于有大量的商品需要计算和匹配,所以采用的方案相对简单,模型容量相对较小,复杂度也较低,且主要采用的是用户的显性数据,包括访问行为,交易行为,点击行为,商品的属性等数据;另外需要补充一点的是,召回方法一半氛围业务召回和算法召回,两者相辅相成,在业务中融合使用。
  • 排序 是在召回模型的基础上,融合更多的相关数据和特征,使用更加复杂的模型对召回阶段筛选出来的商品进行更加精细的评估和排序,进而形成相应的推荐列表。

推荐系统基础框架包括召回模块和排序模块,同时,考虑到业务复杂度,计算能力的消耗,推理速度的因素等,排序模块可以细分成粗排,精排,重排等子模块,其关系层层递进,推荐产品量越来越少,同时推荐结果也越来越精准。海拍客的推荐系统也是在此流程和结构的基础上构建的,主要包括召回,粗排,重排这几个环节,由于业务模型复杂度没有很高,所以将粗排和精排环节做了合并。

海拍客推荐系统与门店应季属性的融合

海拍客的推荐系统主要由丰富的召回模块和排序模块当中的粗排子模块组成;尤其是召回模块部分,考虑到20多个场景以及业务本身的复杂度,该模块从业务召回,算法召回,用户行为召回,item2item召回,协同过滤召回等方面总共开发了100多路的召回方案进行个性化的融合与匹配;排序模块现在采用的主要是两套方案,LR模型和GBDT+LR模型;LR模型作为推荐系统排序模型中的baseline,在海拍客推荐系统中也是承担了基础排序的核心任务,在LR模型基础上,GBDT+LR模型做了一定的升级和提升,尤其是特征工程和特征筛选模块,LR模型主要靠人工和经验来筛选,但GBDT+LR模型可以做到一定程度的自动化,高效且准确。

顺便说一下,在后续的迭代和优化中,海拍客的推荐系统还是会在个性化召回策略开发方面,以及排序模型的优化方面做更佳深入的探索和应用。

回到主题上,本文所讨论的门店应季属性的应用在推荐系统中也是从召回模块切入,通过找出各个门店在不同时间点,不同季节对不同商品,不同品牌的交易偏好,通过个性化推荐的方式在相应的季节节点给各个门店推荐个性化的商品内容,以提高货店匹配的效率。需要说明的是,在应季召回策略在推荐系统中的基础上,应季召回还会有其他形态的应用,比如:在APP产品中添加tag标签,在电销环节生成应季名单,在搜索和推荐中进行加权等等。

门店应季属性挖掘

门店应季属性的挖掘是在业务需要的前提下进行的尝试和探索,初始阶段没有明确的挖掘方法和方案,传统的监督算法和非监督算法也无法有效匹配这类业务需求;考虑到应季属性的核心是从时间和最终的交易来切入,所以通过多次迭代最终确定了以门店在品类的交易行为为主要依据展开验证;具体方案如下文所示,首先是验证了某个区域在12个月中的交易频率和交易金额展现的,但随着方案的一步步展开,很多具体问题也展现了出来,比如区域的选择,时间段的选择,行为的选择(包括搜索,点击,加购,交易等等,这些行为都可以作为应季行为的主要载体),行为占比的选择等等。具体方案如下:

基于门店交易行为的应季属性挖掘尝试

根据所有省份在所有3级类目上在12个月当中的交易分布,发现大量的省份在大量的3级类目上的交易分布情况有明显的区别,辨识度很强;交易笔数和交易金额分布呈现明显的正态分布,也就是说:很多省份在很多3级类目上有明显的应季交易行为。基于此背景,对所有省份在所有3级类目上的交易分布进行分析,并结合业务匹配进行排查,如下图1所示,广东省在T恤这个类目上的下单高峰期在3月份,其3月份下单笔数占到全部月份的35.6%,其3月份下单金额占到全部月份的33.7%,也就是说3月一个月的交易量占到了全年交易量的1/3;类似的某省份x某3级类目的子场景不在少数且同样有明显的辨识度;因此基本可以判定,广东省在T恤这个类目上的应季月份是3月份。依次类推,各个省份在其他类目上的应季品类和时间节点是否也可以利用此思路计算出来?

如何处理应季属性辨识度不明显的场景

基于3.1的方案,通过遍历所有省份在所有3级类目上的交易分布,发现在大量场景有明显的应季属性,但也有大量场景其应季属性的辨识度非常低;如下图2所示,福建省在“一次性防溢乳垫”类目上的交易情况相对比较平均,除了10月交易占比稍高之外,其他月份几乎相差无几,且10月最高占比与整体平均占比相差也不大;基于此场景可以判定,并不是所有的省份x3级类目的子场景都有很强的应季属性,对这类场景我们可以暂时不做“ 门店应季品类 ”属性的处理,仅针对有显著应季属性的门店进行后续运营操作;但如何有效分辨出是否有明显的应季属性很关键?

应季属性挖掘方案全量应用

通过上述方案,虽然可以筛选部分有明显应季属性的门店品类出来,但问题在于,如何在全量数据上筛选“是否有明显应季属性”的场景出来,毕竟在30+省级区域*1000+个3级类目的交叉场景中,如果无法筛选全量的应季数据,则该属性还是无法在全平台推广和应用;基于此,我们尝试对交易占比进行了计算和阈值筛选。通过多个阈值的验证,基本可以判定,单月交易占比超过10%的时候有大量的场景无法有效区分其应季属性(图1);单月交易占比超过20%的时候大部分场景其应季属性很明显,但有少数应季属性不明显(图2);单月交易占比超过30%的情况下,几乎所有场景都有明显的应季属性(图3);因此在全量数据上我们利用30%的阈值进行了筛选。


业务规则补充应季属性挖掘算法

前面步骤已经可以筛选出符合初始业务需求的门店应季属性出来,并且效果显著。但从业务角度出发,新增了一些具体筛选逻辑,其中包括删除一级类目是奶粉和纸尿裤的品,删除业务域为“卡票券”的数据等;具体业务筛选规则如下:

  • 数据范围为2019年–2021年,总共3年/36个月,且36个月每年同月份数据进行合并;
  • 过滤掉每个省份每个3级类目100单以下的明细;
  • 叶子类目名称中带关键词"其他" 的删掉;
  • 业务域为"其他"和"卡券票"的删掉;
  • 奶粉一级类目的品删掉;
  • 纸尿裤一级类目的品删掉;
  • 清洗完以后,找对应的采购确定是否有明确的应季特点,以及跟采购现有的应季品交叉
  • 每个省份/城市在每个3级类目上下单金额占比单月超过其总金额30%定义应季节点

应季属性挖掘效果展现

经过对全量数据的算法化和业务化筛选,总共从15万条数据中筛选除了4000多条应季数据,其中包括31个省份,570多个3级类目。下图6列举了各省份在各3级类目上的应季季节是3月份的部分数据,其中包括省份,3级类目和应季月份等指标。

通过与业务的基础论证和分析,该清单能清晰展现门店应季属性,尤其是应季品类和应季月份。此外,需要注意的是,由于省份口径太宽,所以基于更小粒度的城市纬度我们也做了验证,基本也可以满足应季属性的区分。

下图是业务筛选的应季品类和数据算法筛选的应季品类的效果对比;以下是统计了四个目前比较有代表性的主动营销的场景上过去的6个月对应的数据。

  1. 采购效果:在现有的CTR基础上, 拆分出 "采购认定的应季类目" 和 "非采购认定的应季类目".前者有相对提升 27%. 此时只判断到 类目对应的应季月份;首页推荐单场景提升了 8%
  2. 算法效果:在现有的CTR基础上, 算法判断应季品类的CTR相对 非应季品类的CTR,相对提升了 70% ...... 这里受到不同场景的转化率差异影响.单看 首页推荐场景, 相对提升了 32%
  3. 因为算法会受到异常月份(疫情的口罩)影响,所以这块就是 采购+算法 两大视角联合区分是否应季. 最终结果为 算法+采购, 转化率比起 单纯算法 有一定下降

从上述结果来看,数据算法筛选的门店应季属性数据在同样的平台场景下,PV_ctr有32%的提升,远超过业务采购相应的8%的提升;这也应证了早期的核心假设。

总结与展望

从上述结果可以看出,基于门店历史交易行为的统计属性推算门店应季属性是一次有效的尝试,其业务价值巨大,不仅弥补了门店营销生命后期方案中关于应季属性挖掘的短板,也弥补了一直以来召回方案中以用户行为为主而缺少以商品属性为主的运营策略。

接下来,一方面,门店应季属性的相关结果后续会在推荐系统中应用起来,好的结果和方法也会在其他场景和渠道当中使用;另一方面,类似的解决方案和分析策略也会在其他属性的挖掘当中进行复用,以求更加深入和全面的推进数据智能对业务的提升和辅助。