11月25, 2020

菜鸟实时数仓2.0进阶之路

导读: 供应链物流场景下的业务复杂度高,业务链路长,节点多,实体多,实时数仓建设难度高。菜鸟跨境进口业务场景更是如此,更复杂的场景带来更复杂的实体数据模型,对接的业务系统多导致ETL流程特别复杂,还有海量的日均处理数据量,使得团队在建设进口实时数仓的过程中,面临着诸多挑战:如何保证复杂实体关系下的数据准确性?如何降低多数据源情况下的数据处理复杂度?如何提升实时多流Join的处理效率?如何实现实时超时统计?如何实现异常情况下的数据状态恢复?本文主要分享菜鸟进口实时数仓的升级经验,以及如何利用Flink的特性解决在开发实践中遇到的问题。

主要内容包括:

  • 相关背景介绍

  • 进口实时数仓演进过程

  • 挑战及实践

  • 总结与展望

01 相关背景介绍

1. 进口业务简介

进口业务的流程大致比较清晰,国内的买家下单之后,国外的卖家发货,经过清关,干线运输,到国内的清关,配送,到消费者手里,菜鸟在整个过程中负责协调链路上的各个资源,完成物流履约的服务。去年考拉融入到阿里体系之后,整个进口业务规模占国内进口单量的规模是非常高的。并且每年的单量都在迅速增长,订单履行周期特别长,中间涉及的环节多,所以在数据建设时,既要考虑把所有数据融合到一起,还要保证数据有效性,是非常困难的一件事情。

2. 实时数仓加工流程

① 一般过程

点击查看原文>

本文链接:https://blog.jnliok.com/post/B2DqjwNrHiTlKQNzStpY.html

-- EOF --

Comments