2020年9月,主打云数据仓库产品的硅谷独角兽Snowflake正式登陆纳斯达克,首日IPO筹资高达33.6亿美元,是有记录以来金额最大的软件IPO,突破了Uber 2019年5月上市创下的最大规模纪录。
如今,大数据技术早已进入普及期,数据仓库/分析领域更是巨头林立,既有传统厂商Oracle、Teradata,也有开源软件Hadoop,还有云厂商AWS Redshift、Google Bigquery,在这样一个竞争环境下,成立于2012年的Snowflake能脱颖而出实属不易。那么,Snowflake在数仓技术方面有哪些独到之处?其成功的背后又有哪些技术原因和趋势值得关注?
近日,InfoQ 有幸采访了腾讯云EMR技术负责人、专家工程师陈龙,聊了聊过去一年他所看到的大数据领域和数据仓库方向的技术演进。他还将在QCon全球软件开发大会(深圳站)“现代数据架构”专题 中进行《下一个SnowFlake? 看云上ClickHouse如何做存储计算分离》的分享,感兴趣的读者可以关注。
InfoQ:您可以说是大数据领域的资深从业者了,也参与过多个不同的大数据项目,能否跟我们分享一下您在大数据领域的从业经历?
陈龙: 我本人一直从事基础PaaS相关的产品开发,服务的都是公有云企业客户,早期负责云缓存Redis、云数据HBase,到现在的半托管式大数据基础平台弹性MapReduce以及云数仓ClickHouse。对于一个从事基于云基础设施提供PaaS服务的技术人来说,印象最深刻的莫过于企业客户对于产品本身的肯定和吐槽。肯定是通过产品或者技术以及服务帮助客户解决了客户的问题,吐槽是因为产品本身或多或少存在问题没有达到客户的预期,但综合来看,客户对于大数据基础产品的关注点可以归纳为:性能、成本、和产品易用性。如何通过技术手段把大数据组件的性能做到极致,同时尽可能以更低的成本满足业务需求,通过产品让客户的技术、运维等成本降到最低一直是我们努力的目标。
Comments