平台|StarRocks VS ClickHouse,携程大住宿智能数据平台的应用
携程是全球领先的一站式旅行平台 , 现有员工约30000人 , 公司旗下的平台可面向全球用户提供一套完整的旅行产品、服务及差异化的旅行内容 。 携程大住宿部是国内最大的酒店分销电子商务平台 , 在全球拥有约63万家国内酒店和70万家国际酒店 。 携程大住宿数据智能平台中70%的实时数据场景已经接入StarRocks , 查询响应速度平均在200ms左右 , 超过500ms的慢查询数大幅度减少 , 同时人力和硬件成本大大降低 。 后续会将剩余的实时场景和离线场景全部迁入StarRocks 。
(作者:史文俊携程大住宿数据智能部资深开发工程师 , 负责携程大住宿数据智能平台的研发)
平台现状
大住宿数据智能平台(简称HData)是一个为携程大住宿业务提供数据可视化的平台 , 简而言之 , 就是用图表的形式更为直观地展示与解读数据 , 帮助业务获得知识和洞察 , 形成正确的决策 , 做出快速决策 , 少犯错误 。 在大住宿内部 , 每个部门关心的指标侧重点会不同 , 权限控制也都会不一样 , 所以数据展示的方式也是多样化 。
文章图片
HData每天有将近2200左右的UV , 10w左右的PV来访问我们的系统 , 而节假日期间的访问量基本都会翻2到3倍 。
文章图片
从2018年开始使用ClickHouse以来 , 我们90%的业务线都强依赖于ClickHouse , 95%左右的接口响应时长都在1s以内 , ClickHouse强悍的查询性能得到了充分体现 。
现在总数据行数大概700亿左右 , 每天有超过2000个左右的流程 , 需要更新的数据行数大概有150亿左右 。
未压缩前的数据总容量:8T , 压缩后的数据总容量:1.75T 。
文章图片
但是ClickHouse无法支持高并发查询的缺陷也很明显 , 现在CPU大部分情况下消耗是在30%以内 , 不过当有用户大量查询时CPU使用率可能就会被拉的很高 。 并且如果出现一个复杂的高消耗查询 , 只靠人工手刷 , 可能在很短的时间内就可以把40C的CPU使用率打满:
文章图片
工作日的早上9点一般会有一波访问高峰 , 为了保持系统稳定 , 我们采用主动建立缓存+用户被动触发缓存的机制来降低ClickHouse服务器的压力 。
一方面我们会将一些高频访问的页面查询结果进行缓存 。 另一方面 , 在离线数据更新完成后 , 我们通过分析用户行为数据 , 主动给最近5天来访问过相关数据的用户缓存默认条件的数据 , 降低波峰 。
推荐阅读
- IT|95306铁路货运电子商务平台升级上线 可24小时办理货运业务
- Intel|英特尔放出i9-12900K平台PCIe 5.0 SSD演示 突破13GB/s传输速率
- Intel|Intel在Alder Lake平台演示PM1743 PCIe Gen 5 SSD,带宽达14GB/s
- 科技创新平台|云南:打造世界一流食用菌科技创新平台
- 硬件|Intel 11代酷睿4核15瓦超迷你平台 仅有信用卡大小
- 平台|[原]蚂蚁集团SOFAStack:新一代分布式云PaaS平台,打造企业上云新体验
- 协作|微软发布了个“圈”,官方详解Microsoft Loop全新协作平台
- 审判|直接服务“三城一区”主平台,怀柔科学城知识产权巡回审判庭成立
- 相关|科大讯飞:虚拟人交互平台1.0在媒体等行业已形成标准产品和应用
- 平台|数梦工场助力北京市中小企业公共服务平台用数据驱动业务创新