京东分布式K-V存储设计与挑战 SACC2017 · 京东分布式k-v存储设计与挑战...

京东分布式K-V存储设计与挑战

京东商城-基础架构部-丁俊

2017-10

SACC2017

非持久化存储—JIMDB 持久化存储— FBASE JIMDB：兼容REDIS协议，在线弹性伸缩的，数据全部保存在内存的K-V存储系统 FBASE：支持多协议，支持范围查找的持久化K-V存储系统

产品介绍

SACC2017

JIMDB：读写性能要求高，性能要求优先于数据可靠性 FBASE：对数据可靠性要求高，数据量大，数据冷热分布明显

JIMDB FBASE

持久化异步或无同步

读写性能高低

顺序访问不支持支持

数据分区哈希范围或哈希

复制主从异步同步/异步

访问协议 redis mysql/http/redis

应用场景

SACC2017

JIMDB架构图

server server

client

failover docker

manage sentinel

SACC2017

FBASE架构图

Mysql driver

HTTP client

Hive Spark

gateway

data server

master

Jimdb client

SACC2017

故障检测与恢复

在线扩容

高可用

升级

面临的挑战与设计方案

SACC2017

JIMDB的故障检测与恢复

1、故障检测程序独立部署，分散在不同机架上 2、投票决定，存活状态一票否决 3、一个机房部署多组，每组负责部分实例 4、宿主机agent辅助检测确认

误判可能的问题：1、短暂的多master；2、频繁切换如何避免误判：1、部分网络故障；2、服务程序繁忙响应慢

问题：基数大，故障次数多人工响应慢

SACC2017

故障检测

故障恢复

拓扑元数据管理

客户端

SACC2017

为什么要在线扩容： 1、业务增长超预期，预估不准 2、避免资源闲置 3、业务快速成长，资源紧缺是一种常态扩容触发条件：单个分片内存占用大小进出流量（CPU使用率）单个分片的大小主要考虑： 1、扩容过程的持续时间 2、CPU与内存的使用率

JIMDB在线扩容

SACC2017

监控采集

扩容下发临时拓扑

下发正式拓扑

JIMDB在线扩容流程

SACC2017

怎么平滑扩容：提前把将要变更的拓扑信息下发给客户端客户端捕捉到特定异常后使用临时拓扑扩容完成后临时拓扑变更为正式拓扑

碰到的问题：

单个热KEY导致流量高单个大KEY导致存储占用高大促前的扩容需要提前规划

注意事项：

数据迁移最小单位为槽单个shard需要控制大小，避免迁移数据多时间长

JIMDB在线扩容

SACC2017

多副本异步复制副本部署要求： 1、跨物理机 2、跨机架 3、同城跨机房 4、异地数据中心

master

slave slave

JIMDB复制

SACC2017

JIMDB异地灾备

1、直接部署slave，内存缓冲区 2、经过synclog模块，异地机房只是一个远程副本 3、集群间有复制关系

SACC2017

JIMDB异地灾备

直接部署slave，内存缓冲区

master

slave slave

同城机房A 同城机房B

异地机房C

1、网络故障，发生全量同步的次数会增多 2、跨机房写 3、控制管理跨地域访问影响性能 4、如果要跨地域添加多个副本，同一份数据多次传输

SACC2017

JIMDB异地灾备

经过synclog模块，异地机房只是一个远程副本避免全量同步的主要场景：

源端主从切换；网络中断；批量导数； synclog模块宕机。

数据堆积：

短暂的网络不通批量写入数据

异常行为：

Client get null Client get Exception

master

synclog

SACC2017

JIMDB异地灾备

client

synclog JIMDB

client

synclog

集群间有复制关系优点：多机房同步可写可以双向复制形成复制关系的集群间，shard数量可以不一致怎么避免循环复制： KEY的属性中编码机房标识，同步模块复制的KEY机房标识不做更改

SACC2017

内存中的数据做迁移按照shard滚动升级，新版本的容器创建在同一台宿主机上迁移完成后客户端捕捉到数据已迁移的异常，会使用新的拓扑

old new

升级

SACC2017

1、监控指标，曲线图 2、模拟用户发送命令进行检测，按性能排序

性能监控与排查

SACC2017

KEY全局有序排列

支持多种复制模式

支持schema

支持模板列，插入时可以自动添加列

存储层： LSM-Tree(Log-Structured Merge Tree)

Fbase介绍

SACC2017

数据组织方式

partition partition

Range SACC2017

规则：Hash/list 场景：按key访问，或者单个partition内范围扫描优点：写入流量可以相对均匀分布缺点：不能全局范围扫描，读取必须带有partition key，兼容redis协议、partition second index等特性的Table，一个partition对应一个dataserver，有容量限制，需要提前规划。

Partition table

SACC2017

部署

Dataserver group

… Dataserver

… SACC2017

物理隔离：同一个集群中，不同的table数据分布在不同的dataserver group中。减少raft心跳连接数：一个region的所有副本只能分布在一个dataserver group内，每个region是一个独立的raft复制组，raft心跳按照dataserver级别进行合并。 Partition跨机房分布：不同的dataserver group分布在不同的机房内，partition与dataserver关联，实现不同的partition分布在不同的机房中。

Dataserver group

SACC2017

master

slave1 slave2

master

slave1 slave2

zone1 zone2

复制

复制方案的选择: 成本性能数据安全

Leader选举：副本间选举外部模块指定

SACC2017

心跳&元数据

Data Server

master

Gateway

Heart & Metric Server

Meta Data Server

故障恢复、性能指标收集、元数据管理等功能，根据集群规模大小，可以分开部署，也可以合并在一起。

SACC2017

缓存

块缓存 KEY缓存按照hash规则进行分区的，需要开启KEY级别的缓存

SACC2017

分裂

本地分裂文件引用 Compact阶段删除数据

SACC2017

存储层文件记录TTL的最近时间,避免不必要的扫描读取时过滤下一步优化：提供TTL分布数据

SACC2017

未来功能规划

支持redis数据结构

支持二级索引

支持事务

SACC2017

京东分布式K-V存储设计与挑战 SACC2017 · 京东分布式k-v存储设计与挑战...

Documents

Transcript of 京东分布式K-V存储设计与挑战 SACC2017 · 京东分布式k-v存储设计与挑战...

东京80年代 第3卷

CONTENTSBeijing Bureau 北京运营中心 北京市东城区东直门南大街5 号中青旅大厦12 层 12/F, CYTS Plaza, No.5, Dongzhimen South Avenue, Dongcheng District, Beijing,

东京80年代 第4卷

东京80年代 第5卷

Shitara Printing Machinery & Supplies Co.,Ltd KAGAKU CORPORATION 【公司简介】 东京本部 东京都中野区弥生町3-24-1-101 邮编 164-0013 TEL +81 3 6276 4067 ...

JD.com 京东 中国跨境电商新机遇 · 目录 商机无限的电子商务 京东简介 搭建网购快车 什么和京东合作 如何入驻京东国际

湖岸三号 投资季度报告...北京市东城区东长安街 1 号 东方广场东方经贸城 东二办公室 18 层10-12室 联系人：黄奕 Email: estelle.huang@shoreline-capital.cn

2018 年北京市【东城区】初三二模【数学】bj.xdf.cn/uploads/soft/180601/2607_1120376341.pdf北京新东方优能中学&优能1对1&新东方在线&东方优播联合出品

青岛新东方集装箱储运有限公司 简 介

东京80年代 第9巻

东京·攻略 - d.lvyou.baidu.comd.lvyou.baidu.com/guide/2142/百度旅游-东京攻略.pdf · 3 圃吆卜力美朮醑探寺宣 崎骏 ... 会 -丌会散厐 花期虽短，但正因

czj.dg.gov.cnczj.dg.gov.cn/dggp/uploads/201910/20191016.1571212306392.docx · Web view东莞市土地储备中心土地收储及前期开发项目 （环同沙片区收储调查服务）

东京80年代 第7卷

东京宝冢剧场（东京） 2017年6月16日-7月23日kageki.hankyu.co.jp/chinese/revue/2017/bakumatsutaiyouden/cpl73a... · Asu Kujo 志道闻多: ... Umi Kirara 有吉熊次郎:

京东云 京东云隐私政策...隐私政策 隐私政策/引言 文档版号：019051319 1 京东云隐私政策 更新日期：2019年5月13日 生效日期：2019年5月20日

2017 美 旅到达东京飞机场 ※根据当天航班情况做出合适调整 浅草观光 皇居公园・东京站观光 抗老化餐厅 有机蔬菜餐厅 东京市内酒店 宿

8 ¹8Dª 1%'京东云安全 4 01 京东云安全概述 2018 / 11 1.1 京东云简介 京东云（JD Cloud）是京东集团旗下的全平台云计算综合服务提供商，拥有全球领先的云计

京东质量管理体系系列报道之七 京东客服：服务品质 …epaper.cena.com.cn/content/1/2015-10/27/05/2015102705...2005/10/27 · 明。”2014年10月底，京东全国客服中心宿迁

Hadoop 在京东的应用

东京80年代 第8巻

东京80年代第3卷

CONTENTSBeijing Bureau 北京运营中心北京市东城区东直门南大街5 号中青旅大厦12 层 12/F, CYTS Plaza, No.5, Dongzhimen South Avenue, Dongcheng District, Beijing,

东京80年代第4卷

东京80年代第5卷

Shitara Printing Machinery & Supplies Co.,Ltd KAGAKU CORPORATION 【公司简介】东京本部东京都中野区弥生町3-24-1-101 邮编 164-0013 TEL +81 3 6276 4067 ...

JD.com 京东中国跨境电商新机遇 · 目录商机无限的电子商务京东简介搭建网购快车什么和京东合作如何入驻京东国际

湖岸三号投资季度报告...北京市东城区东长安街 1 号东方广场东方经贸城东二办公室 18 层10-12室联系人：黄奕 Email: estelle.huang@shoreline-capital.cn

青岛新东方集装箱储运有限公司简介

东京80年代第9巻

东京·攻略 - d.lvyou.baidu.comd.lvyou.baidu.com/guide/2142/百度旅游-东京攻略.pdf · 3 圃吆卜力美朮醑探寺宣崎骏 ... 会 -丌会散厐花期虽短，但正因

czj.dg.gov.cnczj.dg.gov.cn/dggp/uploads/201910/20191016.1571212306392.docx · Web view东莞市土地储备中心土地收储及前期开发项目（环同沙片区收储调查服务）

东京80年代第7卷

京东云京东云隐私政策...隐私政策隐私政策/引言文档版号：019051319 1 京东云隐私政策更新日期：2019年5月13日生效日期：2019年5月20日

2017 美旅到达东京飞机场 ※根据当天航班情况做出合适调整浅草观光皇居公园・东京站观光抗老化餐厅有机蔬菜餐厅东京市内酒店宿

8 ¹8Dª 1%'京东云安全 4 01 京东云安全概述 2018 / 11 1.1 京东云简介京东云（JD Cloud）是京东集团旗下的全平台云计算综合服务提供商，拥有全球领先的云计

京东质量管理体系系列报道之七京东客服：服务品质 …epaper.cena.com.cn/content/1/2015-10/27/05/2015102705...2005/10/27 · 明。”2014年10月底，京东全国客服中心宿迁

东京80年代第8巻