Ceph Day Beijing: One Ceph, Two Ways of Thinking - Between Customers and Developers
Ceph Day Beijing - BlueStore and Optimizations
-
Upload
danielle-womboldt -
Category
Technology
-
view
102 -
download
10
Transcript of Ceph Day Beijing - BlueStore and Optimizations
© ZTE Corporation. All rights reserved
4
FileStore
(1) 元数据瓶颈:数据和元数据分离不彻底
(2) IO 路径过长:强烈依赖本地文件系统;缺省 XFS 仍然过于重量级
(3) 目录层级复杂:针对 PG 中的对象进行顺序遍历非常困难
(4) 写放大严重:日志叠加日志,写性能受制约
(5) 流控不完整:IOPS 和带宽抖动
(6) 资源消耗大:频繁 syncfs 系统调用导致居高不下的 CPU 利用率
缘由
© ZTE Corporation. All rights reserved
6
目标
(1) 性能提升: 2 倍写性能提升和至少同等读性能
(2) 新硬件支持:新设备支持(NVMe SSD、NVRAM)
(3) 新特性支持:新特性支持(数据校验、数据压缩)
© ZTE Corporation. All rights reserved
8
途径
(1) 分离元数据:元数据全部使用数据库存储,并支持使用独立的块设备存储
(2) 缩短 IO 路径:绕过本地文件系统,直接接管裸设备
(3) 新的数据库引擎:RocksDB + BlueFS
(4) 新的块设备接口:NVMe SSD、NVRAM…
(5) 技术改造:新的磁盘数据结构、新的缓存技术、新的磁盘空间管理技术…
© ZTE Corporation. All rights reserved
12
磁盘数据结构
(1) PG
(2) 对象:稀疏段支持
(3) 全局命名空间:轻松搞定 PG 分裂
(4) 数据校验:静默数据错误抵御能力
(5) 数据压缩:有效提升空间利用率
(6) 数据共享:范围(轻量级)的克隆操作支持,EC 必须
© ZTE Corporation. All rights reserved
16
BlueFS 目的
完美适配 RocksDB
形态
简易用户态事务(日志)文件系统
特点
(1) 扁平目录
(2) 增量日志
(3) 支持数据和日志分开存储
(4) 支持 .sst 和 .wal 分开存储
© ZTE Corporation. All rights reserved
17
file1
directory2(“/var/db”)
file2
file3
file_map
file1
directory3(“/var/log/ceph”)
file2
file3
file_map
file1
directory1(“/root”)
file2
file3
file_map
dir_map
BlueFS
© ZTE Corporation. All rights reserved
19
总结与展望 收益
(1) 基本实现 2 倍写性能提升
(2) 具备静默数据错误抵御能力(依赖数据校验)
(3) 新型块设备支持能力
TODO
(1) 随机性能仍然不够理想
(2) 对象级的压缩策略性价比太低(多副本模式下存在重复)
(3) 内存消耗巨大
(4) 与已有版本兼容性问题(潜在的升级风险)