LAMOST 数据存储与发布系统 设计方案与原型
description
Transcript of LAMOST 数据存储与发布系统 设计方案与原型
2006.10.29VO Tutorial @ CAS 2006 3
LAMOST 简介
大天区面积多目标光纤光谱天文望远镜( LAMOST) 是一架横卧南北方向的中星仪式反射施密特望远镜。应用主动光学技术控制反射改正板,使它成为大口径兼大视场光学望远镜的世界之最。由于它的大口径,在曝光 1.5 小时内可以观测到暗达 20.5等的天体。而由于它的大视场,在焦面上可以放置四千根光纤,将遥远天体的光分别传输到多台光谱仪中,同时获得它们的光谱,成为世界上光谱获取率最高的望远镜。它将安放在国家天文台兴隆观测站。它将成为我国天文学在大规模光学光谱观测中,在大视场天文学研究上,居于国际领先的地位。
2006.10.29VO Tutorial @ CAS 2006 4
自动化观测与处理子系统介绍
• LAMOST 每夜将观测上万个天体的光谱,其数据量是数 G 字节;而总的计划是观测上千万条光谱。因此LAMOST 应该是一个全自动地进行观测运行和数据处理的系统,以最有效地获得观测数据和取得最大的科学成果。为此目的, LAMOST 设计了一套完整的自动化观测与处理的软件,其中主要包括巡天战略系统(SSS) 、观测控制系统 (OCS) 和数据处理系统 (DPS) 。
• LAMOST 数据存储与发布系统就是数据处理系统( DPS )的一部分。它将管理 LAMOST 各种数据的存储、备份等工作,并将数据分阶段的发布出来,以方便国内外的研究人员使用。
2006.10.29VO Tutorial @ CAS 2006 5
LAMOST 数据规模估算
• 根据详细设计文档的描述, 4000 根光纤将以每 250 根为一组,分为16 组,输入到 16 台光谱仪。每天光谱仪将每条光谱分为红蓝两部分,由两台 CCD 相机进行记录。完整的观测系统由 32 台 CCD 相机构成。每台 CCD 相机采用 4096×4096 像素 CCD 记录数据,像素深度 16比特(两个字节)。一个观测夜内,对每个天区将进行三次重复观测,每次 30 分钟。如果按照每晚工作 7.5 到 9 小时,则可以观测 5个天区。
• 根据上述观测模式,每晚得到的原始观测数据大小为:• 4K*4K*2*32*5*3=15.36 (GB)
• 考虑平场拍摄等因素,每晚原始数据的大小可以按照 20GB 来估计。如果按照每年 300 天观测,那么一年积累的原始数据约为 6TB 。按照项目 5年的生命周期来估计,整个项目的原始数据将为 30TB左右。
• 假设经过处理得到的一维光谱大小为原始数据的一半,星表为一维光谱大小的一半。其它类型的数据与星表大小类似。那么 LAMOST项目对存储容量的需求大约为 60TB 。
2006.10.29VO Tutorial @ CAS 2006 6
数据种类
• 二维光谱数据。包括 CCD 相机直接观测得到的数据和经过二维图像处理后得到的二维光谱图像数据。
• 一维光谱数据。二维图像数据经过图像处理系统处理后得到的一维光谱。
• 巡天星表。经过光谱自动处理和分析后得到的包含目标天体各种测量参数在内的星表。
• 工作星表。为 LAMOST 巡天观测的进行而准备的各种星表,包括核心星表、输入星表、导星星表等。
• 系统运行数据。 LAMOST 观测与运行过程中产生的,对科学数据的使用有直接影响的数据,比如各个子系统的日志数据等。
• 其他需要保存的数据。
2006.10.29VO Tutorial @ CAS 2006 7
各种数据的存储方式
• 二维光谱数据,按照国际惯例以 FITS格式以文件形式保存,同时以关系型数据库方式保存数据文件元数据。
• 一维光谱数据,按照 FITS格式的数据文件形式保存,同时考虑以 VOTable格式和关系型数据库格式保存。以关系型数据库方式保存数据文件元数据。
• 巡天星表,以关系型数据库形式保存。• 工作星表,以关系型数据库形式保存。• 系统运行数据,根据各子系统的情况以关系型数据库形式或者 XML 文件、或者纯文本文件形式保存。
2006.10.29VO Tutorial @ CAS 2006 10
预期软硬件配置与拓扑构架
Web服务器
Mysql服务器
File Provider A
File Provider B
File Provider C
操作系统: Redhat Enterprise Linux 4数据库系统:MySQL 5.0 Web服务器: Tomcat 5.5 数据存储: SATA 阵列 数据至少有两套备份,并要求一份在异地(兴隆、北京 2、合肥)
2006.10.29VO Tutorial @ CAS 2006 11
星表构成
字段名 数据类型 含义
ID_HTM char(24) 以 HTM表示的标识符
RAdeg float 赤经
DECdeg float 赤纬
Epoch float 历元
oType char(16) 天体类型
mag float 星等
ref char(24) 源星表标识
refID varchar(36) 源星表内天体编号
核心星表结构
2006.10.29VO Tutorial @ CAS 2006 12
数据压缩与数据传输规范
• 采用标准的“ GZIP”压缩方式• LAMOST 观测系统、数据处理系统以及发布系
统的操作系统采用 LINUX平台。 • 文件归档方式采用通用的“ tar” 方式。• LINUX平台上支持的数据传输方式主要包括:
FTP , FTP over SSH, rsync, HTTP 等。根据当前的使用情况和支持情况,采用 FTP 和SFTP 方式。在数据发布时提供 HTTP 方式。
2006.10.29VO Tutorial @ CAS 2006 13
存储系统文件命名规范(原始文件)
原始二维光谱文件采用:“ LM+儒略日+Tile+Run+ 光谱仪ID+ 谱段+类型 + 数据级别”的方法。例如:“ LM2453848-0000001-03-16-bsr.fit” 。
其中“谱段”指“红、兰”两段,用“ r、 b” 标识。其中“类型”指光谱种类,有如下几种:
• o:obj, 目标• s:sky, 天光• f:flat,平场• b:bias,本底• a:arc;灯谱• d:dark 暗流• t:test; 测试数据
“光谱仪 ID” 从 1 至 32 ,其中, 1 - 16 为低分辨光谱模式, 17 -32 为中分辨光谱模式。
“数据级别”指原始二维图像、处理后的产品、临时数据,分别用“ r、p、 t” 标识。
2006.10.29VO Tutorial @ CAS 2006 14
存储系统文件命名规范(产品级二维光谱与一维光谱)
• 产品级二维光谱文件名采用:“ LM+儒略日+ Tile+ 光谱仪 ID+谱段”的方法。其中“谱段”指“红、兰”两段或者合并谱,用“ r、 b、 a” 标识。比如: LM2453848-0000001-16-a.fit
• 一维光谱文件采用:“ LM+儒略日+ Tile+光纤号+谱段”的方法,比如:“ LM2453848-0000001-1869-b.fit” 。高分辨光谱、特例观测数据命名另行处理。
2006.10.29VO Tutorial @ CAS 2006 15
数据发布系统基本界面
Retangle Query:由用户给出 ra , dec 等参数的最大值与最小值,从而确定查询范围。
Radial Query:由用户指定 ra , dec参数作为中心,指定查询半径,从而确定一个园面作为查询范围。
SQL Query:用户输入 sql 标准查询语句进行查询。
SQL Batch Query:将查询运行于服务器后台队列中,将结果集保存为文件形式供下载。
Tele Param Query:根据 LAMOST 数据文件命名方式查询光谱文件。目前只能查询2D 光谱文件。
2006.10.29VO Tutorial @ CAS 2006 20
Data import
LAMOST 的内部用户通过该页面对光谱数据的入库进行人工操作与设定。
可以得到所有的提供数据的机器,从而将存在于这个用户目录下的数据转移到这种类型数据对应的目录中。并且将每个光谱文件存储信息反馈到中心服务器上。
2006.10.29VO Tutorial @ CAS 2006 21
下一步开发计划
1 、完善批处理模块的功能,针对 LAMOST 的特 点和应用 LAMOST做科学研究的流程,开发对应的工作流系统。
2 、完成与 VO-DAS接口的模块,从而实现与VO-DAS 的集成。
3 、开发 JAVA客户端管理软件。4 、进一步分析需求,重构原型系统。