1-Considerações Básicas Sandro R. Lautenschlager Mecânica dos Fluidos Aula 1.
M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 1 Wissenschaftliches Datenmanagement Probleme in...
-
Upload
bartholomaus-blessinger -
Category
Documents
-
view
103 -
download
1
Transcript of M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 1 Wissenschaftliches Datenmanagement Probleme in...
M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 1
Wissenschaftliches Datenmanagement
Probleme in PByte-Klimadatenarchiven
Michael Lautenschlager
World Data Center for Climate
Max-Planck-Institut für Meteorologie / Modelle und Daten, Hamburg
Jena, 24.01.05
M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 2
Inhalt:
• Klimasystem und Modellierung
• Architektur am DKRZ
• CERA Datenmodell
• IMDI und AFP Integrated Model and Data Infrastructure und Automatic Fill Process
M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 3
Data Group maintaining the WDCC
Michael Kurtz
Hans Luthardt
Michael Lautenschlager
Heinke Höck
Hannes Thiemann
Hermann Winter
Jörg Wegner
Frank Toussaint
Peter Lenzen
(Order: from left to right)
M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 4
Klimasystem
M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 5
Modellgleichungen
GrundprinzipErhaltung von Masse, Energie und Impuls
Beispiel: Gleichungen für Impuls, Temperatur und Feuchte im ECHAM-Modell
M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 6
Flussdiagramm
GlobalesAtmosphären-ModellECHAM
M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 7
Diskretisierung
Das Gitternetz im Atmosphärenmodell
M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 8
Nordeuropa im Klimamodell
T42 (300 km)
T106 (120 km)
M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 9
Datenmengen
Horizontalauflösung des KlimamodellsT42: 128 * 64 = 8192 Punkte pro Globalfeld T106: 160 * 320 = 51200 Punkte pro Globalfeld
Erforderliche Speichereinheiten (GRIB Format 1)
Horizontalfeld (Zugriffseinheit): 17.1 kB (T42) / 100.1 kB (T106)
Unix Filegröße für monatsweise akkumulierte Ergebnisse mit 12 Std. Speicherintervall (Physikalische Einheit): 120 MB (T42) / 750 MB (T106)
240 Jahre Modellintegration (Logische Einheit): 1/3 TB (T42) / 2 TB (T106)
1) machine independent, self-descriptive and compressive
M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 10
Oktober 1991
Anwendung der WDCC Daten
M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 11
29.10.91, 12:00
Druckdifferenz: 60 hPa
ECMWF-ERA40
M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 12
M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 13
Der HLRE Compute-Server besteht aus 24 NEC SX-6 Knoten. Die technischen Daten eines enzelnen Knotens sind in der folgenden Tabelle zusammengefasst.
CPUs 8
Taktfrequenz Speicher und CPU (MHz) 500
Vektor Pipelines pro CU 8
Funktionen der Vektoreinheit add/shift, multiply, divide, logical
Vektor-Register pro Pipeline 72
Länge der Vektor-Register (words) 256
GFLOP/s pro CPU 8
Hauptspeicher (GB) 64
Gesamte Bandbreite des Speichers (GB/s) 256
Speicherbandbreite pro CPU (GB/s) 32
DKRZ Compute-Server
M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 14
DKRZ Compute-Server
Die 24 Knoten unserer Installation sind über den IXS (Inter-node Crossbar Switch) verbunden. Der IXS schaltet zwischen beliebigen Knoten Verbindungen mit einer Bandbreite von jeweils 8 GB/s. Die Gleitkomma-Leistung des Gesamtsystems in GFLOP/s ist in der untenstehenden Tabelle dargestellt.
Peak (Rpeak) 1536
LINPACK Rmax 1484
Dauerhafte Leistung eines am DKRZ eingesetzten typischen Klimamodelles
ca. 500
M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 15
TOP500 HPC-List (June 2004)
DKRZ: Platz 148 mit 192 Proz. NEC-SX6
Earth Simulator, Japan: Platz 1 mit 5120 Proz. NEC-SX6
ES = 25 * DKRZ
DKRZ – Earth Simulator (Japan)
M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 16
M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 17
DKRZ Datenservice
Prozessoren Intel Itanium2Taktfrequenz 1 GHzCache 3 MB (on-chip L3)Max. Anzahl CPUs 32Max. Speicher 128 GBLINPACK Rmax (32 CPUs) 101.77 GFLOP/s
Einige Daten des gesamten Datenservers sind in der untenstehenden Tabelle zusammengefasst.
Kapazität des Bandarchivs (TB) >3500
Festplattenkapazität (TB) ca 70
Bandbreite zwischen Compute-Server und Data-Server (MB/s) 450
M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 18
DKRZ Bandarchiv
M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 19
2001 2002 2003 2004 2005 20060
1000
2000
3000
4000
5000
6000
7000
8000
9000
10000
11000
DKRZ Datenarchiv
UNIX-Files f^3/4
CERA-Files f^3/4
UNIX-Files f^1
CERA-Files f^1
Jahre
Da
ten
in T
Byt
e
HSM Archive Content:End of 2003: 1.3 PBEnd of 2004: 2.6 PB
Prognose 2001:
M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 20
CERA Konzept
DatenkatalogDie „Gelben Seiten“ des Massenspeicherarchivs
Metadaten in Tabellen des Datenmodells
Automatisierte KlimadatenspeicherungPrimärdaten-Processing synchron zum Modelllauf
Anwendungsorientierte Speicherung erlaubt schnellen Zugriff
Speicherung als BLOB-Tabelleneinträge
Rohdaten als Zeiger ins DatenarchivTransparenter RohdatenzugriffZeiger auf Unix-Files als B-File-Einträge in Tabelle
(Oracle)
M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 21
Metadata EntryThis is the central CERA Block,providing information on• the entry's title• type and relation to other entries• the project the data belong to• a summary of the entry• a list of general keywords related to data• creation and review dates of the metadata
Additionally: Modules and Local Extensions
Module DATA_ORGANIZATION (grid structure)Module DATA_ACCESS (physical storage)Local extension for specific information on (e.g.)• data usage• data access and data administration
CoverageInformation on the volume of space-time
covered by the dataReference
Any publication related to the data togehter with the publication form
StatusStatus information like data quality, processing steps, etc.
DistributionDistribution information including access restrictions, data format and fees if necessary
Contact
Data related to contact persons and institutes like distributor, investigator, and owner of copyright
ParameterBlock describes data topic,
variable and unit
Spatial Reference
Information on the coordinatesystem used
CERA-2 Data Model Blocks
M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 22
...
LOCAL_CONNECT
..._id
fees_id
format_descrformat_acronym
FORMAT
access_type_id
access_descr
ACCESS_TYPE
entry_idaccess_type_id
access_acronym
use_constraint_id
data_sizeformat_id
DISTRIBUTION
aggregation_id
aggregation_descr
AGGREGATION
spatial_data_org_idreference_method
format_id
access_constraint_id
unit_id
unit_acronymunit_descr
UNIT
topic_id
topic_acronymtopic_descrtopic_pointertopic_level
TOPIC
ver_coord_sys_idsys_descr
VER_COORD_SYS
sys_descrhor_coord_sys_id
HOR_COORD_SYS
FEES
SPATIAL_DATA_ORG
unit_name
presentation_idpresentation_descr
PRESENTATION
fees_acronym
topic_namecitation_type_descr
CITATION_TYPE
fees_descrinstitute_nameinstitute_acronymdepartment_namedepartment_acronymcountry
additional_infourl
citation_type
poboxstreet_postal_codestreetplacestate_or_province
fees_idINSTITUTE
faxemail
ACCESS_CONSTRAINT
first_namesecond_namelast_nametitleinstitute_id
url
constraint_descr
PERSON
access_constraint_id
CITATION
publication
citation_idtitleauthors
publishereditor
USE_CONSTRAINT
countrystateplaceeditionaccess_specadditional_info
citation_type_idpresentation_id
spatial_coverage_id
min_altitudemax_altitude
min_latmax_lat
constraint_descr
min_alt_unit_idmax_alt_unit_id
citation_type_id
SPATIAL_COVERAGE
11 RELATIONS
temporal_coverage_idstart_yearstart_monthstart_daystop_yearstop_monthstop_daycurrentness_ref_id
institute_id
TEMPORAL_COVERAGE
entry_idspatial_coverage_idtemporal_coverage_id
COVERAGE
entry_id
use_constraint_id
CONTACT_TYPE
pobox_postal_code
CURRENTNESS_REF
min_lon
LOCATION
location_idlocation_namelocation_pointerlocation_descr
location_identry_id
LOCATION_CONNECT
entry_idhor_coord_sys_idver_coord_sys_id
person_idgeneral_keygeneral_key_id
GENERAL_KEY
KEY_CONNECT
general_key_identry_id
project_idproject_nameproject_acronymproject_descr
PROJECT
CAMPAIGN
project_identry_id
summary_idsummary
telephone
SUMMARY
entry_id
entry_acronymentry_name
entry_type_idsummary_idquality_idprogress_idcreation_datereview_datefuture_review_date
publication_date
ENTRY
entry_type_identry_typeentry_type_descr
ENTRY_TYPE
ref_type_idref_type_descr
REF_TYPE
entry_idref_type_idcitation_id
REFERENCE
quality_idaccuracy_reportconsistency_reportcompleteness_reporthorizontal_acc_reportvertical_acc_report
QUALITY min_lon
progress_idprogress_descr
PROGRESS
connect_type_idconnect_typeconnect_type_descr
CONNECT_TYPE
spec_entry_idconnect_type_id
gen_entry_id
ENTRY_CONNECT
entry_idprocess_descrprocess_dateperson_id
PROCESS_STEP
max_lon
MODULE PROCESS_STEP
LANGUAGE
language_idlanguage_name*250
entry_idlanguage_id
LANGUAGES
contact_type_id
BLOCK LANGUAGES
currentness_ref_descr
ref_date
contact_typecontact_type_id
institute_id
CONTACT
person_id
location_level
max_lat
max_lon
min_lat
currentness_ref_id
SPATIAL_REFERENCE
MODULES AND LOCAL EXTENSIONS
BLOCK CAMPAIGN
BL. ENTRY CONNECT
BLOCK CONTACT BLOCK PARAMETERBLOCK REFERENCEBLOCK KEY_CONNECT BL. DISTRIBUTION
CERA SCHEME 2.5
BL. METADATA ENTRY
B.SPATIAL REFERENCE
BL. LOCATION CONNECT
BLOCK COVERAGE
23 ENTITIES: Pull Down Menu / List of values
8 ENTITIES: other
PARAMETER
PIK, DKRZ, AWI 1999-07MPI-Met, PIK 2001-03
entry_idtopic_idunit_idspatial_data_org_idaggregation_iddata_org_seq(data_org_id)(data_access_id)
M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 23
Produktion (4D) und Zugriff (2D)
M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 24
PrimäresDaten-Processing
M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 25
Level 1 - Interface:Metadata entries(XML, ASCII)+ Data Files
Level 2 – Interf.:Separate filescontaining BLOBtable data in application adapted structure(time series ofsingle variables)
Experiment Description
Unix-FilesTable / Pointer
Dataset 1Description
Dataset nDescription
BLOB DataTable
BLOB DataTable
CERA Data Structure
M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 26
Experiments: 400Datensets: 53367BLOBs: ca. 3.8 * 109
BLOB sizes GCM’s:10 – 100 kB
DB-Accounts: 500Data retrievals:1500 – 80000 / month Data volume:250 – 2200 GB / month
CERA DB:Backbone of WDCC
Web access to entireCERA DB content
Web-Based User Interface
Catalogue InspectionClimate Data Retrieval
CERA Database:133 TB (01.2005)*Data Catalogue*Processed Climate Data*Pointer to Raw Data files
Mass Storage Archive2.6 PB (12.2004)
Inte
rne
t A
cc
ess
CERA Database System
DKRZ MassStorage Archive
M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 27
Modell-Computer-Matrix
Codeverwaltung
Userinterface:GUI + Scripting
Laufumgebung:Jobskripten & Dateihandling
Datenprocessing + Grafik
Datenimport:Assimilation und Antrieb
Randbedingungen
Nutzerinterface:Datensuche und Download
Processing und Grafik
DKRZ-Archiv
WDC Climate:CERA DB mit
KatalogDatenprocessing
Modellkomponenten
Kopplungsumgebung: Modellintegration
PRISM
Modellanwendungen
Archivföderation
BADC (UK)WDC-Netzwerk
Automatisiertes Füllen
DB-Füllen:API und Scripten
M&D
22
.04
.04
Integrated Model and Data Infrastructure
AFP
M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 28
Creation of application-orienteddata storage must beautomatic !!!
Automatic Fill Process (AFP)
M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 29
Archive Data Flow per month
ComputeServer
GlobalFile
System
MassStorageArchive
CERADB
System
60 TB/month
2004: 1 TB/day (peak)
Unix-Files
Application OrientedData Hierarchy
Application OrientedData Hierarchy
Unix-Files
MetadataInitialisation
Important:Automatic fill processhas to be performedbefore correspondingfiles migrate to massstorage archive.
M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 30
Automatic Fill ProcessSteps and Relations
DB-Server:
1. Initialisation of CERA DBMetadata and BLOB data tables are created
Compute Server:
1. Climate model calculation starts with 1. month
2. Next model month starts and primary data processing of previous monthBLOB table input is produced and stored in the dynamic DB fill cache
3. Step 2 repeated until end of model experiment
DB Server:
2. BLOB data table input accessed from DB fill cache
3. BLOB table injection and update of metadata
4. Step 2 repeated until table partition is filled (BLOB table fill cache)
5. Close partition, write corresponding DB files to HSM archive, open new partition and continue with 2)
6. Close entire table and update metadata after end of model experiment
M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 31
WDCC User Access Pattern
M.Lautenschlager (WDCC, Hamburg) / 19.01.05 / 32
Bewertung nach Vortrag:Allgemeinen Teil kürzer und Schwerpunkt auf CERA
Architektur:a) CERA-2 Datenmodell (Constraints + Trigger) und
XML Interfaceb) BLOB Tabellen und HSM Anschlußc) Indexverwaltung BLOB Tabellen und
Speicherbedarfd) B-Files als Pointer auf UNIX-Files (soweit
realisiert)
Sehr interessierte Zuhörer, Zeitbedarf war 70 min, also 2,2 min/Folie