Datová úložiště CESNET
David Antoš
21. 10. 2013
Přehled
I proč má smysl budovat národní datová úložiště provědecká data
I budovaná infrastrukturaI jak úložiště použítI přístupové mechanismyI správa uživatelů na úložištíchI použití pro náročnější uživateleI speciální aplikace
Smysl externího úložiště
I uživatelé raději drží data na vlastním zařízení. . .I to ale nedává rozumné garance dlouhodobého uchováváníI používají se nevhodná média, chybí systematická péčeI data je lépe uchovávat v živém systému
I konsolidace zdrojů – národní úložiště vědeckých datI umožňuje pořídit zařízení dostatečné velikostiI spravované specializovaným týmemI s možností sdílení dat mezi skupinami uživatelů
Cíl: dlouhodobé uchování dat
I potřeba dlouhodobě uchovávat vědecká data vzrůstáI uchování primárních dat z experimentů a výpočtůI s ohledem na potenciál jejich dalšího využitíI k návratu a revizi publikovaných výsledků
I uchování zajišťujeme na úrovni zachování binárních dat(bitstream)
I správce úložiště nerozumí odborné povaze datI ani nemůže rozhodovat o smysluplnosti jejich archivace
I proto neděláme LTP (Long-Term Preservation)I bitstream je nicméně předpokladem pro uchování dat
I další kopie, geografické repliky, redundance v systému
Možnosti využití datových úložišť
I zálohyI uživatelé mají primární data u sebeI na úložiště odkládají zálohu pro případ havárie
I archivaceI uživatelé na úložiště odkládají cenná primární dataI data nejsou často využívánaI uživatelé nemají prostředky pro jejich uchovávání
I sdílení datI distribuovaný tým potřebuje společně pracovat nad
většími objemy dat, případně je zveřejňovatI „něco jiného“
I distribuce obsahu, jiné speciální aplikace
Možnosti využití datových úložišť
I a naopak: na co se vzdálené úložiště příliš nehodíI interaktivní práce zejména s velkým množstvím malých
souborůI ukládání dat s potřebou přístupu v reálném čase
I prioritou je spolehlivost uloženíI přímý provoz systémů s nutností 24/7 přístupu
I „toto není úložiště pod váš SAP“I na to je obecně vzdálené úložiště nevhodné
I vhodné použití pro podobné scénářeI primární 24/7 data u uživatele, na CESNET
zálohy/replikyI rozdělení životně důležitých dat vs. „nice to have“ dat
Infrastruktura
Praha
Liberec
Pardubice
Brno
Olomouc
Ostrava
Opava
NIX
Internet
AMS-IX
SANETACONET
PIONIER
Jihlava
Děčín
PlzeňKarviná
Zlín
České Budějovice
Hradec Králové
GÉANT
Infrastruktura
I trojice úložišť: Plzeň, Jihlava, BrnoI celková hrubá kapacita cca 16 PB + 5 PB(∗)I Plzeň v pilotním provozu od května 2012
I v areálu ZČUI cca 500 TB disků + 3300 TB pásekI SGI Data Migration Facility, CXFSI pásková knihovna Infinite StorageI doplňujeme SGI COPAN a pásky(∗)
I Jihlava a BrnoI dodáno v květnu 2013I probíhá uvádění do zkušebního provozu, testovací
uživateléI řešení IBM založené na GPFS
Knihovna v Plzni
Infrastruktura – další složky
I aneb úložiště „mimo ta naše“I disková pole zapojená v MetaCentruI hierarchické úložiště a disková pole CERIT-SCI pro vlastní potřebu projektů: CEITEC
I obvykle jsou nebo budou spojena systémem správyuživatelských účtů
I používají obdobné protokoly
Úložiště jsou hierarchická
I vrstvy médií různé kapacity a rychlostiI rychlé disky/pomalejší disky/MAID/páskyI drahý provoz → levnější provoz
I a automatizovaný systém pro přesuny dat mezi nimiI déle nepoužívaná data do pomalejších vrstevI pro uživatele transparentní, resp. téměř transparentní
I přístup k dlouho nepoužitému souboru trvá déleI uživatelům to obvykle nevadí
Zaplnění pásek v Plzni
Jak na úložiště přenášet data –motivace
I většina software předpokládá použití lokálních diskůI vzdálené síťové disky se chovají jako lokální
I byť nemají vysoký výkon při práci s malými souboryI je nutno podporovat škálu přístupových protokolů
I pro různé případy použitíI držíme se nicméně spíše klasických protokolů
Přenos dat na úložiště
I souborovéI NFSv4 (známé uživatelům MetaCentra)I rsync, scp, FTPSI obvykle autentizované systémem KerberosI existují GUI klienti i nástroje pro příkazovou řádku pro
hlavní platformyI Globus Online – vysokorychlostní přenosyI výhledově CIFS (známý „síťový disk“ z Windows)
I speciálníI gridové úložiště v systému dCacheI FileSenderI připravujeme ownCloud
I bloková zařízení (není preferováno)
FileSender
I webová služba pro jednorázový přenos (velkých) souborůI velkých: aktuálně 500 GB
I přispíváme i k jeho vývojiI http://filesender.cesnet.czI alespoň jedna strana komunikace musí být oprávněný
uživatel infrastrukturyI autentizace federací eduID.cz
I oprávněný uživatel může nahrát soubor a poslat muoznámení
I lze poslat komukoli pozvánkuI testovací verze na http://filesender2.cesnet.cz
Speciální protokoly/aplikace
I GlobusOnlineI „klikací FTP na steroidech“I kopírování velkého objemu datI řízené pomocí webového rozhraníI mezi „koncovými body“ – úložišti podporujícími
GlobusOnline nebo lokálním strojemI ownCloud
I cloudové úložiště, synchronizace souborůI dCache
I jeden ze systémů správy dat vyvinutých pro CERNI pro ukládání PB objemů
Jak se stát uživatelem – snadno
I pokudI chcete využívat souborově orientované protokolyI dostačuje prefabrikovaná politika migrací datI ukládáte jen individuální dataI potřebujete ukládat nejvýše jednotky TB
I tak se jen zaregistrujte na http://du.cesnet.czI vyžaduje to ověření uživatele z akademické instituce
I členství se po roce prodlužujeI jako indikace, že uživatel „ ještě ví o svých datech“
I kódové označení: VO Storage
I jestli to nestačí, tak. . .
Jak se stát uživatelem – snadno
I pokudI chcete využívat souborově orientované protokolyI dostačuje prefabrikovaná politika migrací datI ukládáte jen individuální dataI potřebujete ukládat nejvýše jednotky TB
I tak se jen zaregistrujte na http://du.cesnet.czI vyžaduje to ověření uživatele z akademické instituce
I členství se po roce prodlužujeI jako indikace, že uživatel „ ještě ví o svých datech“
I kódové označení: VO Storage
I jestli to nestačí, tak. . . ale až za chvilku
Správa uživatelských účtů
I jednotná správa uživatelských účtů v infrastruktuřeI systém Perun
I proč to? zodpovídáme v projektu za to, komu službyposkytujeme (akademické komunitě), řídíme mnohorůzných služeb
I identita uživatele je podchycena centrálněI ověřena proti federaci eduID.czI alternativní mechanismus pro nečleny federace je
k dispoziciI na identitu uživatele jsou navázány jednotlivé mechanismy
přístupu k datůmI uživatel má jednotné webové rozhraní pro správu účtu
Úložiště pro náročnější
I nestačí VO Storage? založíme vám virtuální organizaci!I VO je skupina uživatelů se společným zájmem, kteří
vystupují jako celekI VO má správce, který
I jedná s poskytovatelem zdrojůI rozhoduje o podmínkách členství jednotlivých uživatelů
I dohoda o poskytování zdrojů mezi VO a správcem zdrojeI popisuje nastavení technických parametrů
I velikost poskytovaného prostoruI použité přístupové protokolyI politika ukládání dat, počty kopií/replik
I VO může využívat různé typy zdrojů
Založení VO prakticky
I napište nám na [email protected] domluvíme se, co potřebujete
I opravdu to potřebujeme pochopitI kolik dat máte, jak s nimi pracujete, . . .
I připravíme konfiguraci úložištěI založíme virtuální organizaciI pozveme vás do ní a povýšíme na administrátoraI dál si uživatele spravujete sami, vytváříte skupiny, . . .I ukládáte data přes FTP/rsync/NFSv4/...
I my se staráme, aby na se vytvářely jejich repliky, . . .
Aktuální stav
I úložiště v Plzni v pilotním provozuI přichází na něj uživatelé
I individuální se mohou přihlásit do VO StorageI připojeno do MetaCentra
I přímo pro uživatele z MetaCentra
I FileSender v provozuI postupně obsluhujeme zájemce o náročnější využívání
I vždy vyžaduje komunikaciI pro velká data (desítky TB+): nezbytná technická
znalost uživatelůI úložiště v Brně a Jihlavě – testovací uživatelé
Kontakty
I http://du.cesnet.czI uživatelská podpora: [email protected]
Top Related