2009 11 17 Sissejuhatus ATI Vilo - ut · 25.11.2009 1 Tartu Ülikool Jaak Vilo Jaak Vilo 1 CV...
Transcript of 2009 11 17 Sissejuhatus ATI Vilo - ut · 25.11.2009 1 Tartu Ülikool Jaak Vilo Jaak Vilo 1 CV...
25.11.2009
1
Tartu ÜlikoolTartu Ülikool
Jaak Vilo
Jaak Vilo 1
CV Karjääriredel Kuidas tehakse teadust Kuidas mõõta teadust …
Teadus on lahe◦ saab teha mida tahad/meeldib◦ saab reisida lõpmatult◦ saab suhelda lõpmatult
1984-86 – Nõuk. armee
1986 – I programmeerimine:assembler EC/IBM 360
puu suurus, kõrgus, laiusp gViimase hetke parandus…
II programmeerimineassembler PDP-11I/O - terminal
1984-86 – Nõuk. armee
1986 – I programmeerimine:assembler EC/IBM 360
puu suurus, kõrgus, laiusp gViimase hetke parandus…
II programmeerimineassembler PDP-11I/O - terminal
I/O seade assembleri kirjutamiseks:Input ja Output kirjadega kastid (pigeonhole) Liivi 2
Soome vahetusüliõpilaseks (IV k)
VAX/VMS (Digital)◦ telnet◦ mail◦ mail◦ ftp
Sun UNIX, email, ftp, ping, telnet, … Internet
25.11.2009
2
University
Companies Companies
University◦ education of people◦ creation of new ideas, fundamental knowledge
Companies Companies◦ need for qualified personnel◦ products and solutions
Õpetamine◦ Õppetöö läbiviimine – loengud, praksid, seminarid◦ Teaduritel väiksem koormus (juhendamine!)
Teadus Teadus◦ mõõdetakse näiteks artiklite arvudes◦ Dotsentidel ka teadustöö kohustus
PhD
BSc / BA jne
MSc / MA / MBAMD
Saksa: Habilitatsioon,Nõuk: teaduste doktor
PhD
MBA – kasulik lisaharidus
PostDocJäreldoktorantuur
25.11.2009
3
Professor Juhtivteadur
Assistent
Lektor
Dotsent
Assistent, PhD tudeng
Teadur
Vanemteadur
Lihtne IKT hariduse edendamise mudel (Jaak Vilo, InnoEstonia Nov 2009)
AastatÜliõpilasi üliõp/õj Õppejõude
Vastuvõtt 150 150 3 338 15 23
Bakalaureus 50% 75
MSc vastuv 80% 60 2 96 8 12
Magister 60% 36
PhD Vastuv 25% 9 4 27 4 7
Doktor 50% 5
9 461 41
Õppejõudude "voolavus" 10%
Vajadus uute PhD-de järele: 4
Jääb "üle" mujale: 0
Education
Research◦ Target Funding◦ Estonian Science Foundation◦ Estonian Science Foundation◦ Center of Excellence (EXCS)◦ EU FP6 and FP7 projects◦ …
University of Tartu
• Computer Science Institute
• 2003‐2004‐2005 – no target funding
University of Tartu
• Computer Science Institute
• 2003‐2004‐2005 – no target funding
• 2009: >50% of budget research funding
Estonia needs R&D in ICT forsustainable software industrysustainable software industry
/computer science/
25.11.2009
4
Tarkvara TAKTarkvara TAKJaak Vilo
13. november 2009
STACCSoftware Technologies and Applications
C CCompetence CenterJaak Vilo
From University to Industry
• Research relevant to companies
• Topics interesting for students
• Results both for academia and for industry
• Funding from industry, matching from EAS
Co‐operative R&D center
COMPANIESCOMPANIES
EASEAS
UNVERSITIESUNVERSITIES
STACCSTACC
NEW SOFTWARE PUBLICATIONS,
degrees
Timeline
• 2008 August – started planning
• 2008 September – LOI (partners!)
• 2008 Nov ‐ 2009 Jan – planning, negotiating, i i lwriting proposal
• 2009 Feb – Hearings; May – decisions
• July – STACC
• August – Consortium Agreement
• Sep‐Dec Detailed plans, project launches
STACC asutamine 13. juuli 2009
24
25.11.2009
5
Research Tracks and Programs
1.1 Web Analytics and Social
Network Analysis
1.2 Biomedical data integration and mining
1.3 Privacy‐Preserving Data
Mining
Data Integration and Mining (DIM)
25
2.1 Smart Internet Interfaces
2.2 Smart Services2.3 Software Development Productivity
Software and Services Engineering
Delfi, Logica, Quretec, Regio, Skype
ITK, Cybernetica, Quretec Cybernetica, Swedbank
Delfi, Regio, Webmedia
Webmedia, Regio, Logica, Cybernetica
Webmedia, Logica, Cybernetica, KnowIT
• Methods for analysing the structure and dynamics of very large social networks and raw web usage data in order to discover user clusters, user goals, service or product consumption patterns, customer churning patterns, spam and fraud patterns and other patterns of individual or collective
1.1 Web Analytics and Social Network Analysis
p puser behaviour.
• Application to user interface personalization and re‐organization, personalized search, targeted advertising, peer‐to‐peer network monitoring, and derivation of e‐Business metrics associated to advertising, customer acquisition and retention/churning, and business intelligence.
26Delfi, Logica, Quretec, Regio, Skype
Web usage mining
25.11.2009
6
Activities
1. Social Network Analysis
• mining of very large (400M nodes, x 10 edges) graphs for elementary properties
2 Web (and software) log mining2. Web (and software) log mining
• warehousing
• clustering, viusalisation, decision support …
3. User Intent Prediction
• real time learning of user intent and goals
• collaborative filtering
• To develop data integration and analysis methods for electronic patient records and biomarker data with the goal of improving the (early) diagnosis and medical treatment of the diseases.
1.2 Biomedical data integration and mining
• Complex disease of COPD as the proof of principle
• Mining Electronic patient records and E‐Health data
• UT – data mining; TTU – medical know‐how and data
• Hospital and e‐health solutions
32ITK, Cybernetica, Quretec, + E-Health, Medicum, Finnish NIH
Activities
1. COPD patient cohort buildup based on smoking etc characteristics
2. Data warehousing and decision support forhospital e health datahospital e‐health data
3. Introducing ontologies into clinic
4. Text mining of medical records
Avastuse tegi Oulu ülikooli sisehaiguste kliiniku kardioloogia uurimisrühm koos Päijät‐Hämekeskhaigla uurijatega, kes vaatasid üle 10 000 keskealise soomlase terviseandmed ja aastatel 1966‐1972 kogutud EKGd.Andmete kogumisele järgnenud 30 aasta vältel suri neist ligi 2000 südameinfarkti. Äkilise arütmia tagajärjel suri ligi 800 inimest.
To develop and to evaluate privacy‐enhancing methods for datastorage and processing, along two complementary directions:
1. Security of micro‐data releases and query auditing: Detection and elimination of possible privacy breaches indata to be published and detection of queries to (medical
1.3 Privacy‐Preserving Data Mining
data to be published, and detection of queries to (medical and financial) databases that may breach the privacy of individuals.
2. Privacy‐preserving data aggregation: Development of secure and practically efficient methods for aggregating data from multiple sources, that leak nothing beyond the end aggregate results.
36Cybernetica, Swedbank, Skype
25.11.2009
7
Privacy preserving DM
Q: sexual behavior ofHIV patients?
# sexpartners: 2 34
0
Privacy preserving DM
68612
AVERAGE = 12876113126531
764224
# sexpartners: 2 34
0
9823
1235 68612
Privacy preserving DM
AVERAGE = 12876113126531
764224
ShareMind
Activities in 1.3
1. Micro‐data protection mechanisms
2. An environment for developingprivacy‐preserving applications
3 i i i3. Demonstration: questionnaire system
4. Protocol analysis for secret‐sharedapplications
4 Sep 2008
25.11.2009
8
42 arvutit (node)2 x 4-core
336 core
32 GB / node1.2 TB RAM
HPC @ UT anno 2009
Kiire võrk(Infiniband)
UT Inst of CS:32-core, 256GB RAM
Oktoober 2009
The first record is dated 10/01/2009, last record is dated 10/31/2009.
Wallclock Average AverageUsername Group #jobs days Percent #nodes q-days Full name-------- ----- ----- --------- ------- ------- ------- ---------
TOTAL - 36187 7293.91 100.00 1.64 0.07cipo users 363 3445.66 47.24 1.85 0.07 Heiki Kasemagi
thcmob users 33397 1427.46 19.57 1.00 0.06 Juri Reimandbronto hirlam 119 759.92 10.42 8.21 0.12 Andres Luhamaa
i 102 566 69 7 77 48 87 0 13 I S hh kivan users 102 566.69 7.77 48.87 0.13 Ivan Suhhonenkobayazit1 users 649 510.45 7.00 1.00 0.31 Bayazit Yunusbaevpriit85 users 69 184.23 2.53 1.00 0.17 Priit Priimagi
maitb users 467 180.12 2.47 1.00 0.21 Mait Metspalualfonsog users 28 106.21 1.46 1.01 0.02 Alfonso Tlatoani Garcia-Sosa
jaas users 8 57.53 0.79 13.80 0.04 Jaas Jezovsiims users 124 21.12 0.29 1.00 0.01 Siim Sober
t6nuesko users 629 16.87 0.23 1.00 0.08 Tonu Eskoa72094 users 40 13.72 0.19 1.00 0.03 Kaur Alasoo
wire users 43 2.07 0.03 1.00 0.00 Lauri Juhan Liivamagilauria users 95 0.89 0.01 9.31 0.00 Lauri Antonreidar users 46 0.81 0.01 1.00 1.29 Reidar Andreson
kasak105 users 4 0.17 0.00 8.00 0.09 Kait Kasakeero users 4 0.00 0.00 1.00 0.00 Eero Vainikko
Formula for success
• Challenges and demands from industry
• Researchers and students from university
• Funding
• Commercial and academic impact
Teooria, Mudel (M)
Hüpoteesk i id õ d◦ aksioomid, tõestused…
Eksperiment (andmed)
Uued tehnoloogiad, teadmised, …
Artikkel – kirja pandud teadustulemus◦ verifitseeritav◦ tulemus peab olema korratav◦ mõtteid ergutavmõtteid ergutav
Peer Review◦ kolleegide hinnang artiklile
25.11.2009
9
Ten Simple Rules for Graduate Students Ten Simple Rules for Getting Published Ten Simple Rules for a Good Poster Presentation Ten Simple Rules for Making Good Oral
PresentationsPresentations Ten Simple Rules for Reviewers Ten Simple Rules for a Successful Collaboration Ten Simple Rules for Getting Grants Ten Simple Rules for Selecting a Postdoctoral
Position …
http://www.ploscompbiol.org/article/info%3Adoi%2F10.1371%2Fjournal.pcbi.0010057
1. Read many papers, and learn from both the good and the bad work of others.
2. The more objective you can be about your work, the better that work will ultimately become.
3. Good editors and reviewers will be objective about your work
4. If you do not write well in the English language, take lessons early; it will be invaluable later.
5. Learn to live with rejection.
6. The ingredients of good science are obvious—novelty of research topic, comprehensivecoverage of the relevant literature, good data, good analysis including strong statistical support, and a thought-provoking discussion.
The ingredients of good science reporting are obvious—good organization, the appropriate use of tables and figures, the right length,writing to the intended audience—
do not ignore the obvious.
7. Start writing the paper the day you have the idea of what questions to pursue.
8. Become a reviewer early in your career.9. Decide early on where to try to publish your
paperpaper.10. Quality is everything.
When you are long gone, your scientific legacy is, in large part, the literature you left behind and the impact it represents.
Create an “elevator pitch”
Abstract
B i k i d Be quick to write downall main ideas
Revise, revise, revise
http://shirleywho.wordpress.com/2008/09/30/how-to-write-a-bioinformatics-research-paper/
25.11.2009
10
Artiklid!◦ Publish or perish◦ Impact◦ Ajakiri vs konverents
Grandid (lisaraha)
Prototüübid, patendid, andmebaasid, teosed (n. sõnastikud, monograafiad), …
Õpetamine
Teadusartiklid viitavad varasematele töödele, millel nad baseeruvad
Artiklid millele viidatakse on järelikult olnud olulisedolulised
Viidatavus näitab seega mõjukust
Kuidas mõõta?
Artiklite koguarv
Kõikidele artiklitele viitamised◦ enese-tsiteeringud? ◦ kurioossed juhtumid, plagiaat …
H-index◦ # of articles (H) with #citations > H
◦ 1000, 1, 1, 0 … => 1◦ 10, 9, 5, 2, 1 … => 3◦ H=20 => 20 articles with ≥ 20
www.utlib.ee◦ Andmebaasid ISI
Scopus: http://www.scopus.com
17.11.2009
25.11.2009
11
H-indeks7
teadlaste arv
1300
340
58
Analüüs: Mait MüntelAllikas: Ettepanekud Eesti teadussüsteemi reformiks
http://www.cs.ioc.ee/excs/policy/teadusreform.pdf
Uued teadmised, arenguhüpped◦ raamat◦ transistor◦ DNA struktuur ◦ Internet (võrk, WWW) …
Uued tooted◦ ravimid◦ telefonid, arvutid, autod, …◦ teenused◦ meelelahutus◦ …
10 aastat – pikk või lühike?
Mis oli olemas 10 a tagasi? 20 i?◦ 20a tagasi?
5 aasta pärast?◦ 10 a pärast?◦ 20 a pärast?
25.11.2009
12
2
67
See, kui tajume IKT maailma väga kiirelt muutuvana ei tähenda tingimata tegelikku kiiret muutust.
2
Kui arengud tulevad meile üllatusena siis ei ole me lihtsalt eesliinil toimuvaga kursis! Pikemas plaanis tähendab see hävingut!
Esimene arvutihiir 40 aastat tagasi
2
www.worldmapper.org
Mis on hea teadus? ◦ Huvitav - Miks? Kuidas? Kas? ◦ Oluline - Võimaldab arengut, uusi küsimusi◦ Ajakohane - Aeg on küps, just praegu◦ Tulemused = uued teadmised, lahendused,
Hea teadus võib vahel harva olla ka ajast ees
IT-s on võimalik teha olulist kaasaegset tööd
Palju erinevaid teadussuundi, ka IT-s
Palju seoseid, ideede vahetust, vaatenurga h t ivahetusi, …
Interdistsiplinaarne◦ IT ainult IT enda jaoks ei oleks kuigi relevantne◦ Oluline – kuidas teha IT maailmale kasulikuks
25.11.2009
13
Mitme-külgsus
Töökus
Kommuni-katsioon
FunLoovus
Talent
Haridus
Pole otsaette kirjutatud
Terake talenti, tugevalt töökust ja ohtralt di hiuudishimu
Püüeldes parima poole saavutad endast maksimumi
6 prof, ~50 inimest
Tippkeskus (EXCS)
T h l i A d k k (STACC) Tehnoloogia Arenduskeskus (STACC)
EU projektid (COBRED, jt)
Sihtfinantseerimine, ETF, EKKTT RP
Teadust teevad noored!!!
Suur osa Nobeliste on oma olulised avastused saavutanud enne 35 a vanust
Doktorandid, postdoc-id on kõige viljakamas eas
Professorid on üle koormatud administreerimisega…
25.11.2009
14
Väga väikesed, vähese energia-vajadusega
2
vajadusega komponendid ja mikrosüsteemid
79Pilt: Wired Magazine, Artifacts from the future
“Tark tolm”
Miniatuursete arvutite
2
ja sensorite
võrgustikud
California Ülikool 2001
2
Painduv nanomaterjalidest mobiiltelefon
Nokia & Cambridge
2
Nokia & Cambridge Ülikool 2007
2
25.11.2009
15
Tehnoloogiast ja tulevikust
Eesti IKT 2018+
• Tüüpilises majapidamises on üle 1000 mikroprotsessori
2
1000 mikroprotsessori
• Petabait (1 PB = 1 miljon GB) on levinuim ligapäevaselt kasutatav andmemahu ühik
• Videokõnede maht minutites ületab tavalise telefoniside mahu
IKT on kõikjal teie ümber
Kõikidel erialadel kasutatakse IKT-d suuremal õi äh l ää lvõi vähemal määral
Q: kuidas teha IT ja IKT paremaks
Q: kuidas kasutada IKT võimalusi mujal
8a
Aga…
Kas meil on vaja 2x rohkem transistore, et teha sama korrutustehet? 64 bit -> 128 bit?
Ühe arvutuse kiirus ei kasva enam Moore seaduse järgi…
8a
25.11.2009
16
vs
Aga … (osa 2)
Andmete kogumine läheb ka kogu aeg odavamaks ja süstemaatilisemaks.
Andmete kasv on isegi kiirem kui arvutite kiiruse “kasv”
tekst, pilt, heli, video, signaalid …
eraelu, meedia, äri, riik, teadus, …
4 Sep 2008
molecular biology
25.11.2009
17
Databases: molecules to systems
GenomesEnsembl, Ensembl
Genomes, EGA
Nucleotide sequenceEMBL-Bank
Gene expressionArrayExpress
ProteomesUniProt, PRIDE
Protein families, motifs and domains
Protein structurePDBe
Chemical entities
Literature and ontologiesCitExplore, GO
InterPro
Protein interactionsIntAct
Chemical entitiesChEBI, ChEMBL
PathwaysReactome
SystemsBioModels
TÜ-s
• Uued sekveneerimistehnoloogiad
– Solid (Applied Biosystems) 1TB raw data (siirdemeditsiini tippkeskus)(siirdemeditsiini tippkeskus)
– Illumina (kevad 2010?)(Biokeskus, Geenivaramu)
– …
Paralleel-arvutused
http://en.wikipedia.org/wiki/Hypercube64-node hypercube
128-way fat tree
Dinosauruste aeg taas algamas?
http://www.top500.org/
Trendid
• Palju seadmeid (väiksed, odavad, kiired,…)– redundantsus => tõrkekindlus
• Virtualiseerimine, cloud, teenus pistikust …
• Teenusekeskused (cpu,RAM,disk,backup,..)
• Lihtne ligipääs, kiire võrk
25.11.2009
18
42 arvutit (node)2 x 4-core
336 core
32 GB / node
HPC @ UT anno 2009
1.2 TB RAM
Kiire võrk(Infiniband)
UT Inst of CS:32-core, 256GB RAM
Oktoober 2009
The first record is dated 10/01/2009, last record is dated 10/31/2009.
Wallclock Average AverageUsername Group #jobs days Percent #nodes q-days Full name-------- ----- ----- --------- ------- ------- ------- ---------
TOTAL - 36187 7293.91 100.00 1.64 0.07cipo users 363 3445.66 47.24 1.85 0.07 Heiki Kasemagi
thcmob users 33397 1427.46 19.57 1.00 0.06 Juri Reimandbronto hirlam 119 759.92 10.42 8.21 0.12 Andres Luhamaa
i 102 566 69 7 77 48 87 0 13 I S hh kivan users 102 566.69 7.77 48.87 0.13 Ivan Suhhonenkobayazit1 users 649 510.45 7.00 1.00 0.31 Bayazit Yunusbaevpriit85 users 69 184.23 2.53 1.00 0.17 Priit Priimagi
maitb users 467 180.12 2.47 1.00 0.21 Mait Metspalualfonsog users 28 106.21 1.46 1.01 0.02 Alfonso Tlatoani Garcia-Sosa
jaas users 8 57.53 0.79 13.80 0.04 Jaas Jezovsiims users 124 21.12 0.29 1.00 0.01 Siim Sober
t6nuesko users 629 16.87 0.23 1.00 0.08 Tonu Eskoa72094 users 40 13.72 0.19 1.00 0.03 Kaur Alasoo
wire users 43 2.07 0.03 1.00 0.00 Lauri Juhan Liivamagilauria users 95 0.89 0.01 9.31 0.00 Lauri Antonreidar users 46 0.81 0.01 1.00 1.29 Reidar Andreson
kasak105 users 4 0.17 0.00 8.00 0.09 Kait Kasakeero users 4 0.00 0.00 1.00 0.00 Eero Vainikko
Uued vajadused
• Eri tüüpi arvutustele sobivad lahendused
• Kiire võrguga universaal-klaster
• Suur mälu (256GB + RAM)
• Arvutifarmid (palju arvuteid, odavamad komponendid)
Arvutivõrk
Arvutivõrk Arvutivõrk
25.11.2009
19
Elekter ja kuumus…
• Küte talvel, jahutus suvel …
Rakendused
• P = NP ?
• Kuidas kõiki andmeid paremini ära kasutada
• Arvutada keerukamate ja täpsemate mudelitega– kombinatoorne plahvatus! Leida optimum
TED Sixth Sense
3.2 Gb of human genome
ATCGATGAGT CAGTACGTAT TTATGCGATG GT 3.2 x 10
3.2 x 103
3.2 x 105
3.2 x 107
3.2 x 109
3.2Gb , 186 km Tallinn <-> Tartu = 17 nt / mm
Level 1
Level 2
Level 3
A eukaryotic genome can be thought of as six Levels of DNA structure.
The loops at L l 4
Level 0 ATCGCTGAATTCCAATGTG
Level 4
Level 5
Level 6
Level 4 range from 0.5kb to 100kb in length.
If these loops were stabilized then the genes inside the loop would not be expressed.
25.11.2009
20
E. Lieberman-Aiden et al., Science 326, 289-293 (2009)
BIIT 2009
Teie eesmärk Ülikoolis peaks olema jõuda tipptasemele◦ = teadmiste eesliinile◦ Edasi saab otsustada mida teha◦ Edasi saab otsustada, mida teha
Teadus on töö teadmiste “avastamiseks”
Huvitav ja mitmekülgne