Bioinformatica

27
Datamodellering

description

Bioinformatica. Datamodellering. Onderwerpen. Doel van database-opslag Gestructureerd versus ongestructureerd Van gegevens naar datamodellering Stappenplan datamodellering Inventarisatie Selectie Optimalisatie Voorbeeld Veldeigenschappen. Doel van database- opslag. - PowerPoint PPT Presentation

Transcript of Bioinformatica

Page 1: Bioinformatica

Datamodellering

Page 2: Bioinformatica

Doel van database-opslag Gestructureerd versus ongestructureerd Van gegevens naar datamodellering Stappenplan datamodellering

◦ Inventarisatie◦ Selectie◦ Optimalisatie

Voorbeeld Veldeigenschappen

Page 3: Bioinformatica

Onderzoek genereert gigantische hoeveelheden data◦ Genomics proteomics metabo[ln]omics

Interessant voor verder/ander onderzoek Dus: beschikbaar stellen in opvraagbare vorm Maar: speld in hooiberg is makkelijker te vinden!

Page 4: Bioinformatica

De volgende twee slides bevatten precies dezelfde gegevens

Waar heb je het meeste aan, en waarom?

Page 5: Bioinformatica

Enzym Herkenningssite

Eco17I (EcoRV) GATATCEco24I (HgiJII) GRGCY^CEco25I (HgiJII) GRGCYCEco26I (HgiJII GRGCYCEco31I GGTCTCN^Eco31I ^NNNNNGAGACCEco32I (EcoRV) GAT^ATCEco35I (HgiJII) GRGCYCEco38I (EcoRII) CCWGGEco39I (AsuI) GGNCCEco40I (EcoRII) CCWGGEco41I (EcoRII) CCWGGEco42I (Eco31I) GGTCTCEco42I (Eco31I) GAGACCEco43I (ScrFI) CCNGGEco47I (AvaII) G^GWCCEco47II (AsuI) GGNCCEco47III AGC^GCT

Page 6: Bioinformatica

Eco17I (EcoRV)GATATCEco24I (HgiJII)GRGCY^CEco25I (HgiJII)GRGCYCEco26I(HgiJIIGRGCYC Eco31IGGTCTCN^Eco31I^NNNNNGAGACCEco32I (EcoRV)GAT^ATCEco35I (HgiJII)GRGCYCEco38I (EcoRII)CCWGGEco39I (AsuI)GGNCCEco40I (EcoRII)CCWGGEco41I (EcoRII)CCWGGEco42I (Eco31I)GGTCTCEco42I (Eco31I)GAGACCEco43I (ScrFI)CCNGGEco47I (AvaII)G^GWCCEco47II (AsuI)GGNCCEco47IIIAGC^GCT

Structuur is essentieel voor gericht opvragen van gegevens!

Page 7: Bioinformatica

Gegeven◦ willekeurig feit

Informatie◦ Gegeven(s) nodig om beslissing te kunnen nemen

Doel van gegevensbeheer◦ Gestructureerde opslag van gegevens om op juiste

moment de juiste informatie te kunnen leveren Datamodellering

◦ Bepalen welke gegevens in welke structuur nodig zijn om aan informatiebehoefte te kunnen voldoen

Page 8: Bioinformatica

Gegevensbeheer betekent afbeelden van de werkelijkheid in de computer

Werkelijkheid bestaat uit objecten◦ boom

Object heeft kenmerken of attributen◦ hoogte

Specifieke boom heeft waarde◦ 4.78 m

4.78m

Page 9: Bioinformatica

Abstract object wordt beschreven met lijst kenmerken: objecttype◦ boom: soort, hoogte, leeftijd, lokatie

Concreet object wordt geidentificeerd door lijst waarden voor kenmerken: record◦ Plataan, 4.78m, 7 jaar, NW-hoek plein

Page 10: Bioinformatica

objecttype

record

tabel

soort hoogte locatie

plataan 4.78 NW-hoek

kolom

Database: set samenhangende (gerelateerde) tabellen

Page 11: Bioinformatica

Doel◦ Effectief en efficiënt opslaan van de gegevens die nodig

zijn voor een bepaalde taak Drie stappen

◦ Inventarisatie◦ Selectie◦ Optimalisatie (normalisatie)

Page 12: Bioinformatica

Inventariseren◦ Brainstormen welke gegevens van belang

kunnen zijn◦ Ruim denken (strepen is beter dan vergeten)◦ Uitgangspunten

Papieren administratie (formulieren) Gesprekken met medewerkers Vragen die in het werk opkomen Gezond ‘boeren-’ verstand

Page 13: Bioinformatica

Selecteren◦ Elk gegeven kost tijd voor invoeren, wijzigen,

etc.◦ Essentie: het kiezen van de kenmerken nodig

voor het werk◦ Keuze gebaseerd op:

relevantie (nodig, nuttig, aardig) beschikbaarheid hoeveelheid ruimte hoeveelheid werk (invoeren, onderhouden)

◦ Resultaat: platte tabel (nulde normaalvorm) Kolommen voor de kenmerken (velden) Regels voor de objecten (records)

Page 14: Bioinformatica

Optimaliseren◦ Datamodel efficiënter maken zonder zonder

dataverliesdataverlies◦ Principes bedacht door E.F. Codd◦ Proces heet normaliseren◦ Uitgangspunt nulde NV◦ Achtereenvolgens

Eerste normaalvorm Tweede normaalvorm Derde normaalvorm Enzovoorts

◦ Eerste is essentieel; hogere afhankelijk van grootte database en motivatie

Page 15: Bioinformatica

Voorbeeld huisartsenpraktijk Kenmerken (nulde NV)

◦ Datum bezoek◦ Naam patiënt◦ Adres patiënt◦ Plaats patiënt◦ Naam huisarts◦ Adres huisarts◦ Telefoon huisarts◦ Bloedgroep patiënt◦ Kosten bezoek

Page 16: Bioinformatica

Drie consulten van dezelfde patient

Naam H.A. KunnenAdres Gorterstraat 1Plaats Deventer

Bloedgroep OHuisarts J.A. JansenAdres arts Brink 35Tel.nr. arts 653781

Bezoekdatum 14/2/96

Kosten bezoek €120.58

Naam H.A. KunnenAdres Gorterstraat 1Plaats Devanter

Bloedgroep OHuisarts J.A. JansenAdres arts Brink 34Tel.nr. arts 653781

Bezoekdatum 8/3/96

Kosten bezoek €100.00

Naam H.A. KunnenAdres Gorterstraat 1Plaats Deventer

Bloedgroep PHuisarts J.A. JansenAdres arts Brink 35Tel.nr. arts 653781

Bezoekdatum 22/4/96

Kosten bezoek €80.20

Page 17: Bioinformatica

Problemen bij de platte tabel:

1. Gegevens die in meer records nodig zijn en identiek zijn (repeterende groep)

◦ Redundantie

2. Gegevens die in meer records nodig zijn maar verkeerd worden ingetikt

◦ Inconsistentie

Page 18: Bioinformatica

Naam H.A. KunnenAdres Gorterstraat 1Plaats Deventer

Bloedgroep OHuisarts J.A. JansenAdres arts Brink 35Tel.nr. arts 653781

Bezoekdatum 14/2/96

Kosten bezoek €120.58

Naam H.A. KunnenAdres Gorterstraat 1Plaats Deventer

Bloedgroep OHuisarts J.A. JansenAdres arts Brink 35Tel.nr. arts 653781

Bezoekdatum 8/3/96

Kosten bezoek €100.00

Huisarts J.A. JansenAdres arts Brink 35Tel.nr. arts 653781

Naam H.A. KunnenAdres Gorterstraat 1Plaats Deventer

Bloedgroep O

Page 19: Bioinformatica

Patientnr 007Artsnr 003

Bezoekdatum 14/2/96

Kosten bezoek €120.58

Patientnr 007Artsnr 003

Bezoekdatum 14/3/96

Kosten bezoek €100.00

Artsnr 003Huisarts J.A. JansenAdres arts Brink 35Tel.nr. arts 653781

Patientnr 007Naam H.A. KunnenAdres Gorterstraat 1Plaats Deventer

Bloedgroep O

Primary key

Foreign key

relatie

Page 20: Bioinformatica

Platte tabel = nulde normaalvorm Resultaat na afsplitsen repeterende groepen =

eerste normaalvorm Eerste normaalvorm vereist, want…

◦ niet moeilijk◦ weinig werk◦ veel resultaat

Overige normaalvormen facultatief

Page 21: Bioinformatica

Situatie◦ Magazijn waar reagentia worden bewaard en

uitgeleend/uitgegeven◦ Mogelijke vragen en overzichten

Wat is de actuele voorraad van reagens A? Wat zijn de risico’s van reagens B? Waar is reagens C opgeslagen? Hoeveel heeft afdeling X deze maand verbruikt? Welke reagentia moeten vrijdag besteld worden? ...

◦ Bijhouden Wie krijgt wat mee (waar is iets; budgettering) Informatie over de reagentia

Page 22: Bioinformatica

Inventarisatiestap◦ Naam reagens◦ Naam klant◦ Afdeling klant◦ Lokatie reagens◦ Veiligheidscategorie reagens◦ Functie klant◦ Hobby klant◦ Kristalstructuur reagens◦ Voorraad reagens◦ Afhaalinformatie (datum, hoeveelheid)◦ Verpakkingseenheid reagens◦ Afbeelding reagens◦ ...

Page 23: Bioinformatica

Selectiestap◦ Hobby klant

Want weinig relevant, veel werk, ...◦ Kristalstructuur reagens

Want te weinig relevant, moeilijk te achterhalen◦ Afbeelding reagens

Want te weinig relevant, veel werk, veel opslagruimte

Page 24: Bioinformatica

Resultaat na selectiestap: nulde normaalvorm◦ Naam reagens◦ Naam klant◦ Afdeling klant◦ Lokatie reagens◦ Veiligheidscategorie reagens◦ Functie klant◦ Voorraad reagens◦ Afhaaldatum◦ Afhaalhoeveelheid◦ Verpakkingseenheid reagens

Page 25: Bioinformatica

Optimalisatiestap◦ Hetzelfde reagens zal vaker worden afgehaald

repeterende groep, lang afsplitsen◦ Dezelfde klant zal vaker reagentia halen

repeterende groep, lang afsplitsen◦ Op dezelfde dag zal vaker iets worden afgehaald

Repeterende groep, kort niet afsplitsen

Page 26: Bioinformatica

Resultaat na optimalisatie: eerste normaalvorm◦ Hoofdtabel: afhaalinformatie

(reagensnr, klantnr, datum, hoeveelheid)◦ Hulptabel: reagentia

(reagensnr, naam, lokatie, veiligheidscategorie, verpakkingseenheid, voorraad)

◦ Hulptabel: klanten (klantnr, naam, afdeling, functie)

Page 27: Bioinformatica

Veld (attribuut, kenmerk, kolom) Essentiële kenmerken:

◦ Veldnaam◦ Inhoud (waarde)

Overige eigenschappen◦ Lengte◦ Type (tekst, getal, datum)◦ Verplicht/niet verplicht◦ Uniek/niet uniek◦ Sleutel/geen sleutel◦ Controles (constraints)

Op vorm (postcode: “9999 AA”) Op inhoud (temperatuur tussen 35 en 45 graden)