Gegevensverwerving en verwerking

28
egevensverwerving en verwerking Staalname Bibliot heek aantal stalen/replicaten grootte staal apparatuur - beschrijvend - variantie-analyse - correlatie - regressie - Ordinatie - DFA - Classificatie Experimentele setup Statistiek www.statsoft.com => electronic statistic textbook allserv.ugent.be/ ~katdhond/ => reservatie P / ~tdeprez => lesnota’

description

Gegevensverwerving en verwerking. Bibliotheek. Staalname. Statistiek. - aantal stalen/replicaten - grootte staal - apparatuur. - beschrijvend - variantie-analyse - correlatie - regressie Ordinatie DFA - C lassificatie. Experimentele setup. - PowerPoint PPT Presentation

Transcript of Gegevensverwerving en verwerking

Page 1: Gegevensverwerving  en verwerking

Gegevensverwerving en verwerking

Staalname Bibliotheek

- aantal stalen/replicaten- grootte staal- apparatuur

- beschrijvend- variantie-analyse- correlatie- regressie- Ordinatie- DFA- Classificatie

Experimentele setup

Statistiek

Websites : www.statsoft.com => electronic statistic textbook allserv.ugent.be/ ~katdhond/ => reservatie PC zalen / ~tdeprez => lesnota’s

Page 2: Gegevensverwerving  en verwerking

Staalname Zeeleeuw Lijst namen geboortedatum, paspoortnr en te verwittigen personen + coördinaten

Bibliotheek 1 sleutel artikel scriptie meebrengen

ARC account verlengen of aanvragen ten laatste tegen vrijdag

Excel practicum Diskette meebrengen

Lessenrooster + practica E-mail : [email protected]

Page 3: Gegevensverwerving  en verwerking

Wetenschappelijk onderzoek

•Doel

•Hypothese

•Staalname of Experiment

•Verwerking data d.m.v.statistiek

=> testen van hypothese

=> verwerven van data

•Interpretatie

=> bespreking en vergelijking met literatuur

= > presentatie

Vraagstelling testbaar

Page 4: Gegevensverwerving  en verwerking

Statistiek is enkel middel om wetenschappelijke gegevens te interpreteren (is geen doel op zich)

Onmogelijk om volledige populaties te onderzoeken.Daarom worden stalen of monsters genomen

Niet altijd mogelijk om in situ waarnemingen te doenDaarom worden experimenten uitgevoerd

Statistiek is een middel om na te gaan in hoeverwaarneming betrouwbaar is (opgaat voor totalepopulatie).

Hulpmiddel om patronen te herkennen en te beschrijven

Page 5: Gegevensverwerving  en verwerking

VoorbeeldenVoorbeelden

In situ - Staalname (ad random) gemeenschapsanalysenpopulatiedynamica…..

- observatiesgemeenschapsanalysengedragsstudiesfunctionele morfologie…….

- experimenten -manipulatiesIn situ Labo

Page 6: Gegevensverwerving  en verwerking

- type data: variabelen Discreet of continue ?

Vb tellingen versus metingen

NominaalVb Kleur, geslacht, ..

- schalen

Ratio schaal Constante intervalgrootte, 0 punt

Interval schaal Constante intervalgrootte, geen 0 puntVb tijdschaal 0 punt is arbitrair Vb 40° is niet twee x zo warm als 20°

Ordinale schaal RankingMinder informatie

Nominale schaal Nominale data

(vb 30 cm is helft van 60 cm)

Page 7: Gegevensverwerving  en verwerking

Station 1 Station 2 Station 3 Station 4 Station 5 Station 6soort1 1 1 1 1 0 1soort2 1 1 1 1 0 1soort3 0 0 1 1 0 1soort4 1 1 1 1 1 0

Station 1 Station 2 Station 3 Station 4 Station 5 Station 6soort1 7 61 50 11 0 1soort2 4 13 155 6 0 4soort3 0 0 106 2 0 1soort4 5 42 100 13 1 0

Station 1 Station 2 Station 3 Station 4 Station 5 Station 6soort1 43,8 52,6 12,2 34,4 0,0 16,7soort2 25,0 11,2 37,7 18,8 0,0 66,7soort3 0,0 0,0 25,8 6,3 0,0 16,7soort4 31,3 36,2 24,3 40,6 100,0 0,0

Station 1 Station 2 Station 3 Station 4 Station 5 Station 6soort1 1 3 2 2 0 1soort2 1 2 4 1 0 1soort3 0 0 4 1 0 1soort4 1 2 3 2 1 0

Aan- en afwezigheid

Aantallen : densiteiten

Procentuele abundanties : frequenties

Gekodeerde abundanties (klassen)1 : 1-102 : 11-503 : 51 - 1004 : > 100

Voorstellen van data in datamatrix: rijen en kolommen

Page 8: Gegevensverwerving  en verwerking

1e exploratie datamatrix

Gemeenschappelijke (meestal ongewenste) kenmerken van dataset :

- ruis : variatie tgv meetfouten- overlap of redundantie : 2 of meer variabelen geven zelfde informatie - uitbijters : sterk afwijkende data

Variatie :- meetfouten- genetische variatie tussen organismen- invloed omgevingsfactoren

Measures for central tendency + measures of dispersion Parameters die gemeenschap beschrijven of karakteriseren schatting of statistiek

Griekse letters Latijnse letters

Page 9: Gegevensverwerving  en verwerking

Grafische voorstelling van data

Samenvatting van data in frequentie tabellen

Aantal keren dat een bepaalde meting of telling wordt waargenomen binnen een staal waarbij al dan niet wordt gebruik gemaakt van grootte klassen of intervallen (continue of discrete distributie)

100

500

2000

Page 10: Gegevensverwerving  en verwerking

Normaal verdeling

= gekoppeld aan wet van “centrale tendens” :tendens dat meeste observaties symmetrisch rond het gemiddelde liggen

De frequentiedistributie van een grote biologische dataset ziet er meestal*uit als een normale verdeling

•niet algemeen zoals oorspronkelijk aangenomen maar toch erg frequent •vooral bruikbaar in statistiek

Page 11: Gegevensverwerving  en verwerking

Normale verdeling kan beschreven worden aan de hand van gemiddelde µ en standaard deviatie

Het populatiegemiddelde is top van de distributie xiµ= ___ N

De breedte van de distributie wordt weergegeven door de standaard deviatie = afstand van top waar kurve overgaat van convex naar concaaf => geeft weer hoeveel metingen gemiddeld verschillen van het gemiddelde µ.De standaarddeviatie is de vierkantswortel van variantie

(xi- µ)2 = ___________ N

Page 12: Gegevensverwerving  en verwerking

(xi- µ)2 ² = _______ N

Variantie is som van kwadraat * van alle afwijkingen van het gemiddelde, gedeeld door aantal waarnemingen

* kwadraat anders zou som 0 zijn

SD heeft zelfde eenheid als gemiddelde

In geval van een normaal verdeling vallen 95 % van alle waarnemingen binnen 1.96 maal de standaard deviatie. 95 % betrouwbaarheidsintervallen

99 % valt binnen 3.29 x SD

Page 13: Gegevensverwerving  en verwerking

Schatting van standaarddeviatie

(xi- µ)2s = _______ N-1

Delen door N-1 ipv door N

Delen door N zou een onderschatting betekenen, vooral wanneer N klein is

N-1 is aantal vrijheidsgraden df van een staal of aantal onafhankelijkeeenheden om tot gemiddelde µ te komen.

(xi- µ)2s² = _________ N-1

Page 14: Gegevensverwerving  en verwerking

Hoe ver is gemiddelde een betrouwbare schatting ?

Stel we nemen een oneindig aantal stalen voor een populatie Voor elk staal wordt een gemiddelde berekend

Deze gemiddelde waarden gaan op hun beurt opnieuw een normaal verdeling vertonen “central limit theorem”

De standaard fout of standard error (SE)is maat voor hoeveel gemiddelden gaan verschillen van werkelijk populatiegemiddelde

SE = ______ N

S

Deze normaal verdeling is wel smaller aangezien hoge en lage waarden teniet worden gedaan bij

berekening van gemiddelde.

Page 15: Gegevensverwerving  en verwerking

De schatting van gemiddelde waarden heeft echter eerder t distributie dan normaal distributie

Vorm van t distributie is gerelateerd aan aantal vrijheidsgraden.Hoe meer df hoe meer t distributie => normaal distributie

SE is net zoals SD buigpunt van de curve. Opnieuw kunnen betrouwbaarheidsintervallen berekend worden .

95 % van gemiddelden vallen binnen 1.96 x SE

SE = ______ N

s

Page 16: Gegevensverwerving  en verwerking

Betrouwbaarheidsintervallen voor populatiegemiddeldedaarom berekend aan de hand van getabelleerde kritische waarde voor t distributie

95 % CI = µ ± tN-1, 5 % x SE

Hoe groter de staalgrootte, hoe kleiner betrouwbaarheidsintervallen.

Immers hoe groter N , hoe kleiner SE en hoe kleiner t

Page 17: Gegevensverwerving  en verwerking

Overige maten voor centrale tendens

Mediaan : middelste waarneming in een geordende dataset (50 % punt)

Mode : meest voorkomende waarde in een dataset

Page 18: Gegevensverwerving  en verwerking

Geometrisch gemiddelde:

nx1x2x3 …..xn Antilog 1/n log xi

Het geometrisch gemiddelde is steeds kleiner dan het aritmetisch gemiddelde, tenzij alle data dezelfde waarde hebben.

1 1 1 12 2 2 23 3 3 34 4 4 45 5 5 56 6 6 67 7 7 78 8 8 89 9 9 9

10 10 10 1080 80

12.27 5.88 5.50 4.53aritmetisch geometrisch aritmetisch geometrisch

Page 19: Gegevensverwerving  en verwerking

Grafische voorstelling : vervolg Box and whisker plotsBox and whisker plots

±1.00*Std. Dev.Std. Dev. = 228.6683

±1.00*Std. Err.Std. Err. = 35.71204

Mean = 1316.829

gemiddelde, SE, SD

1050

1150

1250

1350

1450

1550

1650

VAR2

Max = 1896.000Min = 1023.000

75% = 1485.00025% = 1111.000

Median value:Med = 1285.000

mediaan, quartielen en range

900

1100

1300

1500

1700

1900

2100

VAR2

±1.96*StDev

±1.00*Std. Dev.Std. Dev. = 228.6683

Mean = 1316.829

gemiddelde, SD, 1,96 SD

800

1000

1200

1400

1600

1800

2000

VAR2

±1.96*Std. Err.

±1.00*Std. Err.Std. Err. = 35.71204

Mean = 1316.829

Gemiddelde, SE, 1.96 SE

1220

1240

1260

1280

1300

1320

1340

1360

1380

1400

VAR2

Page 20: Gegevensverwerving  en verwerking

Grafische voorstelling : vervolg

ExpectedNormal

PH

Upper Boundaries (x <= boundary)

No

of o

bs

0

1

2

3

4

3.5 4.0 4.5 5.0 5.5 6.0 6.5 7.0 7.5

Normal Probability Plot

PH

Value

Exp

ecte

d N

orm

al V

alue

-2.0

-1.5

-1.0

-0.5

0.0

0.5

1.0

1.5

2.0

2.5

3.5 4.0 4.5 5.0 5.5 6.0 6.5 7.0 7.5

Page 21: Gegevensverwerving  en verwerking

Cumulatieve frequentiedistributie

Page 22: Gegevensverwerving  en verwerking

0

100

200

300

400

500

600

700

1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47

0

100

200

300

400

500

600

700

1 2 3 4 5 6 7 8 9

Ruwe datadensiteiten

Log (x+1)getransformeerde data

Transformaties : log (x+1)

- maakt frequentiedistributies minder ‘skewed’ naar rechts=> hoogste waarden worden minder hoog

Page 23: Gegevensverwerving  en verwerking

Transformaties : log (x+1)

Om een datamatrix met veel 0 waarden te transformeren, wordt een klein getal aan de oorspronkelijke waarden toegevoegd

Voor tellingen voegt men meestal 1 toe zodat b = log (0+1)=0

RAW Log X Log X+10 #NUM! 01 0 0,3015 0,699 0,778

10 1,000 1,041100 2,000 2,004

10000 4,000 4,000100000 5,000 5,000

1000000 6,000 6,00010000000 7,000 7,000

100000000 8,000 8,000

Page 24: Gegevensverwerving  en verwerking

Normal Probability Plot

ruwe data

Value

Exp

ecte

d N

orm

al V

alue

-2.5

-1.5

-0.5

0.5

1.5

2.5

-4 2 8 14 20 26 32

Normal Probability Plot

log transformatie

Value

Exp

ecte

d N

orm

al V

alue

-2.5

-1.5

-0.5

0.5

1.5

2.5

-0.2 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6

Betere fit voor normaal verdeling

Page 25: Gegevensverwerving  en verwerking

De varianties worden onafhankelijk van gemiddelden

±Std. Dev.

±Std. Err.

Mean

Box & Whisker Plot

-200

200

600

1000

1400

1800

RUW1 RUW2

±Std. Dev.

±Std. Err.

Mean

Box & Whisker Plot

0.0

0.6

1.2

1.8

2.4

3.0

3.6

LOG1 LOG2

RUW LOG (x+1)

Algemeen gebruikt voor drie redenen :

statistisch aantrekkelijk dat data normaal verdeeld zijn

Om minder gewicht te geven aan dominante soorten en meer gewicht aan kwalitatieve aspecten

Voor omgevingsvariabelen: als weergave van de lineaire responsvan soorten tov het logaritme van omgevingsvariabelen

Page 26: Gegevensverwerving  en verwerking

±Std. Dev.

±Std. Err.

Mean

Box & Whisker Plot

-2

0

2

4

6

8

10

12

14

ruw square root foorth root

±Std. Dev.

±Std. Err.

Mean

Box & Whisker Plot

-200

200

600

1000

1400

1800

VAR2 SQRT2 FTHRT2

Tweede en vierdemachtswortel transformaties => maakt variantie onafhankelijk van het gemiddelde

Vergelijkbaar maar minder drastisch dan de logtransformatie

Machtstransformatie p = 0 aan- afwezigheid p = 0.5 vierkantswortel p = 0.25 vierdemachts wortel

Page 27: Gegevensverwerving  en verwerking

ARCSINE SQUARE ROOT TRANSFORMATION

0

20

40

60

80

100

120

140

100/arcsin(/2( x

=(2/3,141592)*ASIN((X/100)^(1/2))

PROPORTIONS

0

20

40

60

80

100

120

140

Arc sinus (vierkantswortel)transformatie

=> spreidt grote en kleine waarden meer uit => drukt middelste waarden samen

%

Deze transformatie wordt aanbevolen voor procentuele dataData moeten varieren tussen 0 en 1

The arc sinus (vierkantswortel) wordt vermenigvuldigd met 2/п Om de resultaten van de arcsinus (x) uit te drukken in radialen van 0 tot 1

Page 28: Gegevensverwerving  en verwerking

Standardisatie van variabelen uitgedrukt in verschillende eenhedenVb een verschil van 1 eenheid in pH is duidelijk verschillend van een verschil van 1 microgram fosfaat

Vervang metingen door een rank nummer

Vervang elke meting door de afwijking tov de gemiddelde waarde berekend over alle metingen (= centring)

Standardiseer naar een gemiddelde van 0 en variantie 1

SDyyY avgkiki /)( PSU m °C

Saliniteit 1/Secchi diepte Temperatuur Saliniteit 1/Secchi diepte Temperatuurw31 31.000 0.008 20.000 w31 1.084 -0.478 -0.584w30a 30.300 0.008 20.000 w30a 0.984 -0.478 -0.584w30b 29.400 0.008 19.800 w30b 0.854 -0.540 -0.801w30c 29.400 0.008 20.100 w30c 0.854 -0.540 -0.475w28 28.000 0.010 20.200 w28 0.654 -0.168 -0.367w27 26.600 0.010 20.200 w27 0.453 -0.168 -0.367w25a 25.500 0.007 20.100 w25a 0.295 -0.699 -0.475w25b 25.000 0.007 20.100 w25b 0.223 -0.699 -0.475w21 21.100 0.009 20.300 w21 -0.337 -0.411 -0.259w19 19.300 0.011 20.500 w19 -0.595 0.038 -0.042w17 17.000 0.010 20.600 w17 -0.925 -0.168 0.067w12 11.900 0.025 22.300 w12 -1.657 2.621 1.910w10 10.300 0.020 22.800 w10 -1.887 1.691 2.452

avg 23.446 0.011 20.538 avg 0.000 0.000 0.000SD 6.968 0.005 0.922 SD 1.000 1.000 1.000