Post on 03-Jan-2016
description
Gegevensverwerving en verwerking
Staalname Bibliotheek
- aantal stalen/replicaten- grootte staal- apparatuur
- beschrijvend- variantie-analyse- correlatie- regressie- Ordinatie- DFA- Classificatie
Experimentele setup
Statistiek
Websites : www.statsoft.com => electronic statistic textbook allserv.ugent.be/ ~katdhond/ => reservatie PC zalen / ~tdeprez => lesnota’s
Staalname Zeeleeuw Lijst namen geboortedatum, paspoortnr en te verwittigen personen + coördinaten
Bibliotheek 1 sleutel artikel scriptie meebrengen
ARC account verlengen of aanvragen ten laatste tegen vrijdag
Excel practicum Diskette meebrengen
Lessenrooster + practica E-mail : ann.vanreusel@ugent.be
Wetenschappelijk onderzoek
•Doel
•Hypothese
•Staalname of Experiment
•Verwerking data d.m.v.statistiek
=> testen van hypothese
=> verwerven van data
•Interpretatie
=> bespreking en vergelijking met literatuur
= > presentatie
Vraagstelling testbaar
Statistiek is enkel middel om wetenschappelijke gegevens te interpreteren (is geen doel op zich)
Onmogelijk om volledige populaties te onderzoeken.Daarom worden stalen of monsters genomen
Niet altijd mogelijk om in situ waarnemingen te doenDaarom worden experimenten uitgevoerd
Statistiek is een middel om na te gaan in hoeverwaarneming betrouwbaar is (opgaat voor totalepopulatie).
Hulpmiddel om patronen te herkennen en te beschrijven
VoorbeeldenVoorbeelden
In situ - Staalname (ad random) gemeenschapsanalysenpopulatiedynamica…..
- observatiesgemeenschapsanalysengedragsstudiesfunctionele morfologie…….
- experimenten -manipulatiesIn situ Labo
- type data: variabelen Discreet of continue ?
Vb tellingen versus metingen
NominaalVb Kleur, geslacht, ..
- schalen
Ratio schaal Constante intervalgrootte, 0 punt
Interval schaal Constante intervalgrootte, geen 0 puntVb tijdschaal 0 punt is arbitrair Vb 40° is niet twee x zo warm als 20°
Ordinale schaal RankingMinder informatie
Nominale schaal Nominale data
(vb 30 cm is helft van 60 cm)
Station 1 Station 2 Station 3 Station 4 Station 5 Station 6soort1 1 1 1 1 0 1soort2 1 1 1 1 0 1soort3 0 0 1 1 0 1soort4 1 1 1 1 1 0
Station 1 Station 2 Station 3 Station 4 Station 5 Station 6soort1 7 61 50 11 0 1soort2 4 13 155 6 0 4soort3 0 0 106 2 0 1soort4 5 42 100 13 1 0
Station 1 Station 2 Station 3 Station 4 Station 5 Station 6soort1 43,8 52,6 12,2 34,4 0,0 16,7soort2 25,0 11,2 37,7 18,8 0,0 66,7soort3 0,0 0,0 25,8 6,3 0,0 16,7soort4 31,3 36,2 24,3 40,6 100,0 0,0
Station 1 Station 2 Station 3 Station 4 Station 5 Station 6soort1 1 3 2 2 0 1soort2 1 2 4 1 0 1soort3 0 0 4 1 0 1soort4 1 2 3 2 1 0
Aan- en afwezigheid
Aantallen : densiteiten
Procentuele abundanties : frequenties
Gekodeerde abundanties (klassen)1 : 1-102 : 11-503 : 51 - 1004 : > 100
Voorstellen van data in datamatrix: rijen en kolommen
1e exploratie datamatrix
Gemeenschappelijke (meestal ongewenste) kenmerken van dataset :
- ruis : variatie tgv meetfouten- overlap of redundantie : 2 of meer variabelen geven zelfde informatie - uitbijters : sterk afwijkende data
Variatie :- meetfouten- genetische variatie tussen organismen- invloed omgevingsfactoren
Measures for central tendency + measures of dispersion Parameters die gemeenschap beschrijven of karakteriseren schatting of statistiek
Griekse letters Latijnse letters
Grafische voorstelling van data
Samenvatting van data in frequentie tabellen
Aantal keren dat een bepaalde meting of telling wordt waargenomen binnen een staal waarbij al dan niet wordt gebruik gemaakt van grootte klassen of intervallen (continue of discrete distributie)
100
500
2000
Normaal verdeling
= gekoppeld aan wet van “centrale tendens” :tendens dat meeste observaties symmetrisch rond het gemiddelde liggen
De frequentiedistributie van een grote biologische dataset ziet er meestal*uit als een normale verdeling
•niet algemeen zoals oorspronkelijk aangenomen maar toch erg frequent •vooral bruikbaar in statistiek
Normale verdeling kan beschreven worden aan de hand van gemiddelde µ en standaard deviatie
Het populatiegemiddelde is top van de distributie xiµ= ___ N
De breedte van de distributie wordt weergegeven door de standaard deviatie = afstand van top waar kurve overgaat van convex naar concaaf => geeft weer hoeveel metingen gemiddeld verschillen van het gemiddelde µ.De standaarddeviatie is de vierkantswortel van variantie
(xi- µ)2 = ___________ N
(xi- µ)2 ² = _______ N
Variantie is som van kwadraat * van alle afwijkingen van het gemiddelde, gedeeld door aantal waarnemingen
* kwadraat anders zou som 0 zijn
SD heeft zelfde eenheid als gemiddelde
In geval van een normaal verdeling vallen 95 % van alle waarnemingen binnen 1.96 maal de standaard deviatie. 95 % betrouwbaarheidsintervallen
99 % valt binnen 3.29 x SD
Schatting van standaarddeviatie
(xi- µ)2s = _______ N-1
Delen door N-1 ipv door N
Delen door N zou een onderschatting betekenen, vooral wanneer N klein is
N-1 is aantal vrijheidsgraden df van een staal of aantal onafhankelijkeeenheden om tot gemiddelde µ te komen.
(xi- µ)2s² = _________ N-1
Hoe ver is gemiddelde een betrouwbare schatting ?
Stel we nemen een oneindig aantal stalen voor een populatie Voor elk staal wordt een gemiddelde berekend
Deze gemiddelde waarden gaan op hun beurt opnieuw een normaal verdeling vertonen “central limit theorem”
De standaard fout of standard error (SE)is maat voor hoeveel gemiddelden gaan verschillen van werkelijk populatiegemiddelde
SE = ______ N
S
Deze normaal verdeling is wel smaller aangezien hoge en lage waarden teniet worden gedaan bij
berekening van gemiddelde.
De schatting van gemiddelde waarden heeft echter eerder t distributie dan normaal distributie
Vorm van t distributie is gerelateerd aan aantal vrijheidsgraden.Hoe meer df hoe meer t distributie => normaal distributie
SE is net zoals SD buigpunt van de curve. Opnieuw kunnen betrouwbaarheidsintervallen berekend worden .
95 % van gemiddelden vallen binnen 1.96 x SE
SE = ______ N
s
Betrouwbaarheidsintervallen voor populatiegemiddeldedaarom berekend aan de hand van getabelleerde kritische waarde voor t distributie
95 % CI = µ ± tN-1, 5 % x SE
Hoe groter de staalgrootte, hoe kleiner betrouwbaarheidsintervallen.
Immers hoe groter N , hoe kleiner SE en hoe kleiner t
Overige maten voor centrale tendens
Mediaan : middelste waarneming in een geordende dataset (50 % punt)
Mode : meest voorkomende waarde in een dataset
Geometrisch gemiddelde:
nx1x2x3 …..xn Antilog 1/n log xi
Het geometrisch gemiddelde is steeds kleiner dan het aritmetisch gemiddelde, tenzij alle data dezelfde waarde hebben.
1 1 1 12 2 2 23 3 3 34 4 4 45 5 5 56 6 6 67 7 7 78 8 8 89 9 9 9
10 10 10 1080 80
12.27 5.88 5.50 4.53aritmetisch geometrisch aritmetisch geometrisch
Grafische voorstelling : vervolg Box and whisker plotsBox and whisker plots
±1.00*Std. Dev.Std. Dev. = 228.6683
±1.00*Std. Err.Std. Err. = 35.71204
Mean = 1316.829
gemiddelde, SE, SD
1050
1150
1250
1350
1450
1550
1650
VAR2
Max = 1896.000Min = 1023.000
75% = 1485.00025% = 1111.000
Median value:Med = 1285.000
mediaan, quartielen en range
900
1100
1300
1500
1700
1900
2100
VAR2
±1.96*StDev
±1.00*Std. Dev.Std. Dev. = 228.6683
Mean = 1316.829
gemiddelde, SD, 1,96 SD
800
1000
1200
1400
1600
1800
2000
VAR2
±1.96*Std. Err.
±1.00*Std. Err.Std. Err. = 35.71204
Mean = 1316.829
Gemiddelde, SE, 1.96 SE
1220
1240
1260
1280
1300
1320
1340
1360
1380
1400
VAR2
Grafische voorstelling : vervolg
ExpectedNormal
PH
Upper Boundaries (x <= boundary)
No
of o
bs
0
1
2
3
4
3.5 4.0 4.5 5.0 5.5 6.0 6.5 7.0 7.5
Normal Probability Plot
PH
Value
Exp
ecte
d N
orm
al V
alue
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
2.5
3.5 4.0 4.5 5.0 5.5 6.0 6.5 7.0 7.5
Cumulatieve frequentiedistributie
0
100
200
300
400
500
600
700
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47
0
100
200
300
400
500
600
700
1 2 3 4 5 6 7 8 9
Ruwe datadensiteiten
Log (x+1)getransformeerde data
Transformaties : log (x+1)
- maakt frequentiedistributies minder ‘skewed’ naar rechts=> hoogste waarden worden minder hoog
Transformaties : log (x+1)
Om een datamatrix met veel 0 waarden te transformeren, wordt een klein getal aan de oorspronkelijke waarden toegevoegd
Voor tellingen voegt men meestal 1 toe zodat b = log (0+1)=0
RAW Log X Log X+10 #NUM! 01 0 0,3015 0,699 0,778
10 1,000 1,041100 2,000 2,004
10000 4,000 4,000100000 5,000 5,000
1000000 6,000 6,00010000000 7,000 7,000
100000000 8,000 8,000
Normal Probability Plot
ruwe data
Value
Exp
ecte
d N
orm
al V
alue
-2.5
-1.5
-0.5
0.5
1.5
2.5
-4 2 8 14 20 26 32
Normal Probability Plot
log transformatie
Value
Exp
ecte
d N
orm
al V
alue
-2.5
-1.5
-0.5
0.5
1.5
2.5
-0.2 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6
Betere fit voor normaal verdeling
De varianties worden onafhankelijk van gemiddelden
±Std. Dev.
±Std. Err.
Mean
Box & Whisker Plot
-200
200
600
1000
1400
1800
RUW1 RUW2
±Std. Dev.
±Std. Err.
Mean
Box & Whisker Plot
0.0
0.6
1.2
1.8
2.4
3.0
3.6
LOG1 LOG2
RUW LOG (x+1)
Algemeen gebruikt voor drie redenen :
statistisch aantrekkelijk dat data normaal verdeeld zijn
Om minder gewicht te geven aan dominante soorten en meer gewicht aan kwalitatieve aspecten
Voor omgevingsvariabelen: als weergave van de lineaire responsvan soorten tov het logaritme van omgevingsvariabelen
±Std. Dev.
±Std. Err.
Mean
Box & Whisker Plot
-2
0
2
4
6
8
10
12
14
ruw square root foorth root
±Std. Dev.
±Std. Err.
Mean
Box & Whisker Plot
-200
200
600
1000
1400
1800
VAR2 SQRT2 FTHRT2
Tweede en vierdemachtswortel transformaties => maakt variantie onafhankelijk van het gemiddelde
Vergelijkbaar maar minder drastisch dan de logtransformatie
Machtstransformatie p = 0 aan- afwezigheid p = 0.5 vierkantswortel p = 0.25 vierdemachts wortel
ARCSINE SQUARE ROOT TRANSFORMATION
0
20
40
60
80
100
120
140
100/arcsin(/2( x
=(2/3,141592)*ASIN((X/100)^(1/2))
PROPORTIONS
0
20
40
60
80
100
120
140
Arc sinus (vierkantswortel)transformatie
=> spreidt grote en kleine waarden meer uit => drukt middelste waarden samen
%
Deze transformatie wordt aanbevolen voor procentuele dataData moeten varieren tussen 0 en 1
The arc sinus (vierkantswortel) wordt vermenigvuldigd met 2/п Om de resultaten van de arcsinus (x) uit te drukken in radialen van 0 tot 1
Standardisatie van variabelen uitgedrukt in verschillende eenhedenVb een verschil van 1 eenheid in pH is duidelijk verschillend van een verschil van 1 microgram fosfaat
Vervang metingen door een rank nummer
Vervang elke meting door de afwijking tov de gemiddelde waarde berekend over alle metingen (= centring)
Standardiseer naar een gemiddelde van 0 en variantie 1
SDyyY avgkiki /)( PSU m °C
Saliniteit 1/Secchi diepte Temperatuur Saliniteit 1/Secchi diepte Temperatuurw31 31.000 0.008 20.000 w31 1.084 -0.478 -0.584w30a 30.300 0.008 20.000 w30a 0.984 -0.478 -0.584w30b 29.400 0.008 19.800 w30b 0.854 -0.540 -0.801w30c 29.400 0.008 20.100 w30c 0.854 -0.540 -0.475w28 28.000 0.010 20.200 w28 0.654 -0.168 -0.367w27 26.600 0.010 20.200 w27 0.453 -0.168 -0.367w25a 25.500 0.007 20.100 w25a 0.295 -0.699 -0.475w25b 25.000 0.007 20.100 w25b 0.223 -0.699 -0.475w21 21.100 0.009 20.300 w21 -0.337 -0.411 -0.259w19 19.300 0.011 20.500 w19 -0.595 0.038 -0.042w17 17.000 0.010 20.600 w17 -0.925 -0.168 0.067w12 11.900 0.025 22.300 w12 -1.657 2.621 1.910w10 10.300 0.020 22.800 w10 -1.887 1.691 2.452
avg 23.446 0.011 20.538 avg 0.000 0.000 0.000SD 6.968 0.005 0.922 SD 1.000 1.000 1.000