Gegevensverwerving en verwerking
description
Transcript of Gegevensverwerving en verwerking
Gegevensverwerving en verwerking
Staalname Bibliotheek
- aantal stalen/replicaten- grootte staal- apparatuur - beschrijvend
- variantie-analyse- correlatie- regressie- ordinatie- classificatie
Experimentele setup
Statistiek
Websites : www.statsoft.com => electronic statistic textbook allserv.rug.ac/ ~katdhond/ => reservatie PC zalen / ~gdsmet/MarBiolwebsite/ => lesnota’s
Eenvoudige lineaire regressie
Vergelijking van een rechte : Y = a + bX=> residuelen zo klein mogelijk houden bij bepalen van a en b
door de METHODE van de KLEINSTE KWADRATEN
SSY
SSregr.
SSres2
.
SMS
F regr
Volgt bij benadering een F-distributie met 1 en n-2 vrijheidsgraden indien b=0
Dus indien F > F tabel => 0b Regressie is significant
R² = --------SSregr.
SSYR² geeft weer hoeveel % variatie in Y kan worden toegeschreven aan een lineaire relatie met X. De overige variatie is willekeurig.
Voorwaarden : (zelfde als bij parametrische testen => F-test en t-test
- alle variabelen zijn normaal verdeeld
- er zijn geen residuele uitbijters => residuele analyse
* e is een willekeurige variabele met een constante variantie* e ‘s zijn onderling onafhankelijk* e’s zijn normaal verdeeld.
=> op zoek naar uitbijters : sterke impact op regressielijn
- wanneer e > gemiddelde e waarde ± 3 SD
- ‘deleted residual’ = residuele van een waarneming, indien deze niet in de analyse zou zijn inbegrepenplot van residuelen tov ‘deleted residuals’
Test van residuelen
Voorbeeld : eenvoudige lineaire regressie
diatoms nrs salinity sediment pH nutr. licht temp porositeit26.2 15.4 710 7.01 66 100 32.8 19318.1 25.8 1610 6.4 80 69.7 33.4 308015.4 56.2 500 6.93 74 100 27.8 59229 24.61 640 6.92 65 74 27.9 2
21.6 19.7 920 6.59 64 73.1 33.2 23021.9 19.2 1890 6.63 82 52.3 30.8 397818.9 23.3 3040 6.49 85 49.6 32.4 981621.1 29.2 2730 6.71 78 71.2 29.2 113723.8 26.9 1850 6.93 74 70.6 28.7 99240.5 0 2920 6.51 69 64.2 25.1 1072321.6 22.8 1070 6.8 85 58.3 35.9 312925.4 38.1 160 6.74 69 100 31.4 33819.7 34 380 6.44 83 72 30.1 51638 4.4 1140 6.81 54 100 34.1 12
30.1 23.7 690 7.05 65 100 30.5 10424.8 19.9 1170 6.73 76 69.5 30 43030.3 17.8 1280 6.65 67 81 32.4 124019.5 24.6 2270 6.48 85 39.1 28.7 2044615.6 18.9 960 6.72 84 58.4 33.4 186317.2 21.8 1710 6.62 84 42.4 29.9 803518.4 28.9 1410 6.84 86 36.4 23.3 1062027.3 11.4 200 6.73 66 99.8 27.5 21119.2 32.7 960 6.45 74 90.6 29.5 13316.8 31.4 11500 7 87 5.9 25.4 26615913.2 27.8 1380 6.63 85 44.2 28.8 243229.7 21.1 530 6.54 70 100 33.1 93219.8 17.3 370 6.98 75 52.6 30.8 727.7 20 440 6.46 48 100 28.4 20820.5 35.2 1630 6.68 83 72.1 30.4 1732
Correlations (REGVB1.STA 8v*29c)
SALINITY
SEDIMENT
PH
NUTR_
LICHT
TEMP
POROSITE
DIATOMS
Correlations (regvb1.sta)
SALINITY SEDIMENTPH NUTR_ LICHT TEMP POROSITE DIATOMS
SALINITY 1.000000 .052237 .100864 .369392 -.022323 -.174269 .126697 -.644688
SEDIMENT.052237 1.000000 .150468 .375451 -.658402 -.351110 .943332 -.182531
PH .100864 .150468 1.000000 -.091243 .013030 -.130438 .259497 .053407
NUTR_ .369392 .375451 -.091243 1.000000 -.760288 -.110341 .279120 -.729264
LICHT -.022323 -.658402 .013030 -.760288 1.000000 .314903 -.560574 .520268
TEMP -.174269 -.351110 -.130438 -.110341 .314903 1.000000 -.347578 .046892
POROSITE .126697 .943332 .259497 .279120 -.560574 -.347578 1.000000 -.198859
DIATOMS -.644688 -.182531 .053407 -.729264 .520268 .046892 -.198859 1.000000
Correlations (REGVB1.STA 8v*29c)
SALINITY
DIATOMS
X as
Y as
Regression Summary for Dependent Variable: DIATOMS
R= .64468754 R²= .41562202 Adjusted R²= .39397839
F(1,27)=19.203 p<.00016 Std.Error of estimate: 5.0560
St. Err. St. Err.
BETA of BETA B of B t(27) p-level
Intercpt 32.70604 2.374576 13.77342 .000000
SALINITY -.644688 .147118 -.40048 .091389 -4.38212 .000160
Besluit: 41.5 % van variatie in aantal diatomeeën wordt verklaard door saliniteit.
Daar p <0.05 kan de regressielijn gezien worden als een betrouwbare schatting
diat. = 32.7 - -0.40048 saliniteit. => model , voorspellingen ????
Multiple lineaire regressie
Twee of meer (k) onafhankelijke variabelen
Vergelijking : Y = a + b1X1 + b2X2+…….bkXk
Licht X1
temperatuurX2
nutrientenXk……..
Groei Y
Onafhankelijke Afhankelijke variabelen
Y = a + bX a en b zijn parameters of constantena = waarde van Y als X = 0 ; = snijpunt Y asb = aantal eenheden dat Y verandert als X met één eenheid verandert; = hellingof REGRESSIE-COEFFICIENT
Y = a + b1X1 + b2X2+…….bkXk
b1 = verwachte verandering in Y wanneer X1 met één eenheid verandertterwijl X2 constant is b2 =idem voor X2 met X1 constant
=> PARTIËLE REGRESSIE-COËFFICIENTEN
Gestandardiseerde partiële regressie-coëfficienten , ’s
Y en Xen uitgedrukt in verschillende eenheden=> a en b’s onderling niet vergelijkbaar.Daarom Y en Xen gestandardiseerd (naar dezelfde éénheid-variantie)==> afgeleide regressie-coëfficienten zijn een maat voor relatief belang van elke onafhankelijke variabele op de afhankelijke variabele.
Y = 1X1 + 2X2+……. kXk
=0
Beperkingen
- meer data dan onafhankelijke variabelen (10 tot 20 maal)
- de onafhankelijke variabelen mogen niet overlappend zijn (‘redundancy’)
Tolerantie-waarde : 1-R²
R² van de regressie met één bepaalde onafhankelijke variabele als afhankelijke variabele, en de overige onafhankelijke variabelen als onafhankelijke variabelen
Hoe kleiner de tolerantie-waarde, hoe meer overlap er is tussen dezevariabele met de overige onafhankelijke variabelen.
=> aanvaardbaar minimum van 0.01 => er is een overlap van 99%
Betrouwbaarheid van de schatting :
ANOVA : F-test => totale significantie
t-test => partiële significantie
standard error van de schatting
R² ratio (aangepast naar aantal vrijheidsgraden) => neemt aantal waarnemingen en aantal onafhankelijke variabelen in rekening
= betere maat voor de variatie verklaard door de regressie dan R²
t-test => partiële significantie
t-test kan grebruikt worden om na te gaan of b=0
In geval van één onafhankelijke variabele is t-test gelijk aan F-test meer partiële significantie test voor elke onafhankelijke variabele apart
H0 b=0 t =(geschatte b - verwachte b) / SEb
Deze t waarde wordt vergeleken met een getabelleerde t-waardevan een Student’s t distributie met n-2 vrijheidsgraden.
Indien t > t (tabel) => b is niet gelijk aan 0 => sigificante bijdrage van X < b is gelijk aan 0 => geen significante bijdrage van X
Selectie van de onafhankelijke variabelen :
Stel groot aantal potentiële onafhankelijke variabelen=> welke set van onafhankelijke variabelen geeft de beste voorspelling van Y?
Diverse strategieën : Voorwaartse selectie => F to enterAchterwaartse selectie => F to remove(al of niet stapsgewijze selectie)
Selectie-criteria: t-waarde tolerantie > 0.1
Voorwaarts :=> selectie van de beste predictor (grootste F waarde)=> vervolgens wordt de volgende onafhankelijke variabele geselecteerd die de F waarde het meest verhoogt; enzovoort to de selectie criteria niet langer voldaan zijn.
Voorbeeld : multiple lineaire regressie
diatoms nrs salinity sediment pH nutr. licht temp porositeit26.2 15.4 710 7.01 66 100 32.8 19318.1 25.8 1610 6.4 80 69.7 33.4 308015.4 56.2 500 6.93 74 100 27.8 59229 24.61 640 6.92 65 74 27.9 2
21.6 19.7 920 6.59 64 73.1 33.2 23021.9 19.2 1890 6.63 82 52.3 30.8 397818.9 23.3 3040 6.49 85 49.6 32.4 981621.1 29.2 2730 6.71 78 71.2 29.2 113723.8 26.9 1850 6.93 74 70.6 28.7 99240.5 0 2920 6.51 69 64.2 25.1 1072321.6 22.8 1070 6.8 85 58.3 35.9 312925.4 38.1 160 6.74 69 100 31.4 33819.7 34 380 6.44 83 72 30.1 51638 4.4 1140 6.81 54 100 34.1 12
30.1 23.7 690 7.05 65 100 30.5 10424.8 19.9 1170 6.73 76 69.5 30 43030.3 17.8 1280 6.65 67 81 32.4 124019.5 24.6 2270 6.48 85 39.1 28.7 2044615.6 18.9 960 6.72 84 58.4 33.4 186317.2 21.8 1710 6.62 84 42.4 29.9 803518.4 28.9 1410 6.84 86 36.4 23.3 1062027.3 11.4 200 6.73 66 99.8 27.5 21119.2 32.7 960 6.45 74 90.6 29.5 13316.8 31.4 11500 7 87 5.9 25.4 26615913.2 27.8 1380 6.63 85 44.2 28.8 243229.7 21.1 530 6.54 70 100 33.1 93219.8 17.3 370 6.98 75 52.6 30.8 727.7 20 440 6.46 48 100 28.4 20820.5 35.2 1630 6.68 83 72.1 30.4 1732
Regression Summary for Dependent Variable: DIATOMS
R= .88777217 R²= .78813943 Adjusted R²= .71751924
F(7,21)=11.160 p<.00001 Std.Error of estimate: 3.4519
St. Err. St. Err.
BETA of BETA B of B t(21) p-level
Intercpt 22.78330 28.83626 .79009 .438305
SALINITY -.578521 .139680 -.35938 .08677 -4.14177 .000463
SEDIMENT.619084 .364097 .00195 .00115 1.70033 .103833
PH .074262 .109559 2.49195 3.67641 .67782 .505284
NUTR_ -.196053 .217156 -.12619 .13977 -.90282 .376860
LICHT .595125 .238061 .15819 .06328 2.49988 .020784
TEMP -.175460 .116450 -.39707 .26353 -1.50674 .146772
POROSITE -.401487 .352781 -.00005 .00005 -1.13806 .267913
Analysis of Variance; DV: DIATOMS (regvb1.sta)
Sums of Mean
Squares df Squares F p-level
Regress. 930.866 7 132.9808 11.16026 .000008
Residual 250.227 21 11.9156
Total 1181.092
Regression Summary for Dependent Variable: DIATOMS
R= .87965612 R²= .77379490 Adjusted R²= .72461987
F(5,23)=15.736 p<.00000 Std.Error of estimate: 3.4082
St. Err. St. Err.
BETA of BETA B of B t(23) p-level
Intercpt 38.94460 12.81984 3.03784 .005846
NUTR_ -.139007 .204388 -.08947 .13155 -.68011 .503222
SALINITY -.624841 .128609 -.38815 .07989 -4.85844 .000066
LICHT .621241 .233754 .16513 .06213 2.65767 .014064
SEDIMENT.245783 .140607 .00077 .00044 1.74802 .093800
TEMP -.186670 .114585 -.42244 .25931 -1.62909 .116915
Voorwaartse selectie
Regression Summary for Dependent Variable: DIATOMS
R= .81954882 R²= .67166026 Adjusted R²= .64640336
F(2,26)=26.593 p<.00000 Std.Error of estimate: 3.8620
St. Err. St. Err.
BETA of BETA B of B t(26) p-level
Intercpt 23.04245 2.809975 8.20023 .000000
SALINITY -.633389 .112404 -.39346 .069825 -5.63491 .000006
LICHT .506128 .112404 .13453 .029878 4.50275 .000125
Achterwaartse selectie
Redundancy of Independent Variables; DV: DIATOMS (regvb1.sta)
R-square column contains R-square of respective
variable with all other independent variables
Partial Semipart
Toleran. R-square Cor. Cor.
SALINITY .999502 .000498 -.741486 -.633231
LICHT .999502 .000498 .661920 .506002
PH .989593 .010407 .194202 .111279
NUTR_ .297700 .702300 -.353409 -.202506
POROSITE .672713 .327287 .351319 .201309
TEMP .872853 .127147 -.416310 -.238550
SEDIMENT .565097 .434903 .426678 .244491
Tolerantie waarde : 1 – R²
Regression Summary for Dependent Variable: DIATOMS
R= .81954882 R²= .67166026 Adjusted R²= .64640336
F(2,26)=26.593 p<.00000 Std.Error of estimate: 3.8620
St. Err. St. Err.
BETA of BETA B of B t(26) p-level
Intercpt 23.04245 2.809975 8.20023 .000000
SALINITY-.633389 .112404 -.39346 .069825 -5.63491 .000006
LICHT .506128 .112404 .13453 .029878 4.50275 .000125
Analysis of Variance; DV: DIATOMS (regvb1.sta)
Sums of Mean
Squares df Squares F p-level
Regress. 793.293 2 396.6464 26.59314 .000001
Residual 387.800 26 14.9154
Total 1181.092
Diatom. = 23.04 –0.393sal. -+ 0.134 licht
Normal Probability Plot of Residuals
Residuals
Exp
ecte
d N
orm
al V
alue
-2.5
-1.5
-0.5
0.5
1.5
2.5
-10 -6 -2 2 6 10
Residuelen normaal verdeeld ?
Regression95% confid.
Residuals vs. Deleted ResidualsDependent variable: DIATOMS
Residuals
Del
eted
Res
idua
ls
-10
-6
-2
2
6
10
14
-10 -6 -2 2 6 10
Geen residuele uitbijters ??
3D ScatterplotLICHT vs. SALINITY vs. DIATOMS
Besluit :
Adjusted R²= .64640336
- 64.6 % van de variatie in aantal diatomeeën wordtverklaard door de combinatie van licht en saliniteit.
Diatom. = 23.04 –0.393sal. -+ 0.134 licht
-de regressie is significant (totaal F > Ftab en partieel (t-testen)
-het belang van beide onafhankelijke variabelenis ongeveer even groot.
BETA
SALINITY-.633389 .
LICHT .506128
Gezien aan de assumpties is voldaan=>
Bemerkingen :
- Y vertoont willekeurige variatie X niet (of voldoende klein) : Model I X wel : Model II
- stel geen lineaire relatie tussen X en Y => transformatie (indien intrinsiek lineair)
=> andere dan lineaire functie