Gegevensverwerving en verwerking

Gegevensverwerving en verwerking

Staalname Bibliotheek

- aantal stalen/replicaten- grootte staal- apparatuur - beschrijvend

- variantie-analyse- correlatie- regressie- ordinatie- classificatie

Experimentele setup

Statistiek

Websites : www.statsoft.com => electronic statistic textbook allserv.rug.ac/ ~katdhond/ => reservatie PC zalen / ~gdsmet/MarBiolwebsite/ => lesnota’s

Eenvoudige lineaire regressie

Vergelijking van een rechte : Y = a + bX=> residuelen zo klein mogelijk houden bij bepalen van a en b

door de METHODE van de KLEINSTE KWADRATEN

SSY

SSregr.

SSres2

.

SMS

F regr

Volgt bij benadering een F-distributie met 1 en n-2 vrijheidsgraden indien b=0

Dus indien F > F tabel => 0b Regressie is significant

R² = --------SSregr.

SSYR² geeft weer hoeveel % variatie in Y kan worden toegeschreven aan een lineaire relatie met X. De overige variatie is willekeurig.

Voorwaarden : (zelfde als bij parametrische testen => F-test en t-test

- alle variabelen zijn normaal verdeeld

- er zijn geen residuele uitbijters => residuele analyse

* e is een willekeurige variabele met een constante variantie* e ‘s zijn onderling onafhankelijk* e’s zijn normaal verdeeld.

=> op zoek naar uitbijters : sterke impact op regressielijn

- wanneer e > gemiddelde e waarde ± 3 SD

- ‘deleted residual’ = residuele van een waarneming, indien deze niet in de analyse zou zijn inbegrepenplot van residuelen tov ‘deleted residuals’

Test van residuelen

Voorbeeld : eenvoudige lineaire regressie

diatoms nrs salinity sediment pH nutr. licht temp porositeit26.2 15.4 710 7.01 66 100 32.8 19318.1 25.8 1610 6.4 80 69.7 33.4 308015.4 56.2 500 6.93 74 100 27.8 59229 24.61 640 6.92 65 74 27.9 2

21.6 19.7 920 6.59 64 73.1 33.2 23021.9 19.2 1890 6.63 82 52.3 30.8 397818.9 23.3 3040 6.49 85 49.6 32.4 981621.1 29.2 2730 6.71 78 71.2 29.2 113723.8 26.9 1850 6.93 74 70.6 28.7 99240.5 0 2920 6.51 69 64.2 25.1 1072321.6 22.8 1070 6.8 85 58.3 35.9 312925.4 38.1 160 6.74 69 100 31.4 33819.7 34 380 6.44 83 72 30.1 51638 4.4 1140 6.81 54 100 34.1 12

30.1 23.7 690 7.05 65 100 30.5 10424.8 19.9 1170 6.73 76 69.5 30 43030.3 17.8 1280 6.65 67 81 32.4 124019.5 24.6 2270 6.48 85 39.1 28.7 2044615.6 18.9 960 6.72 84 58.4 33.4 186317.2 21.8 1710 6.62 84 42.4 29.9 803518.4 28.9 1410 6.84 86 36.4 23.3 1062027.3 11.4 200 6.73 66 99.8 27.5 21119.2 32.7 960 6.45 74 90.6 29.5 13316.8 31.4 11500 7 87 5.9 25.4 26615913.2 27.8 1380 6.63 85 44.2 28.8 243229.7 21.1 530 6.54 70 100 33.1 93219.8 17.3 370 6.98 75 52.6 30.8 727.7 20 440 6.46 48 100 28.4 20820.5 35.2 1630 6.68 83 72.1 30.4 1732

Correlations (REGVB1.STA 8v*29c)

SALINITY

SEDIMENT

PH

NUTR_

LICHT

TEMP

POROSITE

DIATOMS

Correlations (regvb1.sta)

SALINITY SEDIMENTPH NUTR_ LICHT TEMP POROSITE DIATOMS

SALINITY 1.000000 .052237 .100864 .369392 -.022323 -.174269 .126697 -.644688

SEDIMENT.052237 1.000000 .150468 .375451 -.658402 -.351110 .943332 -.182531

PH .100864 .150468 1.000000 -.091243 .013030 -.130438 .259497 .053407

NUTR_ .369392 .375451 -.091243 1.000000 -.760288 -.110341 .279120 -.729264

LICHT -.022323 -.658402 .013030 -.760288 1.000000 .314903 -.560574 .520268

TEMP -.174269 -.351110 -.130438 -.110341 .314903 1.000000 -.347578 .046892

POROSITE .126697 .943332 .259497 .279120 -.560574 -.347578 1.000000 -.198859

DIATOMS -.644688 -.182531 .053407 -.729264 .520268 .046892 -.198859 1.000000

Correlations (REGVB1.STA 8v*29c)

SALINITY

DIATOMS

X as

Y as

Regression Summary for Dependent Variable: DIATOMS

R= .64468754 R²= .41562202 Adjusted R²= .39397839

F(1,27)=19.203 p<.00016 Std.Error of estimate: 5.0560

St. Err. St. Err.

BETA of BETA B of B t(27) p-level

Intercpt 32.70604 2.374576 13.77342 .000000

SALINITY -.644688 .147118 -.40048 .091389 -4.38212 .000160

Besluit: 41.5 % van variatie in aantal diatomeeën wordt verklaard door saliniteit.

Daar p <0.05 kan de regressielijn gezien worden als een betrouwbare schatting

diat. = 32.7 - -0.40048 saliniteit. => model , voorspellingen ????

Multiple lineaire regressie

Twee of meer (k) onafhankelijke variabelen

Vergelijking : Y = a + b1X1 + b2X2+…….bkXk

Licht X1

temperatuurX2

nutrientenXk……..

Groei Y

Onafhankelijke Afhankelijke variabelen

Y = a + bX a en b zijn parameters of constantena = waarde van Y als X = 0 ; = snijpunt Y asb = aantal eenheden dat Y verandert als X met één eenheid verandert; = hellingof REGRESSIE-COEFFICIENT

Y = a + b1X1 + b2X2+…….bkXk

b1 = verwachte verandering in Y wanneer X1 met één eenheid verandertterwijl X2 constant is b2 =idem voor X2 met X1 constant

=> PARTIËLE REGRESSIE-COËFFICIENTEN

Gestandardiseerde partiële regressie-coëfficienten , ’s

Y en Xen uitgedrukt in verschillende eenheden=> a en b’s onderling niet vergelijkbaar.Daarom Y en Xen gestandardiseerd (naar dezelfde éénheid-variantie)==> afgeleide regressie-coëfficienten zijn een maat voor relatief belang van elke onafhankelijke variabele op de afhankelijke variabele.

Y = 1X1 + 2X2+……. kXk

=0

Beperkingen

- meer data dan onafhankelijke variabelen (10 tot 20 maal)

- de onafhankelijke variabelen mogen niet overlappend zijn (‘redundancy’)

Tolerantie-waarde : 1-R²

R² van de regressie met één bepaalde onafhankelijke variabele als afhankelijke variabele, en de overige onafhankelijke variabelen als onafhankelijke variabelen

Hoe kleiner de tolerantie-waarde, hoe meer overlap er is tussen dezevariabele met de overige onafhankelijke variabelen.

=> aanvaardbaar minimum van 0.01 => er is een overlap van 99%

Betrouwbaarheid van de schatting :

ANOVA : F-test => totale significantie

t-test => partiële significantie

standard error van de schatting

R² ratio (aangepast naar aantal vrijheidsgraden) => neemt aantal waarnemingen en aantal onafhankelijke variabelen in rekening

= betere maat voor de variatie verklaard door de regressie dan R²

t-test => partiële significantie

t-test kan grebruikt worden om na te gaan of b=0

In geval van één onafhankelijke variabele is t-test gelijk aan F-test meer partiële significantie test voor elke onafhankelijke variabele apart

H0 b=0 t =(geschatte b - verwachte b) / SEb

Deze t waarde wordt vergeleken met een getabelleerde t-waardevan een Student’s t distributie met n-2 vrijheidsgraden.

Indien t > t (tabel) => b is niet gelijk aan 0 => sigificante bijdrage van X < b is gelijk aan 0 => geen significante bijdrage van X

Selectie van de onafhankelijke variabelen :

Stel groot aantal potentiële onafhankelijke variabelen=> welke set van onafhankelijke variabelen geeft de beste voorspelling van Y?

Diverse strategieën : Voorwaartse selectie => F to enterAchterwaartse selectie => F to remove(al of niet stapsgewijze selectie)

Selectie-criteria: t-waarde tolerantie > 0.1

Voorwaarts :=> selectie van de beste predictor (grootste F waarde)=> vervolgens wordt de volgende onafhankelijke variabele geselecteerd die de F waarde het meest verhoogt; enzovoort to de selectie criteria niet langer voldaan zijn.

Voorbeeld : multiple lineaire regressie

diatoms nrs salinity sediment pH nutr. licht temp porositeit26.2 15.4 710 7.01 66 100 32.8 19318.1 25.8 1610 6.4 80 69.7 33.4 308015.4 56.2 500 6.93 74 100 27.8 59229 24.61 640 6.92 65 74 27.9 2

21.6 19.7 920 6.59 64 73.1 33.2 23021.9 19.2 1890 6.63 82 52.3 30.8 397818.9 23.3 3040 6.49 85 49.6 32.4 981621.1 29.2 2730 6.71 78 71.2 29.2 113723.8 26.9 1850 6.93 74 70.6 28.7 99240.5 0 2920 6.51 69 64.2 25.1 1072321.6 22.8 1070 6.8 85 58.3 35.9 312925.4 38.1 160 6.74 69 100 31.4 33819.7 34 380 6.44 83 72 30.1 51638 4.4 1140 6.81 54 100 34.1 12

30.1 23.7 690 7.05 65 100 30.5 10424.8 19.9 1170 6.73 76 69.5 30 43030.3 17.8 1280 6.65 67 81 32.4 124019.5 24.6 2270 6.48 85 39.1 28.7 2044615.6 18.9 960 6.72 84 58.4 33.4 186317.2 21.8 1710 6.62 84 42.4 29.9 803518.4 28.9 1410 6.84 86 36.4 23.3 1062027.3 11.4 200 6.73 66 99.8 27.5 21119.2 32.7 960 6.45 74 90.6 29.5 13316.8 31.4 11500 7 87 5.9 25.4 26615913.2 27.8 1380 6.63 85 44.2 28.8 243229.7 21.1 530 6.54 70 100 33.1 93219.8 17.3 370 6.98 75 52.6 30.8 727.7 20 440 6.46 48 100 28.4 20820.5 35.2 1630 6.68 83 72.1 30.4 1732


R= .88777217 R²= .78813943 Adjusted R²= .71751924


St. Err. St. Err.


Intercpt 22.78330 28.83626 .79009 .438305

SALINITY -.578521 .139680 -.35938 .08677 -4.14177 .000463

SEDIMENT.619084 .364097 .00195 .00115 1.70033 .103833

PH .074262 .109559 2.49195 3.67641 .67782 .505284

NUTR_ -.196053 .217156 -.12619 .13977 -.90282 .376860

LICHT .595125 .238061 .15819 .06328 2.49988 .020784

TEMP -.175460 .116450 -.39707 .26353 -1.50674 .146772

POROSITE -.401487 .352781 -.00005 .00005 -1.13806 .267913

Analysis of Variance; DV: DIATOMS (regvb1.sta)

Sums of Mean

Squares df Squares F p-level

Regress. 930.866 7 132.9808 11.16026 .000008

Residual 250.227 21 11.9156

Total 1181.092


R= .87965612 R²= .77379490 Adjusted R²= .72461987


St. Err. St. Err.


Intercpt 38.94460 12.81984 3.03784 .005846

NUTR_ -.139007 .204388 -.08947 .13155 -.68011 .503222

SALINITY -.624841 .128609 -.38815 .07989 -4.85844 .000066

LICHT .621241 .233754 .16513 .06213 2.65767 .014064

SEDIMENT.245783 .140607 .00077 .00044 1.74802 .093800

TEMP -.186670 .114585 -.42244 .25931 -1.62909 .116915

Voorwaartse selectie


R= .81954882 R²= .67166026 Adjusted R²= .64640336


St. Err. St. Err.


Intercpt 23.04245 2.809975 8.20023 .000000

SALINITY -.633389 .112404 -.39346 .069825 -5.63491 .000006

LICHT .506128 .112404 .13453 .029878 4.50275 .000125

Achterwaartse selectie

Redundancy of Independent Variables; DV: DIATOMS (regvb1.sta)

R-square column contains R-square of respective

variable with all other independent variables

Partial Semipart

Toleran. R-square Cor. Cor.

SALINITY .999502 .000498 -.741486 -.633231

LICHT .999502 .000498 .661920 .506002

PH .989593 .010407 .194202 .111279

NUTR_ .297700 .702300 -.353409 -.202506

POROSITE .672713 .327287 .351319 .201309

TEMP .872853 .127147 -.416310 -.238550

SEDIMENT .565097 .434903 .426678 .244491

Tolerantie waarde : 1 – R²


R= .81954882 R²= .67166026 Adjusted R²= .64640336


St. Err. St. Err.


Intercpt 23.04245 2.809975 8.20023 .000000

SALINITY-.633389 .112404 -.39346 .069825 -5.63491 .000006

LICHT .506128 .112404 .13453 .029878 4.50275 .000125

Analysis of Variance; DV: DIATOMS (regvb1.sta)

Sums of Mean

Squares df Squares F p-level

Regress. 793.293 2 396.6464 26.59314 .000001

Residual 387.800 26 14.9154

Total 1181.092

Diatom. = 23.04 –0.393sal. -+ 0.134 licht

Normal Probability Plot of Residuals

Residuals

Exp

ecte

d N

orm

al V

alue

-2.5

-1.5

-0.5

0.5

1.5

2.5

-10 -6 -2 2 6 10

Residuelen normaal verdeeld ?

Regression95% confid.

Residuals vs. Deleted ResidualsDependent variable: DIATOMS

Residuals

Del

eted

Res

idua

ls

-10

-6

-2

2

6

10

14

-10 -6 -2 2 6 10

Geen residuele uitbijters ??

3D ScatterplotLICHT vs. SALINITY vs. DIATOMS

Besluit :

Adjusted R²= .64640336

- 64.6 % van de variatie in aantal diatomeeën wordtverklaard door de combinatie van licht en saliniteit.

Diatom. = 23.04 –0.393sal. -+ 0.134 licht

-de regressie is significant (totaal F > Ftab en partieel (t-testen)

-het belang van beide onafhankelijke variabelenis ongeveer even groot.

BETA

SALINITY-.633389 .

LICHT .506128

Gezien aan de assumpties is voldaan=>

Bemerkingen :

- Y vertoont willekeurige variatie X niet (of voldoende klein) : Model I X wel : Model II

- stel geen lineaire relatie tussen X en Y => transformatie (indien intrinsiek lineair)

=> andere dan lineaire functie

Gegevensverwerving en verwerking

Documents

Transcript of Gegevensverwerving en verwerking