Gegevensverwerving en verwerking

26
egevensverwerving en verwerking Staalname Bibliot heek aantal stalen/replicaten grootte staal apparatuur - beschrijvend - variantie-analyse - correlatie - regressie - ordinatie - classificatie Experimentele setup Statistiek statsoft.com => electronic statistic textbook allserv.rug.ac/ ~katdhond/ => reservatie PC zale / ~gdsmet/MarBiolwebsite/

description

Gegevensverwerving en verwerking. Bibliotheek. Staalname. - aantal stalen/replicaten - grootte staal - apparatuur. Statistiek. - beschrijvend - variantie-analyse - correlatie - regressie - ordinatie - classificatie. Experimentele setup. - PowerPoint PPT Presentation

Transcript of Gegevensverwerving en verwerking

Page 1: Gegevensverwerving  en verwerking

Gegevensverwerving en verwerking

Staalname Bibliotheek

- aantal stalen/replicaten- grootte staal- apparatuur - beschrijvend

- variantie-analyse- correlatie- regressie- ordinatie- classificatie

Experimentele setup

Statistiek

Websites : www.statsoft.com => electronic statistic textbook allserv.rug.ac/ ~katdhond/ => reservatie PC zalen / ~gdsmet/MarBiolwebsite/ => lesnota’s

Page 2: Gegevensverwerving  en verwerking

Eenvoudige lineaire regressie

Vergelijking van een rechte : Y = a + bX=> residuelen zo klein mogelijk houden bij bepalen van a en b

door de METHODE van de KLEINSTE KWADRATEN

SSY

SSregr.

SSres2

.

SMS

F regr

Volgt bij benadering een F-distributie met 1 en n-2 vrijheidsgraden indien b=0

Dus indien F > F tabel => 0b Regressie is significant

R² = --------SSregr.

SSYR² geeft weer hoeveel % variatie in Y kan worden toegeschreven aan een lineaire relatie met X. De overige variatie is willekeurig.

Page 3: Gegevensverwerving  en verwerking

Voorwaarden : (zelfde als bij parametrische testen => F-test en t-test

- alle variabelen zijn normaal verdeeld

- er zijn geen residuele uitbijters => residuele analyse

* e is een willekeurige variabele met een constante variantie* e ‘s zijn onderling onafhankelijk* e’s zijn normaal verdeeld.

=> op zoek naar uitbijters : sterke impact op regressielijn

- wanneer e > gemiddelde e waarde ± 3 SD

- ‘deleted residual’ = residuele van een waarneming, indien deze niet in de analyse zou zijn inbegrepenplot van residuelen tov ‘deleted residuals’

Page 4: Gegevensverwerving  en verwerking

Test van residuelen

Page 5: Gegevensverwerving  en verwerking

Voorbeeld : eenvoudige lineaire regressie

diatoms nrs salinity sediment pH nutr. licht temp porositeit26.2 15.4 710 7.01 66 100 32.8 19318.1 25.8 1610 6.4 80 69.7 33.4 308015.4 56.2 500 6.93 74 100 27.8 59229 24.61 640 6.92 65 74 27.9 2

21.6 19.7 920 6.59 64 73.1 33.2 23021.9 19.2 1890 6.63 82 52.3 30.8 397818.9 23.3 3040 6.49 85 49.6 32.4 981621.1 29.2 2730 6.71 78 71.2 29.2 113723.8 26.9 1850 6.93 74 70.6 28.7 99240.5 0 2920 6.51 69 64.2 25.1 1072321.6 22.8 1070 6.8 85 58.3 35.9 312925.4 38.1 160 6.74 69 100 31.4 33819.7 34 380 6.44 83 72 30.1 51638 4.4 1140 6.81 54 100 34.1 12

30.1 23.7 690 7.05 65 100 30.5 10424.8 19.9 1170 6.73 76 69.5 30 43030.3 17.8 1280 6.65 67 81 32.4 124019.5 24.6 2270 6.48 85 39.1 28.7 2044615.6 18.9 960 6.72 84 58.4 33.4 186317.2 21.8 1710 6.62 84 42.4 29.9 803518.4 28.9 1410 6.84 86 36.4 23.3 1062027.3 11.4 200 6.73 66 99.8 27.5 21119.2 32.7 960 6.45 74 90.6 29.5 13316.8 31.4 11500 7 87 5.9 25.4 26615913.2 27.8 1380 6.63 85 44.2 28.8 243229.7 21.1 530 6.54 70 100 33.1 93219.8 17.3 370 6.98 75 52.6 30.8 727.7 20 440 6.46 48 100 28.4 20820.5 35.2 1630 6.68 83 72.1 30.4 1732

Page 6: Gegevensverwerving  en verwerking

Correlations (REGVB1.STA 8v*29c)

SALINITY

SEDIMENT

PH

NUTR_

LICHT

TEMP

POROSITE

DIATOMS

Page 7: Gegevensverwerving  en verwerking

Correlations (regvb1.sta)

SALINITY SEDIMENTPH NUTR_ LICHT TEMP POROSITE DIATOMS

SALINITY 1.000000 .052237 .100864 .369392 -.022323 -.174269 .126697 -.644688

SEDIMENT.052237 1.000000 .150468 .375451 -.658402 -.351110 .943332 -.182531

PH .100864 .150468 1.000000 -.091243 .013030 -.130438 .259497 .053407

NUTR_ .369392 .375451 -.091243 1.000000 -.760288 -.110341 .279120 -.729264

LICHT -.022323 -.658402 .013030 -.760288 1.000000 .314903 -.560574 .520268

TEMP -.174269 -.351110 -.130438 -.110341 .314903 1.000000 -.347578 .046892

POROSITE .126697 .943332 .259497 .279120 -.560574 -.347578 1.000000 -.198859

DIATOMS -.644688 -.182531 .053407 -.729264 .520268 .046892 -.198859 1.000000

Page 8: Gegevensverwerving  en verwerking

Correlations (REGVB1.STA 8v*29c)

SALINITY

DIATOMS

X as

Y as

Page 9: Gegevensverwerving  en verwerking

Regression Summary for Dependent Variable: DIATOMS

R= .64468754 R²= .41562202 Adjusted R²= .39397839

F(1,27)=19.203 p<.00016 Std.Error of estimate: 5.0560

St. Err. St. Err.

BETA of BETA B of B t(27) p-level

Intercpt 32.70604 2.374576 13.77342 .000000

SALINITY -.644688 .147118 -.40048 .091389 -4.38212 .000160

Besluit: 41.5 % van variatie in aantal diatomeeën wordt verklaard door saliniteit.

Daar p <0.05 kan de regressielijn gezien worden als een betrouwbare schatting

diat. = 32.7 - -0.40048 saliniteit. => model , voorspellingen ????

Page 10: Gegevensverwerving  en verwerking

Multiple lineaire regressie

Twee of meer (k) onafhankelijke variabelen

Vergelijking : Y = a + b1X1 + b2X2+…….bkXk

Licht X1

temperatuurX2

nutrientenXk……..

Groei Y

Onafhankelijke Afhankelijke variabelen

Page 11: Gegevensverwerving  en verwerking

Y = a + bX a en b zijn parameters of constantena = waarde van Y als X = 0 ; = snijpunt Y asb = aantal eenheden dat Y verandert als X met één eenheid verandert; = hellingof REGRESSIE-COEFFICIENT

Y = a + b1X1 + b2X2+…….bkXk

b1 = verwachte verandering in Y wanneer X1 met één eenheid verandertterwijl X2 constant is b2 =idem voor X2 met X1 constant

=> PARTIËLE REGRESSIE-COËFFICIENTEN

Page 12: Gegevensverwerving  en verwerking

Gestandardiseerde partiële regressie-coëfficienten , ’s

Y en Xen uitgedrukt in verschillende eenheden=> a en b’s onderling niet vergelijkbaar.Daarom Y en Xen gestandardiseerd (naar dezelfde éénheid-variantie)==> afgeleide regressie-coëfficienten zijn een maat voor relatief belang van elke onafhankelijke variabele op de afhankelijke variabele.

Y = 1X1 + 2X2+……. kXk

=0

Page 13: Gegevensverwerving  en verwerking

Beperkingen

- meer data dan onafhankelijke variabelen (10 tot 20 maal)

- de onafhankelijke variabelen mogen niet overlappend zijn (‘redundancy’)

Tolerantie-waarde : 1-R²

R² van de regressie met één bepaalde onafhankelijke variabele als afhankelijke variabele, en de overige onafhankelijke variabelen als onafhankelijke variabelen

Hoe kleiner de tolerantie-waarde, hoe meer overlap er is tussen dezevariabele met de overige onafhankelijke variabelen.

=> aanvaardbaar minimum van 0.01 => er is een overlap van 99%

Page 14: Gegevensverwerving  en verwerking

Betrouwbaarheid van de schatting :

ANOVA : F-test => totale significantie

t-test => partiële significantie

standard error van de schatting

R² ratio (aangepast naar aantal vrijheidsgraden) => neemt aantal waarnemingen en aantal onafhankelijke variabelen in rekening

= betere maat voor de variatie verklaard door de regressie dan R²

Page 15: Gegevensverwerving  en verwerking

t-test => partiële significantie

t-test kan grebruikt worden om na te gaan of b=0

In geval van één onafhankelijke variabele is t-test gelijk aan F-test meer partiële significantie test voor elke onafhankelijke variabele apart

H0 b=0 t =(geschatte b - verwachte b) / SEb

Deze t waarde wordt vergeleken met een getabelleerde t-waardevan een Student’s t distributie met n-2 vrijheidsgraden.

Indien t > t (tabel) => b is niet gelijk aan 0 => sigificante bijdrage van X < b is gelijk aan 0 => geen significante bijdrage van X

Page 16: Gegevensverwerving  en verwerking

Selectie van de onafhankelijke variabelen :

Stel groot aantal potentiële onafhankelijke variabelen=> welke set van onafhankelijke variabelen geeft de beste voorspelling van Y?

Diverse strategieën : Voorwaartse selectie => F to enterAchterwaartse selectie => F to remove(al of niet stapsgewijze selectie)

Selectie-criteria: t-waarde tolerantie > 0.1

Voorwaarts :=> selectie van de beste predictor (grootste F waarde)=> vervolgens wordt de volgende onafhankelijke variabele geselecteerd die de F waarde het meest verhoogt; enzovoort to de selectie criteria niet langer voldaan zijn.

Page 17: Gegevensverwerving  en verwerking

Voorbeeld : multiple lineaire regressie

diatoms nrs salinity sediment pH nutr. licht temp porositeit26.2 15.4 710 7.01 66 100 32.8 19318.1 25.8 1610 6.4 80 69.7 33.4 308015.4 56.2 500 6.93 74 100 27.8 59229 24.61 640 6.92 65 74 27.9 2

21.6 19.7 920 6.59 64 73.1 33.2 23021.9 19.2 1890 6.63 82 52.3 30.8 397818.9 23.3 3040 6.49 85 49.6 32.4 981621.1 29.2 2730 6.71 78 71.2 29.2 113723.8 26.9 1850 6.93 74 70.6 28.7 99240.5 0 2920 6.51 69 64.2 25.1 1072321.6 22.8 1070 6.8 85 58.3 35.9 312925.4 38.1 160 6.74 69 100 31.4 33819.7 34 380 6.44 83 72 30.1 51638 4.4 1140 6.81 54 100 34.1 12

30.1 23.7 690 7.05 65 100 30.5 10424.8 19.9 1170 6.73 76 69.5 30 43030.3 17.8 1280 6.65 67 81 32.4 124019.5 24.6 2270 6.48 85 39.1 28.7 2044615.6 18.9 960 6.72 84 58.4 33.4 186317.2 21.8 1710 6.62 84 42.4 29.9 803518.4 28.9 1410 6.84 86 36.4 23.3 1062027.3 11.4 200 6.73 66 99.8 27.5 21119.2 32.7 960 6.45 74 90.6 29.5 13316.8 31.4 11500 7 87 5.9 25.4 26615913.2 27.8 1380 6.63 85 44.2 28.8 243229.7 21.1 530 6.54 70 100 33.1 93219.8 17.3 370 6.98 75 52.6 30.8 727.7 20 440 6.46 48 100 28.4 20820.5 35.2 1630 6.68 83 72.1 30.4 1732

Page 18: Gegevensverwerving  en verwerking

Regression Summary for Dependent Variable: DIATOMS

R= .88777217 R²= .78813943 Adjusted R²= .71751924

F(7,21)=11.160 p<.00001 Std.Error of estimate: 3.4519

St. Err. St. Err.

BETA of BETA B of B t(21) p-level

Intercpt 22.78330 28.83626 .79009 .438305

SALINITY -.578521 .139680 -.35938 .08677 -4.14177 .000463

SEDIMENT.619084 .364097 .00195 .00115 1.70033 .103833

PH .074262 .109559 2.49195 3.67641 .67782 .505284

NUTR_ -.196053 .217156 -.12619 .13977 -.90282 .376860

LICHT .595125 .238061 .15819 .06328 2.49988 .020784

TEMP -.175460 .116450 -.39707 .26353 -1.50674 .146772

POROSITE -.401487 .352781 -.00005 .00005 -1.13806 .267913

Analysis of Variance; DV: DIATOMS (regvb1.sta)

Sums of Mean

Squares df Squares F p-level

Regress. 930.866 7 132.9808 11.16026 .000008

Residual 250.227 21 11.9156

Total 1181.092

Page 19: Gegevensverwerving  en verwerking

Regression Summary for Dependent Variable: DIATOMS

R= .87965612 R²= .77379490 Adjusted R²= .72461987

F(5,23)=15.736 p<.00000 Std.Error of estimate: 3.4082

St. Err. St. Err.

BETA of BETA B of B t(23) p-level

Intercpt 38.94460 12.81984 3.03784 .005846

NUTR_ -.139007 .204388 -.08947 .13155 -.68011 .503222

SALINITY -.624841 .128609 -.38815 .07989 -4.85844 .000066

LICHT .621241 .233754 .16513 .06213 2.65767 .014064

SEDIMENT.245783 .140607 .00077 .00044 1.74802 .093800

TEMP -.186670 .114585 -.42244 .25931 -1.62909 .116915

Voorwaartse selectie

Regression Summary for Dependent Variable: DIATOMS

R= .81954882 R²= .67166026 Adjusted R²= .64640336

F(2,26)=26.593 p<.00000 Std.Error of estimate: 3.8620

St. Err. St. Err.

BETA of BETA B of B t(26) p-level

Intercpt 23.04245 2.809975 8.20023 .000000

SALINITY -.633389 .112404 -.39346 .069825 -5.63491 .000006

LICHT .506128 .112404 .13453 .029878 4.50275 .000125

Achterwaartse selectie

Page 20: Gegevensverwerving  en verwerking

Redundancy of Independent Variables; DV: DIATOMS (regvb1.sta)

R-square column contains R-square of respective

variable with all other independent variables

Partial Semipart

Toleran. R-square Cor. Cor.

SALINITY .999502 .000498 -.741486 -.633231

LICHT .999502 .000498 .661920 .506002

PH .989593 .010407 .194202 .111279

NUTR_ .297700 .702300 -.353409 -.202506

POROSITE .672713 .327287 .351319 .201309

TEMP .872853 .127147 -.416310 -.238550

SEDIMENT .565097 .434903 .426678 .244491

Tolerantie waarde : 1 – R²

Page 21: Gegevensverwerving  en verwerking

Regression Summary for Dependent Variable: DIATOMS

R= .81954882 R²= .67166026 Adjusted R²= .64640336

F(2,26)=26.593 p<.00000 Std.Error of estimate: 3.8620

St. Err. St. Err.

BETA of BETA B of B t(26) p-level

Intercpt 23.04245 2.809975 8.20023 .000000

SALINITY-.633389 .112404 -.39346 .069825 -5.63491 .000006

LICHT .506128 .112404 .13453 .029878 4.50275 .000125

Analysis of Variance; DV: DIATOMS (regvb1.sta)

Sums of Mean

Squares df Squares F p-level

Regress. 793.293 2 396.6464 26.59314 .000001

Residual 387.800 26 14.9154

Total 1181.092

Diatom. = 23.04 –0.393sal. -+ 0.134 licht

Page 22: Gegevensverwerving  en verwerking

Normal Probability Plot of Residuals

Residuals

Exp

ecte

d N

orm

al V

alue

-2.5

-1.5

-0.5

0.5

1.5

2.5

-10 -6 -2 2 6 10

Residuelen normaal verdeeld ?

Page 23: Gegevensverwerving  en verwerking

Regression95% confid.

Residuals vs. Deleted ResidualsDependent variable: DIATOMS

Residuals

Del

eted

Res

idua

ls

-10

-6

-2

2

6

10

14

-10 -6 -2 2 6 10

Geen residuele uitbijters ??

Page 24: Gegevensverwerving  en verwerking

3D ScatterplotLICHT vs. SALINITY vs. DIATOMS

Besluit :

Adjusted R²= .64640336

- 64.6 % van de variatie in aantal diatomeeën wordtverklaard door de combinatie van licht en saliniteit.

Diatom. = 23.04 –0.393sal. -+ 0.134 licht

-de regressie is significant (totaal F > Ftab en partieel (t-testen)

-het belang van beide onafhankelijke variabelenis ongeveer even groot.

BETA

SALINITY-.633389 .

LICHT .506128

Gezien aan de assumpties is voldaan=>

Page 25: Gegevensverwerving  en verwerking

Bemerkingen :

- Y vertoont willekeurige variatie X niet (of voldoende klein) : Model I X wel : Model II

- stel geen lineaire relatie tussen X en Y => transformatie (indien intrinsiek lineair)

=> andere dan lineaire functie

Page 26: Gegevensverwerving  en verwerking