Statistiek deel 1: Theorie: 1. Inleiding · Het kardinaalgetal is het aantal elementen van die...

22
1 Statistiek deel 1: Theorie: 1. Inleiding Statistiek heeft drie objectieven: Verzamelen van gegevens d.m.v. proefopzetten Gegevens beschrijven; methode ontwerpen om aspecten van gegevens te beschrijven = beschrijvende statistiek = exploratory data analysis (Tukey) Inductieve statistiek: methoden ontwerpen om vanuit gegevens algemenere informatie te induceren 1.2 verzamelen van gegevens om - vragen te beantwoorden - gegevens verzamelen om een efficiënt antwoord te vinden - geschikt onderzoeksplan of proefopzet (experimental design) kiezen experimenteel onderzoek: manipuleren van de onafhankelijke variabelen om het effect te meten op de afhankelijke variabelen. Correlationeel onderzoek: verband nagaan tussen variabelen die van nature variëren zonder manipulatie Niet noodzakelijk correlatie berekenen 1.3 Beschrijven van gegevens Taken/vragen van de beschrijvende statistiek: - Kloppen de gegevens? - Gegevens inzichtelijk maken (methodische wijze ordenen en presenteren) Reveleren van ongewone observaties en patronen en relaties. - Gegevens samenvatten, communiceerbaar maken - Grafische representatie! Die correct wordt afgebeeld 1.4 Induceren van algemenere informatie - Gegevens waarmee een onderzoeker werkt en waarover hij conclusie trekt zijn altijd specifiek (n aantal specifieke metingen); personen, situaties, … - Algemenere conclusies trekken naar mensen, naar situaties,… = overstijgen van de gegevens = inductie kanstheorie voor het formaliseren Inductie: van het bijzondere naar het algemene (x, y, s hebben een bril en zijn mannen, alle mannen hebben brillen) Deductie: van het algemene naar het bijzondere (mannen hebben brillen, x heeft een bril, x is dus een man)

Transcript of Statistiek deel 1: Theorie: 1. Inleiding · Het kardinaalgetal is het aantal elementen van die...

Page 1: Statistiek deel 1: Theorie: 1. Inleiding · Het kardinaalgetal is het aantal elementen van die verzameling (eindig of oneindig); symbool # Een verzameling bestaat uit deelverzamelingen

1

Statistiek deel 1: Theorie:

1. Inleiding

Statistiek heeft drie objectieven:

Verzamelen van gegevens d.m.v. proefopzetten

Gegevens beschrijven;

methode ontwerpen om aspecten van gegevens te beschrijven

= beschrijvende statistiek = exploratory data analysis (Tukey)

Inductieve statistiek:

methoden ontwerpen om vanuit gegevens algemenere informatie te induceren

1.2 verzamelen van gegevens

om - vragen te beantwoorden

- gegevens verzamelen om een efficiënt antwoord te vinden

- geschikt onderzoeksplan of proefopzet (experimental design) kiezen

experimenteel onderzoek:

manipuleren van de onafhankelijke variabelen om het effect te meten op de afhankelijke

variabelen.

Correlationeel onderzoek:

verband nagaan tussen variabelen die van nature variëren zonder manipulatie

Niet noodzakelijk correlatie berekenen

1.3 Beschrijven van gegevens

Taken/vragen van de beschrijvende statistiek:

- Kloppen de gegevens?

- Gegevens inzichtelijk maken (methodische wijze ordenen en presenteren)

Reveleren van ongewone observaties en patronen en relaties.

- Gegevens samenvatten, communiceerbaar maken

- Grafische representatie! Die correct wordt afgebeeld

1.4 Induceren van algemenere informatie

- Gegevens waarmee een onderzoeker werkt en waarover hij conclusie trekt zijn altijd

specifiek (n aantal specifieke metingen); personen, situaties, …

- Algemenere conclusies trekken

naar mensen, naar situaties,…

= overstijgen van de gegevens = inductie

kanstheorie voor het formaliseren

Inductie: van het bijzondere naar het algemene

(x, y, s hebben een bril en zijn mannen, alle mannen hebben brillen)

Deductie: van het algemene naar het bijzondere

(mannen hebben brillen, x heeft een bril, x is dus een man)

Page 2: Statistiek deel 1: Theorie: 1. Inleiding · Het kardinaalgetal is het aantal elementen van die verzameling (eindig of oneindig); symbool # Een verzameling bestaat uit deelverzamelingen

2

Deductieve afleidingen zijn doorgaans zeker. Voor inductieve afleidingen is dat meestal niet

het geval en speelt het begrip kans/waarschijnlijkheid een belangrijke rol

De inductieve statistiek verschaft hulpmiddelen om op basis van gegevens inductieve

redeneringen te maken

Opmerkingen:

1) Bij het realiseren van de 3 objectieven worden vragen gesteld

a. Hoe en welke gegevens worden verzameld

b. Welke aspecten van de observaties worden geregistreerd

c. Hoe worden de gegevens beschreven

d. Welke grafieken en samenvattingen worden gekozen

e. …

f. Inspiratie om het proces te beïnvloeden?

2) De 3 objectieven hangen inherent samen

a. Problemen indien de statisticus pas na gegevensverzameling wordt geconsulteert

b. Problemen bij gegevensverzameling zonder vragen

c. De problemen:

i. Gegevensbijschrijving

ii. Inductie

iii. Manier van gegevensverzameling

2. Noties uit de verzamelingenleer

Verzameling: geheel van objecten (entiteiten) die tot een verzameling behoren.

Object: algemene term, bv personen, getallen, vormen van psychotherapie, …

Voor elk object kan bepaald worden of het een element is van een verzameling (bv A)

x A, x A

Een verzameling kan op twee manieren gedefinieerd worden:

Door opsomming van de elementen ervan

Door een regel te geven die de kenmerkende eigenschappen van de elementen omschrijft.

Grafische voorstelling (Venn diagram)

Het kardinaalgetal is het aantal elementen van die verzameling (eindig of oneindig); symbool #

Een verzameling bestaat uit deelverzamelingen ( ). De lege verzameling en de verzameling zelf is

altijd een deelverzameling van een verzameling. Indien je alle mogelijke deelverzamelingen

verzamelt krijg je een machtsverzameling van een verzameling (bv. 2A). Indien je het kardinaalgetal

van een macht wilt weten verhef je het kardinaalgetal van de verzameling tot de macht.

Bewerkingen op verzamelingen:

Doorsnede: : A B= {x | x A en x B}

Unie: : A B= {x | x A of x B} (met of in de betekenis van en/of)

Verschil: \ : A \ B = {x| x A en x B}

Complement: c : Ac = \A

Page 3: Statistiek deel 1: Theorie: 1. Inleiding · Het kardinaalgetal is het aantal elementen van die verzameling (eindig of oneindig); symbool # Een verzameling bestaat uit deelverzamelingen

3

Enkele eigenschappen:

A B = B A

A B = B A

A Ø = Ø

A Ø = A

(A B)c = Ac Bc

A (B C) = (A B) C

A (B C) = (A B) C

A (B C) = (A B) (A C)

A (B C) = (A B) (A C)

(A B)c = Ac Bc

Partitie: opsplitsing van een verzameling in een stel niet-lege en niet-overlappende

deelverzamelingen

Cartesiaans product: productverzameling: verzameling van alle geordende koppels

LET OP: een verzameling wordt aangeduid met {}, een geordend koppel met ()

Bij geordende koppels is de volgorde binnen de haakjes van belang.

Kardinaal getal van zulk een verzameling:

#(A1 x A2) = #A1 x #A2

Relatie tussen twee verzamelingen: R A1 x A2

= de relatie tussen de elementen van de twee verzamelingen, kan je grafisch voorstellen a.d.h.v. een

pijlendiagram (en venn diagrammen)

Functie (f) is dan het beeldpunt van een van die elementen. Bv. Element x is 2, de relatie tot het

element van verzameling twee is x², dan is het beeldpunt 4. Bij een functie heeft elk element van de

eerste verzameling slechts één beeldpunt in de tweede verzameling. Andersom is het wel mogelijk

dat de tweede verzameling tot meerdere punten van de eerste verzameling in verband staat.

Notatie= f: A1 A2

a1 f(a1)

Indien andersom toch elk element van de tweede verzameling het beeldpunt is van slechts één

element uit de eerste verzameling spreken we over een bijectie.

A1 is het domein van de functie, f(A1) A2 is het bereik van de functie.

f(a1) is het beeldpunt of functiewaarde van a1.

Dit kan je grafisch voorstellen op een assenstelsel.

We spreken van een domein (waar je naar toe gaat), het bereik (waar je vertrekt) en het beeldpunt

of functiewaarde

Inversie van een functie: het inverse van een functie f van A1 naar A2 = f-1,

is de relatie R A2 x A1, dus van verzameling twee naar verzameling één. De inverse van een functie

hoeft niet noodzakelijk een functie te zijn.

Kardinaalgetal van een oneindig grote verzameling A:

A is aftelbaar ∞ bijectie f: A volgnummer kunnen geven

Bv.: {0, 1, ½, 1/3, ¼, …}, maar ook , zelfs ² en zijn aftelbaar ∞(zonder bewijs)

Page 4: Statistiek deel 1: Theorie: 1. Inleiding · Het kardinaalgetal is het aantal elementen van die verzameling (eindig of oneindig); symbool # Een verzameling bestaat uit deelverzamelingen

4

Deel 1: beschrijvende statistiek

Gegevens of data komen tot stand als resultaat van een proef experiment. Slechts een gedeelte van

de informatie de de proef of het experiment oplevert wordt geregistreerd. Dit gedeelte is de

uitkomst van de proef en noteren we als ω . de verzameling van alle mogelijke uitkomsten noteren

we als Ω. Welk gedeelte van de informatie geregistreerd wordt hangt af van de vragen, theorieën of

hypothesen van de onderzoeker.

Meestal zijn de gegevens beschikbaar van verschillende ‘objecten’ of ‘(experimentele) eenheden’.

Dit gaat over elke situatie, elke meting, elk persoon, …

Het totaal aantal objecten of experimentele eenheden duiden we aan met de letter n. indien deze

eenheden geordend zijn kunnen we de opeenvolgende uitkomsten ordenen als ω1, ω2, ω3 …, ωn.

Een willekeurige uitkomst duiden we aan met de lopende of stomme index: ωi. I kan de waarden

aannemen van i tot en met n.

Gegevens kunnen gestructureerd worden door er variabelen op te definiëren.

X: Ω V

ω X(ω)

In het geval van n geordende uitkomsten noteren we de opeenvolgende x-beeldpunten X(ω1),

x(ω2),… x(ωn) respectievelijk als x1, x2, x3,…, xn Een willekeurig beeldpunt is dan xi

Het bereik van een variabele X(Ω) kan een deel zijn van maar dit moet niet. We kunnen ook niet-

numerieke waarden in getallen zetten. Echter, een aantal relaties tussen getallen en bewerkingen

ermee hebben dan niet altijd een betekenis. (denk aan meetniveau variabele).

Kwalitatieve variabele: het bereik bestaat uit een aantal waarden (categorieën) waarover geen

verdere claims worden gemaakt.

Kwantitatieve variabele: het bereik bestaat uit numerieke waarden waarvoor ordening, optellen en

aftrekken zinvol is.

1. Beschrijvende statistiek met 1 variabele

1.1 Frequentiefuncties

Kwalitatieve variabele:

Stel je hebt drie kwalitatieve woorden (m = 30) en 20 observaties (n = 20). We gebruiken hier bij x de

stomme index ‘j’. Dus:

Opeenvolgende observaties: x met i lopende van 1 tot n

Verschillende mogelijke X-waarden: x met j lopende van 1 tot m.

Voor elke waarde x van de variabele X kunnen we de frequentie bereken waarmee x in de gegevens

voorkomt. Genoteerd als freqx(x) of indien het duidelijk is om welke variabele het gaat gewoon

freq(x). freq(x1) + freq(x2) + … + freq(xm) = n. freq(x) is altijd een van

Deze bovenste som zullen we verkort noteren als ∑ .

Page 5: Statistiek deel 1: Theorie: 1. Inleiding · Het kardinaalgetal is het aantal elementen van die verzameling (eindig of oneindig); symbool # Een verzameling bestaat uit deelverzamelingen

5

Ook kunnen we voor elke X-waarde zijn relatieve frequentie berekenen t.o.v. het aantal observaties

(n). Dit is de proportie (pX(x) of p(x)). Frequentie en proportie kunnen allebei als functies worden

opgevat.

De frequentie- en proportiefunctie kunnen worden voorgesteld op volgende manieren:

Lijndiagram: Op de horizontale as (abscis) de waarden van de variabele X en op de verticale as (ordinaat) de waarden van freq(x) of p(x).

Staafdiagram Lijnen vervangen door staven van gelijke breedte. Belang van oppervlakte! Tussen de staven wordt ruimte gelaten om duidelijk te maken dat X een kwalitatieve variabele is.

Taartdiagram: Enkel voor proportiefunctie

Kwantitatieve variabelen

Hiervoor kunnen ook frequentiefuctie freq(x) en proportiefunctie p(x) berekend worden. Ze kunnen

ook grafisch voorgesteld worden via een lijndiagram en enkele andere opties;

Histogram: Een diagram met aansluitende even brede staven. Elke staaf is 1 x-waarde, deze wordt in het midden van de staaf aangedid. De oppervlakte van de staven is ook hier recht eenvredig met freq(x) of p(x). indien men werkt met klassen moet men het middelpunt van deze klassen kiezen. Zet getalwaarden altijd in het midden!

0

5

10

15

20

buitenshuis thuis werk

0

5

10

15

20

buitenshuis thuis werk

buitenshuis

thuis

werk

Page 6: Statistiek deel 1: Theorie: 1. Inleiding · Het kardinaalgetal is het aantal elementen van die verzameling (eindig of oneindig); symbool # Een verzameling bestaat uit deelverzamelingen

6

Veelhoek of polygoon: Door middelpunten van de bovenste lijnstukken van de histogramstaven met elkaar te verbinden. Interessant bij verband beschrijvende en inductieve statistiek

Uitbijters: observaties die ver afwijken van de andere observaties. Het optreden van een uitbijter kan

veroorzaakt worden door bv fout in gegevensinvoer, fout bij meten, ongewone gebeurtenis, enz.

Uitbjters kunnen in een aantal gevallen de gevensanalyse verstoren.

Verder kunnen we ons nog andere vragen stellen:

Welke vorm nemen de functies aan?

Hebben ze één of meerdere toppen (modi)?

Zijn de functies sterk gepiekt rond de modi?

Zijn de functiesymmetrisch tov een middelpunt of zijn ze scheef?

Zijn ze negatief scheef (schuin naar boven en dan recht naar beneden) of

positief scheef (recht naar boven en dan schuin naar beneden)

Voor elke waarde van xj van X kan ook de cumulatieve frequentie (cfreq) worden bepaald: het aantal

observaties dat kleiner of gelijk is aan xj. Cfreqx(xj) = cfreq (xj) = ∑

.

Voor cumulatieve proportie-functie (F) noteren we het als volgt:

Fx(xj) = F (xj) = ∑

= p(X ≤ xj)

De laatste cfreq(xj) is altijd n. de laatste F(xj) is altijd 1.

Deze cumulatieve kan je ook grafisch weergeven:

Dit is ALTIJD stijgend. F is een (niet strikt) stijgende stapfunctie die loopt van 0 tot 1 en cfreq is een (niet-strikt) stijgende stapfunctie die loop van 1 tot n. Bij 1 of n staat altijd een gesloten bolletje die verder gaat met een lijn zonder bolletje. Bij 0 staat altijd een open bolletje die langs links verder gaat met een lijn zonder bolletje. De effectieve waarde is altijd een gesloten bolletje.

Page 7: Statistiek deel 1: Theorie: 1. Inleiding · Het kardinaalgetal is het aantal elementen van die verzameling (eindig of oneindig); symbool # Een verzameling bestaat uit deelverzamelingen

7

Kwantielen

Als r met 0≤ r ≤ 1 dan is het r-de kwantiel (notatie xr) van variabele X gedefinieerd als volgt:

Geval 1 Er is geen xj geobserveerd met F(xj) = r, dan is het r-de kwantiel gelijk aan de kleinste geobserveerde xj met F(xj) > r kijken naar de x-waarde waarbij we voor het eerst over het kwantiel heen gaan

Geval 2 Er is een xj geobserveerd met F(xj) = r, dan is het r-de kwantiel gelijk aan het gemiddelde van de kleinste geobserveerde X-waarde xj met F(xj) = r en de kleinste X-waarde xj met F(xj) > r gemiddelde van de x-waarde zelf en de x-waarde van de eerste overschrijding

Geval 3 Er is zijn meerdere xj geobserveerd met F(xj) = r, dan is het r-de kwantiel gelijk aan het gemiddelde van de kleinste geobserveerde X-waarde xj met F(xj) = r en de kleinste X-waarde xj met F(xj) > r gemiddelde van de eerste x-waarde zelf en de x-waarde van de eerste overschrijding

Bijzondere kwantielen:

Percentielen: Pc1, … Pc99. Bv x.05

Decielen: D1, … D9. Bv x.9

Kwartielen: Q1, Q2, Q3. Bv x.25, x.50, x.75

Xr kan bepaald worden via een tabel of een grafiek van de functie F:

Tabel

Grafiek

Soms moeten we de gegevens in klasse-intervallen indelen omdat dit overzichtelijker is. Deze

moeten even breed zijn en niet overlappen. De klassegrenzen (xI en xh) zijn de laagste en hoogste

waarden van een interval, hun gemiddelde (xI en xh) /2 is het klassemiddelpunt.

definitie klassefrequentie: ∑

. Op dezelfde manier kunnen we ook

klasseproportiefuncties en cumulatieve functies bepalen

Page 8: Statistiek deel 1: Theorie: 1. Inleiding · Het kardinaalgetal is het aantal elementen van die verzameling (eindig of oneindig); symbool # Een verzameling bestaat uit deelverzamelingen

8

Grafieken kunnen misleidend zijn:

Meestal kiest men om de lengte van de ordinaat op 2/3 van die van de abscis te zetten. Dit is

echter niet noodzakelijk maar indien men de ordinaat groter maakt kan de indruk gewekt

worden van grotere verschillen tussen functie waarden

Het nulpunt van de ordinaat moet altijd 0 zijn

Gegroepeerde grafieken kunnen misleidend gemaakt worden door de keuze van intervallen

van ongelijke breedte, of staven van ongelijke breedte.

schending proportionaliteitsregel

Vaak snijden ze ook stuk af vanonder, dit mag ook niet

Ook bij fantasiegrafieken wordt de proportionaliteitsregel soms geschonden

Een gegroepeerde frequentietabel kan ook voorgesteld worden door een stam-en loof diagram (Tukey). Deze bestaat uit de stam van een klasse en de variaties er achter. Verschillende lijnen van een stam en loof diagram kunnen eenzelfde stam hebben (bv klasse 1-4 en 5-9 hebben beiden stam 0) Indien het loof uit meerdere cijfers bestaat worden ze gescheiden door komma’s. Je kan ook een legende bij de stam en loofdiagram zetten. Deze legende kan opgaan voor stam en/of loof. Dit zet men in een noot erbij. Voordelen: proportionaliteitsregel gaat op, alle informatie uit oorspronkelijke frequentietabel aanwezig Stam = klassen

1.2 Samenvattende maten

Bij het samenvatten van gegevens is men geïnteresseerd in de informatie over

Iets als ‘het middelpunt’ van de frequentiefunctie

= centrale tendensmaten

Mate waarin gegevens globaal genomen van dit middelpunt en elkaar verwijderd zijn

= spreidingsmaten

Centrale tendensmaten:

Modus Elke waarde x waarvoor freq(x) maximaal is. Een functie kan unimodaal (één modus) of bimodaal zijn (meerdere modi). bij extreem scheve verdelingen ligt de modus vaak verder van het centrum²

Mediaan Mex : Pc50 = D5 = Q2 Je kan de mediaan berekenen door gebruik te maken van kwantielen of door de observaties te ordenen en hernummeren (bv x1 ≤x2 ≤… ≤xn).

Page 9: Statistiek deel 1: Theorie: 1. Inleiding · Het kardinaalgetal is het aantal elementen van die verzameling (eindig of oneindig); symbool # Een verzameling bestaat uit deelverzamelingen

9

indien het aantal observaties (n) oneven is: Mex = xn+1 / 2 Indien het aantal observaties (n) even is: Mex = ( xn/2 + x(n/2)+1 ) 2 Bewijs in kader van Pc50 : pagina 35 geen leerstof

Rekenkundig gemiddelde

De mediaan is robuuster dan het gemiddelde aangezien dat het gemiddelde gevoeliger is voor

uitbijters, anderzijds houdt het gemiddelde wel meer rekening met alle observaties. Vaak (niet altijd)

geldt voor een negatieve scheve frequentiefunctie dat het gemiddelde kleiner is dan de mediaan en

omgekeerd voor een positief scheve dat de mediaan kleiner is dan het gemiddelde. Bij symmetrische

zijn ze vaak gelijk.

Enkele belangrijke eigenschappen van het gemiddelde (+ bewijzen pagina 37-38)=

sommatie van het verschil tussen elke observatie min het gemiddelde is nul

Regel van Steiner (bewijs niet kennen, gebruikt trucje):

∑ ∑

Dit wijst op het feit dat het gemiddelde de ideale maat is. Voor elk getal c dat niet het gemiddelde is

zal deze verder van elke observatie liggen dan het gemiddelde:

∑ ∑

Voor mediaan geld een analoge eigenschap:

∑ ∑

Mex is dus de waarde van a waarvoor ∑ minimaal is.

Uitbijters:

Mediaan blijft hetzelfde (middelste blijft)

Gemiddelde verandert

Page 10: Statistiek deel 1: Theorie: 1. Inleiding · Het kardinaalgetal is het aantal elementen van die verzameling (eindig of oneindig); symbool # Een verzameling bestaat uit deelverzamelingen

10

Spreidingsmaten

Bereik Max(X) – min(X) gevoelig voor uitbijters

Interkwartielbereik Q3 – Q1 (bereik van de middelste 50%) Minder gevoelig voor uitbijters

Variantie

= gemiddelde kwadratische afstand van de observaties (xi) tov hun gemiddelde (denk aan eerste eigenschap gemiddelde)

Standdaarddeviatie

Aangezien variantie niet uitgedrukt is op de schaal van de oorspronkelijke gegevens, terug zelfde meeteenheid

Berekening van variantie en standaarddeviatie:

Methode 1 Bereken per observatie en maak direct gebruik van de bovenstaande definities

Methode 2 Gebruik maken van volgende gelijkheid (bewijs p40!)

Bereken daartoe per observatie

Methode 3 Vertrek van de frequentie of proportietabel en maak gebruik van de formules:

∑ ( )

∑ ( )

∑ ( )

∑ ( )

Eigenschappen van variantie:

∑ ∑

= hoe ver wijken observaties van elkaar af

Dus is gelijk aan het gemiddelde kwadratische verschil tussen alle paren observaties. Bewijs p41!

Page 11: Statistiek deel 1: Theorie: 1. Inleiding · Het kardinaalgetal is het aantal elementen van die verzameling (eindig of oneindig); symbool # Een verzameling bestaat uit deelverzamelingen

11

Ongelijkheid van Tchebyhev (bewijs p44, niet kennen)

De proportie van de observaties die meer dan k standaarddeviaties afwijken van het gemiddelde

bedraagt hoogstens

.

Men kan de centrale tendens en spreidingsinformatie grafisch voorstellen in een boxplot (of box and

whisker) diagram van Tukey.

Met minimum en maximum Q3 + 1.5 en Q1 – 1.5 Mag niet verder reiken dan maximum en minimum

1.3 Transformaties van variabelen

De scores op variabelen die men registreert zijn ruwe scores. Soms is een transformatie van deze

gegevens gewenst of simpel weg noodzakelijk. Enkele redenen:

Arbitraire redenen:

o Indien je de gemeten variabele in een andere eenheid zou willen

Bv kg g of °F °C

Noodzakelijke redenen:

o Indien men geïnteresseerd is in de afwijking van een ideale score

o Indien de warde de betekenis niet duidelijk vertegenwoordigd.

= inhoudelijke redenen

Behalve voor geluid kan men daar een fysische formule op plakken,

maar indien men geïnteresseerd is in de beleving van geluid moet men bv een

logaritme hiervan pakken

o De ruwe scores op zich zijn niet of niet goed interpreteerbaar.

Hierbij wordt de Z-transformatie gebruikt:

Page 12: Statistiek deel 1: Theorie: 1. Inleiding · Het kardinaalgetal is het aantal elementen van die verzameling (eindig of oneindig); symbool # Een verzameling bestaat uit deelverzamelingen

12

Z-getransformeerde scores worden kortweg ook Z-scores of standaardscores genoemd. Deze scores

zijn enkel gedefinieerd als .

o Uitbijters kunne de verwerking van gegevens verstoren. Je kan dan deze uitbijters

elimineren, dit is best aanvaardbaar in extreme gevallen maar in minder extreme

gevallen kan men de gegevens transformeren. Men kan hiervoor de log-

transformatie gebruiken.

In het algemeen beschouwen we transformaties f van variabelen:

f:

x f(x)

Enkele bijzondere gevallen:

f(x) = ax + b bv.: F(x) = Z(x)

= lineaire transformatie

f(x) = log(x)

Als Y = f(x) dan freqy(y) = freqx (f-1(y)) = ∑

Of in woorden: de frequentie van y is de som van alle frequenties van x-waarden die door de functie f

op y worden afgebeeld.

Een transformatie kan een frequentiefunctie op verschillende manieren vervormen, het kan het bv

samendrukken of uitrekken (bv log). Ook zullen bijvoorbeeld kwantielen onder een aantal

transformaties veranderen. Het heeft ook invloed op centrale tendensmaten:

Met als bijzonder geval: bewijs pagina 51-52

Invloed van transformaties op spreidingsmaten:

Stel Y = f(x) met f(x) = ax + b dan

bewijs pagina 52

Bijzonder geval:

Gevolg:

{

Beschrijvende statistiek met twee variabelen:

Per koppel variabelen kan frequentie en/of proportie berekend worden.

j kan hierbij alle waarden aannemen van 1 tot m (maximaal aantal mogelijke waarden van x) en j’ alle

waarden van 1 tot m’ (max aantal waarden van Y).

Page 13: Statistiek deel 1: Theorie: 1. Inleiding · Het kardinaalgetal is het aantal elementen van die verzameling (eindig of oneindig); symbool # Een verzameling bestaat uit deelverzamelingen

13

Bivariate frequentiefuncties kunnen worden samengevat in een contingentietabel (bivariate

frequentietabel. Met X vanboven in de tabel en Y links in de tabel. Hierbij heb je ook rij- en

kolomtotalen, deze zijn de marginale frequentiefuncties. Op dezelfde manier kunnen bivariate

proportiefuncties worden samengevat in een bivariate proportietabel.

Om deze gegevens grafisch voor te stellen kunnen we lijndiagrammen naast elkaar leggen, een (rug-

aan-rug)stam-en-loofdiagram gebruiken,…

Bivariate frequentie- of proportietabellen worden soms getransformeerd door elk element van de

tabel te vervangen door zijn verhouding t.o.v. de marginale waarde van de overeenkomstige rij; de

resulterende gegevens worden dan (rij-)conditionele proporties genoemd. Definitie:

( )

( )

( )

Op dezelfde manier kan men (kolom)conditionele proporties berekenen. Gebruikmakend van de

marginale kolomtotalen. Definitie:

( )

( )

( )

Bivariate grafische voorstellingen:

Eventueel nodig om waarden te groepen, dan kan je het in een korte tabel zetten en grafisch

weergeven d.m.v. een perspectieftekening of een scatterdiagram. In een scatterdiagram kunnen

sommige verwijzen naar waardenkoppels die meer als 1x voorkomen. In sommige soorten

scatterdiagrammen worden deze koppels aangeduid met een dikkere punt (of ander symbool).

1.4 Samenvattende maten:

1. centrale tendensmaten

conditionele centrale tendensmaten, bv conditionele gemiddelde:

∑ ( ) ∑

Dus je kijkt bijvoorbeeld per rij wat het gemiddelde, de proportie is. Analoog kan je dit ook doen voor

. Dan kijk je naar de kolommen.

2. spreidingsmaten

∑ ( ) | )

In woorden: alle y-waarden tot de tweede min het gemiddelde tot de tweede, gedeeld door

frequentie xj.

Page 14: Statistiek deel 1: Theorie: 1. Inleiding · Het kardinaalgetal is het aantal elementen van die verzameling (eindig of oneindig); symbool # Een verzameling bestaat uit deelverzamelingen

14

∑ ( ) | )

Op dezelfde manier kunnen we dit bereken voor X (x en y omwisselen).

1.5 Samenhang of associatiematen

Kwalitatieve variabelen

Proportie overeenstemming: frequentie van de variabelen waarbij twee waarden gelijk zijn.

Bijvoorbeeld aantal mannelijke patiënten die gebaat zijn bij therapie 1 en 2.

indien je deze frequentie deelt door n heb je proportie overeenstemming.

Kwantitatieve variabelen

Associatiematen

Covariantie:

( )

A: xi < en yi < B: xi > en yi < C: xi < en yi > A: xi > en yi > A en D in meerderheid: positief verband B en C in meerderheid: negatief verband

Eigenschappen:

( )

chiastische kruisbeweging

( )

∑ ∑

( ) ( )

( ) ∑ ∑

( ) ( )

chiastische formule, optellen over rooster; proportie bivariaat koppel,

Page 15: Statistiek deel 1: Theorie: 1. Inleiding · Het kardinaalgetal is het aantal elementen van die verzameling (eindig of oneindig); symbool # Een verzameling bestaat uit deelverzamelingen

15

( ) ( commutativiteit) meeteenheid gevoelig

( )

Correlatie (productmoment)

Lineair verband, onafhankelijk van meeteenheid (z transformatie)

( )

(symmetrisch)

--> Niet lineaire transformaties blijft r onveranderd

Bewijzen pagina 70 + 71 met truc

2. Optimale voorspelling

1. Algemene optimale voorspelling

Men wil een criterium voorspellen op basis van een voorspeller of predictor.

We kunnen voor 1 x-waarde slechts 1 yest waarde voorspellen.

Yjest = f(x) waarbij yj

est buiten het waardengebied van y kan vallen.

Indien elke x-waarde slechts één beeld heeft, kunnen we grafisch een perfecte voorspelling maken,

anders moeten we het conditioneel gemiddelde pakken als voorspelling.

Dan hebben we een globale voorspellingsfout: de gekwadrateerde standaardfout van estimatie s²y.x :

Grillig grafisch verloop

2. Lineaire optimale voorspelling

Om het eenvoudiger te maken zoeken we een lineaire functie van x. hierdoor krijgen we een grote

voorspellingsfout s²y.x , in dit geval geldt dat : yjest = b0 + b1 xj

Dit is een regressievergelijking met b0 als regressieconstante en b1 het regressiegewicht van X.

Page 16: Statistiek deel 1: Theorie: 1. Inleiding · Het kardinaalgetal is het aantal elementen van die verzameling (eindig of oneindig); symbool # Een verzameling bestaat uit deelverzamelingen

16

dus

( )

+

Foutenvariantie De variantie in Y die verklaard

(voorspeld) wordt door X

Totale variantie Gekwadrateerde standaardfout Verklaarde variantie

Determinatiecoëfficiënt:

Dus r² = welk stuk wordt ingenomen door VF? Hoeveel % je kan vatten met predictor?

Of indien we xjest willen voorspellen:: xj

est = b0 + b1 yj

Dit is een regressievergelijking met b0 als regressieconstante en b1 het regressiegewicht van X.

= constante

= hellingscoëfficiënt

Page 17: Statistiek deel 1: Theorie: 1. Inleiding · Het kardinaalgetal is het aantal elementen van die verzameling (eindig of oneindig); symbool # Een verzameling bestaat uit deelverzamelingen

17

Bij optimale lineaire voorspelling van y op basis van x (of omgekeerd):

Legt rxy het verband tussen de Z-scores op X (y) en de voorspelde z-scores op Y(X)

Geeft r²xy de proportie variantie aan in Y(X die verklaard wordt bij voorspelling van y(x) op

basis van x(y)

Page 18: Statistiek deel 1: Theorie: 1. Inleiding · Het kardinaalgetal is het aantal elementen van die verzameling (eindig of oneindig); symbool # Een verzameling bestaat uit deelverzamelingen

18

Page 19: Statistiek deel 1: Theorie: 1. Inleiding · Het kardinaalgetal is het aantal elementen van die verzameling (eindig of oneindig); symbool # Een verzameling bestaat uit deelverzamelingen

19

Drie opmerkingen:

1) De correlatie rxy legt een verband tussen z-scores. De correlatie bevat op zichzelf geen

informatie over het gemiddelde en de spreiding van X en Y.

2) De correlatie heeft alleen betrekking op de lineaire band tussen X en Y.

Er kan dus nog een algemene perfecte voorspelling mogelijk zijn. Kwaliteit van voorspelling

bv hardlopen met of zonder korset

r²xy ≠ 1: geen perfecte lineaire voorspelling mogelijk maar misschien wel algemene optimale

voorspelling

r²xy =0 : fiasco, je kan niets voorspellen

3) Aan de correlatie kunnen verschillende inhoudelijke verhalen worden gekoppeld waartussen

niet zonder meer op wiskundige basis kan worden gekozen:

a. Geen inhoudelijke wetmatigheid achter de correlatie. = spurious correlation

ooievaars en geboorte: niet noodzakelijk in populatie zo, enkel toeval

b. Er gaat een causaal verband schuil achter de correlatie:

i. Direct causaal pad (van x naar y of omgekeerd)

ii. Causaal pad van x naar y (of visa versa) via mediatorvariabele W

iii. Een derde variabele W direct of indirect zowel x als Y veroorzaakt

Als er geen perfecte lineaire voorspelling mogelijk is, kunnen hiervoor twee redenen zijn:

1) Minstens één waarde xj van x er meerdere y-waarden voorkomen

2) Het feit dat alle conditionele gemiddelden niet op een rechte liggen

Page 20: Statistiek deel 1: Theorie: 1. Inleiding · Het kardinaalgetal is het aantal elementen van die verzameling (eindig of oneindig); symbool # Een verzameling bestaat uit deelverzamelingen

20

In het tweede geval kunnen we een optimale lineaire voorspelling overwegen met een

getransformeerde X en/of een getransformeerde Y. bv (niet heel belangrijk)

( )

( )

2.2 Somvariabelen

: Z is criteriumvariabel en x+y is de predictor

Niet rx+y z = rxz + ryz (denk aan eigenschap rxy, is niet gewoon covariantie)

Bewijs pagina89

Gewogen sommen:

∑ ∑

∑ ∑

Vb van het laatste:

S -2 + x – 1.5 y 6+2u+3v+4w = 2sxu + 3sxv + 4sxw – 3syu – 4.5syv – 6syw

A0 = 2

b0 = 6

k = 1 – 2 (twee variabelen)

j’ = 1 – 3 (3 variabelen)

3. Beschrijvende statistiek met meer dan twee variabelen

Methode van conditioneel werken

Men houdt de waarden van alle variabelen op één of twee na vast, en vervolgens gebruik je de

methoden uit univariatie of bivariate statistiek.

Page 21: Statistiek deel 1: Theorie: 1. Inleiding · Het kardinaalgetal is het aantal elementen van die verzameling (eindig of oneindig); symbool # Een verzameling bestaat uit deelverzamelingen

21

Optimale lineaire voorspelling van een criteriumvariabele

3.2 Algemeen geval:

yjest = b0 + b1 x1j + b2x2j waarbij de b’s zodanig gekozen worden dat de gekwadrateerde standaardfout

van estimatie zo klein mogelijk is. Dit wordt ook het probleem van meervoudige regressie genoemd.

Daarom hebben we de gekwadrateerde meervoudige correlatiecoëfficiënt (R²), die de kwaliteit van

de optimale linaire voorspelling uitdrukt in een getal tussen 0 en1. R² is daarbij de proportie van

variantie in Y die verklaard wordt door X1 en X2.

Voorspelling op basis van twee kwalitatieve predictorvariabelen

Tabellen met conditionele prestatiegemiddelden, waarbij (bij optelling) rechtsonderaan het globale

gemiddelde is weergeven. Indien de rijgemiddelden van mekaar verschillen zegt men dat er een

hoofdeffect is van bv X1, indien kolomgemiddelden verschillen is er een hoofdeffect van X2.

X2 -1 +1

X1 +1 b0 + b1 – b2 b0 + b1 + b2 b0 + b1 b1 = (b0 + b1) - b0

-1 b0 - b1 – b2 b0 - b1 + b2 b0 - b1 b1 = b0 (b0 – b1)

b0 – b2 b0 + b2 b0

b2 = b0 – (b0 – b2) b2 = (b0 +b2) - b0

Dus 2b1 geeft de grootte van het hoofdeffect van X1 weer en 2b2 geeft de grootte van het

hoofdeffect van X2 weer. Bovendien is de optimale waarde van b0 het globale gemiddelde.

Let op interactie!

Er is geen interactie indien bij X1 enX2 bij de voorspelling van y:

1) Het verschil tussen de celgemiddelden in twee kolommen is gelijk over de rijen

2) Het verschil tussen de celgemiddelden in twee rijen is gelijk over de kolommen

3) De celgemiddelden kunnen worden bekomen als een eenvoudige optelsom van een

afzonderlijke X1 en een afzonderlijke X2 effect

4) In een grafiek met X1 als horizontale as en Y als verticale as zijn de lijnstukken voor de

verschillende waarden van X2 evenwijdig

5) In een grafiek met X2 als horizontale as en Y als verticale as zijn de lijnstukken voor de

verschillende waarden van X1 evenwijdig

Vier opmerkingen:

1) Alle 8 combinaties van aan en afwezigheden van hoofdeffecten en interactie kunnen

optreden bij de voorspelling van een kwantitatieve criteriumvariabele y op basis van twee

kwalitatieve predictorvariabele x1 en X2.

De aanwezigheid van interactie kan de hoofdeffecten kwalificeren

2) Bij het optreden van interacties wordt soms nog een onderscheid gemaakt tussen disordinale

en ordinale interacties, naar gelang in een grafische voorstelling de twee lijnstukken elkaar

wel al dan niet snijden (inbegrip gemeensch hoekpunt). Snijden = disordinaal

Page 22: Statistiek deel 1: Theorie: 1. Inleiding · Het kardinaalgetal is het aantal elementen van die verzameling (eindig of oneindig); symbool # Een verzameling bestaat uit deelverzamelingen

22

3) Bij interactie hebben we een interactieterm nodig om een lineaire vergelijking te maken:

yjest = b0 + b1 x1j + b2x2j + b3 x1j + x2j = interactieterm

b1 , b2 en b3 = gemiddelde y

4) Indien het gaat om meer dan twee verschillende waarden is er sprake van een hoofdeffect

van een predictorvariabele op y zodra minstens twee van de marginale y gemiddelden voor

die variabele verschillen. Verder spreekt men van interactie zodra voor minstens één 2x2

deeltabel van celgemiddelden de eigenschappen van de bovenstaande stelling niet opgaan.