VPPK — Vlaamse Psychologische en Pedagogische Kring · Web viewis een eigenschap die bij de...

Statistiek 1 – Prof. Marchant

1. Beschrijvende statistiek

Hoofdstuk 1 : 3 Voorbeelden over het nut van statistiek.

We bekijken dit jaar 3 grote onderdelen van de statistiek

Beschrijvende statistiek Kansrekening Inductieve statistiek

Vb 1 :Beschrijvende Statistiek

met Histogram loon van arbeiderso bespreekt het belang van de juiste visuele presentatie van een onderzoek

onze ogen ‘bedriegen’ ons vaak, hoewel er soms geen wiskundige fouten worden gemaakt bij het opstellen van een histogram, zal onze indruk toch fout zijn aangezien onze ogen vooral kijken naar de oppervlakte.

het is belangrijk dat bij een onderzoek de categorieën gelijk verdeeld zijn, dit maakt het opstellen van een grafiek en het lezen ervan makkelijker

De correcte histogram kan men vinden door tee zorgen dat het aantal (arbeiders in dit geval) gelijk staat aan de oppervlakte.

opp=l .b dus opp=catbreedte . aantal arbeiderscatbreedte

Vb 2 : Kansrekenen

Is melk gevaarlijk voor de gezondheid?o Toont het belang aan van verbanden leggen, in dit geval was er geen sprake van een

‘logisch’ verband

o Men moet altijd twee verschillende proporties (=kansen) vergelijken om een conclusie te trekken en zo een risico te berekenen van iets.

1

Vb. 3 Inductieve statistiek

Observatie steekproef naar populatie: nieuwe leerstrategieo Toont aan dat men na het uitvoeren van een onderzoek, een referentiepunt

(vergelijking) moet hebben om beslissingen te trekken

o Een onderzoek kan pas representatief zijn als de steekproef groot genoeg is, hoe groter de steekproef hoe zekerder men is over de kans, hoe kleiner des te groter het risico dat eventuele beslissingen inhoud die volgen uit het onderzoek.

o Veralgemening en vergelijking is cruciaal bij het uitvoeren van een goed onderzoek.

Hoofdstuk 2 : Basisbegrippen

Basisbegrippen

Populatie is de gehele groep objecten of personen waarover informatie wordt gewenst. De individuele leden van de populatie worden elementen/individuen genoemd.

De steekproef is een gedeelte van de populatie dat feitelijk onderzocht wordt om informatie te vergaren, het is belangrijk dat deze groot genoeg is om een representatief resultaat te krijgen

Variabele is een eigenschap die bij de elementen van populatie of van de steekproef variëert (haarkleur, loon: hoog of middelmatig of laag, man of vrouw…) . Bij een numerieke waarde zijn dit getallen. (IQ, loon, man of vrouw dat wordt voorgesteld als 0 en 1)

o Kwantitatieve variabele beelden een hoeveelheid uit en zijn dus kwantitatief Gezinsgrootte, loon,…

o Kwalitatieve variabele: kunnen wel voorgesteld worden als getallen, maar kunnen niet als getallen worden uitgedrukt (bv mijn haarkleur is 3.. maar 3 kan wel bv rost voorstellen als 1=blond, 2=bruin en 3=rost)

Haarkleur: rost, bruin of blond Geslacht: man of vrouw..

o Continue variabelen zijn variabelen die constant variëren, tussen twee waarden kan men altijd een derde vinden (bv leeftijd) er zijn ook ‘bijna continue’ variabelen zoals bv loon, aangezien de wet een limiet stelt op het rekenen met geld tot 0.001 van een

2

euro.

o Discrete variabelen zijn niet continu, het is het een of het ander, tussen twee waarden kan men geen derde vinden bv. Geslacht of aantal kinderen

Hoofdstuk 3 : Budget voor boeken

3.1 : Orienteringstechnieken

Technieken om gegevens bruikbaar en overzichtelijk te maken

o Frequentietabel is een tabel waarin alle waarin de variabelen gerangschikt worden en de frequentie (waarde) van elke variabele ook weergegeven wordt.

o Lijndiagram geeft in een grafiek een lijn voor elke geobserveerde waarde weer, de hoogte van de lijn geeft de frequentie van die waarde aan.

Geen klassen elke waarde wordt getoond Soms onduidelijk

o We kunnen ook met categorieën/klassen werken zo wordt er meer overzicht gecreëerd. De klassen moeten niet te groot zijn, anders gaat het overzicht verloren.

o Via de klassen kan men een histogram gaan opstellen deze geeft een goede visuele voorstelling en is goed afleesbaar (men kan ipv met de gewone frequentie ook met de relatieve frequentie (%) werken om een beter overzicht te krijgen, dit wordt vaak gedaan als twee steekproefgroottes niet gelijk zijn.)

Absolute frequentie: is het aantal van een bepaalde variabele Relatieve frequentie is de proportie, vaak procentueel of decimaal weergegeven

3.2 Reductietechnieken

Technieken om gegevens samen te vatten, worden gebruikt om vergelijkingen van verdeling te maken in hun geheel

o De modus Meest frequente variabele in een verdeling Geen goede centrale tendentiemaat aangezien ze zeer gevoelig is voor

verandering en ook de verdeling niet goed weergeefto De modale klasse

De meest frequente categorie/klasse in een verdeling Betere centrale tendentiemaat dan de modus, aangezien ze minder gevoelig

is voor verandering, toch nog steeds geen goede weergave van de verdeling.

3

o Het Rekenkundig gemiddelde Een optelling van alle variabelen vermenigvuldigd met hun frequentie,

gedeeld door he grootte van de steekproef

Formule= y=1n∑i=1

n

xi

n = totaal aantal elementen van de steekproef Xi = het i-de element X= de variabele (eigenschap die varieert van individu tot individu)

Dankzij het gemiddelde kunnen we twee verdelingen in hun geheel met elkaar vergelijken

Maar het rekenkundig gemiddelde is gevoelig voor uitschieters, maar is al bij al een goede reductietechniek

o Variatiebreedte Verschil tussen grootst geobserveerde waarde en de kleinste Is ook zeer beïnvloedbaar, vooral voor uitschieters

o Gemiddelde van de afwijkingen (t.o.v. het gemiddelde) We komen steeds opnieuw 0 uit aangezien de elementen links van het

gemiddelde (zijn negatief) evenveel van het gemiddelde afwijken als de elementen die er rechts van liggen (positief).

1n∑i=1

n

(x i−x )=0

De gemiddelde afwijking is dus geen goede spreidingsmaat

o De gemiddelde absolute afwijking We lossen het probleem van de gemiddelde afwijking op door de absolute

waarde te nemen van de negatieve afwijkingen .

1n∑i=1

n

¿ x i−x∨¿ 0

Goede spreidingsmaat, hoe groter de uitkomst des te groter de afwijking MAAR

Absolute waarden niet makkelijk te behandelen Wiskundigen houden er niet van

o Variantie (s²) In plaats van de absolute waarde van de gemiddelde afwijking te nemen,

gaan we de afwijkingen kwadrateren zodat ze positief worden

4

Hoe groter de uitkomst des te groter de spreiding Het is een goede spreidingsmaat en reductietechniek

o Standaardafwijking De standaardafwijking is de vierkantswortel van de variantie Symbool = S

Hoofdstuk 4 : Pas op de wielrenners

4.1 Tchmil en Spruch (wielrenners uit 1999)

3 journalisten bekijken de uitslagen van de wielrenners Tchmil en Spruch, ze concluderen alle drie iets anders naargelang hun manier van rekenen, ze telkens het gemiddelde

o Conclusie De plaatsen die de renners behaalden hebben geen rekenkundige betekenis,

de 3de was 3 keer zo slecht als de eerste, en de 2de was niet 4 keer beter dan de 8ste

De plaatsen die ze behaalden zijn dus ordinalen

Ordinaleno getallen die een weerschijn zijn van de variabelen, ze hebben geen rekenkundige

betekenis o enkel de volgorde is hier van belango 1e is beter dan de 2de is beter dan de 3de enz…o In geval van ordinalen is het nuttig om centrale tendentiematen te gebruiken waarbij

niet gerekend moet worden Modus Mediaan (md)

Het vergelijken van medianen bij ordinale variabelen is zinvol

4.2 Inleiding tot de meettheorie

Meten: het toekennen van getallen aan voorwerpen om een specifieke empirische eigenschap te representeren

Empirisch: zonder een meettechniek te gebruiken een bepaling doen (bv student 1 is groter dan student 2 namelijk omdat je ziet dat er een verschil in hoogte is)

4.2.1 enkele meettechnieken , types variabelen en schaalfamilies

Absolute schaal

5

o Een getal aan iets toekennen puur door het te tellen Bv de grootte van een kudde koeien

o Het is mogelijk om twee bekomen waarde te combineren

Ratioschaalo Eerst een meeteenheid kiezen en dan tellen

Keuze van meeteenheid is willekeurig bv 1 centimeter, 1 meter, 1 kilogram, 1 ton (massa en lengte)

o we kunnen deze combineren met elkaar

Intervalschaleno Er is een referentiepunt nodig anders is het onmogelijk te tellen ookal

hebben we een meeteenheido De oorsprong en de meeteenheid moeten willekeurig gekozen wordeno Bv bij temperatuur: 0°C = vriespunt water, 1°C is een hondertse deel van het

interval tussen het kook en vriespunt van water (temperatuur en tijd)o We kunnen deze niet met elkaar combineren

We kunnen wel twee intervallen tussen twee momenten combineren maar dan komen deze op de RATIOschaal

Ordinale schaalo Enkel de volgorde is van belang, alle andere wijzigingen zijn mogelijko Kunnen moeilijk of onmogelijk gecombineed worden

Bv dominatn gedrag bij gorilla’s Eindplaatsen bij een wielerkoers

Nominale schaalo De getallen die worden toegekend aan bepaalde variabelen zijn labels en

hebben geen enkele rekenkundige betekenis, zelfs de volgorde is niet van belang

o Bv speelgedrag bij kinderen 1=kind speelt alleen 2=kind speelt samen 3= kind wordt gepest enz…

4.2.2 schaalfamilies

Het is dus duidelijk dat een schaal kiezen arbitrair is Voor elke karakteristiek die we willen meten is er een mogelijke familie van schalen

Waarheidswaarde

Soms kan het gebeuren dat een bepaalde bewering juist is in de een schaal maar fout is in de andere schaal. Het al dan niet waar zijn van een bewering noemen we de waarheidswaarde.

6

o Zinvol Een zinvolle bewering is een bewering waarvan de waarheidswaarde

onafhankelijk van de schaal dezelfde blijft met alle schalen uit de geassocieerde familie

o Zinloos Een zinloze bewering is een bewering waarvan de waarheidswaarde wel

afhankelijk is van de schaal en dus niet waar is bij andere schalen uit diezelfde familie

Hoe aantonen of een bewering zinvol of zinloos is Hoe aantonen of een bewering zinloos of zinvol is?

o Zinvol: aantonen door uit te werken o Zinloos: aantonen door numeriek voorbeeld uit te werken

4.2.3 De verschillende meetniveaus

Absolute schaalo Als geen andere schaal mogelijk is omdat meeteenheid en oorsprong vast zijno Getallen die we bekomen door te telleno Altijd discreeto Alle beweringen zijn zinvolo Combinatie is mogelijk

Ratio schaalo Enige mogelijke wijziging is de meeteenheidsveranderingo x = x’ * ao oorsprong staat vasto altijd continuo zie pagina 44 en 45 voor zinvol of zinloze beweringen

Intervalschaal

7

hoogste meetniveau

Absolute schaal

Ratioschaal

Intervalschaal

Ordinale schaal

Laagste meetniveau

Nominale schaal

o Mogelijke wijzigingen zijn eenheid en oorsprongsveranderingeno x = x’ * a + bo combineren is mogelijk mits bewerking

Ordinale schaalo Alle wijzigingen mogelijk enkel de volgorde moet dezelfde blijveno Er is geen formule, bewerkingen op de ordinale schaal zijn ingewikkeld en worden

beter vermedeno Enkel zinvol indien >, < enz..

Nominale schaalo Alle veranderingen mogelijk getallen hebben totaal geen numerieke waardeo Kunnen niet opgeteld worden, geen bewerkingen mogelijk

Kort samengevat

Bewijs zinloosheid = numeriek voorbeeld Bewijs zinvolheid = bewerking uitvoeren

Ratioschaal: x,y,z, vervangen door ax’,ay’,az’ Intervalschaal: x,y,z, vervangen door ax’ + b, ay’ + b en az’ + b Ordinale schaal: geen sytematische methode, niet + en *, enkel volgorde om

waarheidswaarde te bepalen Nominale schaal: geen systematische methode, +, * en vergelijken is verboden

Hoofdstuk 5: Ordeningstechnieken

Een steekproef = reeks elementen vanuit een populatie. In het algemeen, als we een variabele X in een steekproef met grootte n observeren

bekomen we een reeks van waarden van die variabele. Dit wordt de data genoemd.o De eerste waarde is vaak x1, de tweede x2 enz…

De geordende reeks van waarden schrijven we als volgt De kolomvector wordt met het symbool X aangeduid Er bestaat ook een rijvector X= (x1,x2,….,xi)

o Vet = vectoren Het omzetten van rij naar kolomvector noemt men transponeren

8

Frequentieverdelingen

Als x een van de mogelijk variabelen van X is, dan noemen we ‘frequentie van x) het aantal keer dat x in de steekproef voorkomt

Frequentie is een natuurlijk getal

Definitieo Frequentieverdeling van X is een tabel met twee kolommen (of twee rijen), in de

eerste kolom vind je de waarde van X in een steekproef en in de tweede kolom de overeenkomende frequenties

o De gegroepeerde frequentieverdeling van X is een tabel met twee kolommen of twee rijen, in de eerste kolom vind je de klassen van X en in de tweede kolom de overeenkomstige frequenties

Variabelen van ten minste ordinaal meetniveauo We moeten klassen toeveoegen die de outliers bevatten

Bovengrens = ui Ondergrens = li

o Bij decimale getallen moeten de klassen aangepast wordeno De klasbreedte blijft best gelijk bij elke klasseo Indien nodig uiterste klassen voor outliers

Cummulatieve frequentieverdelingo Het aantal elementen in een steekproef die de waarde x of kleiner hebben wordt

cummulatieve frequentie van x genoemd en wordt aangeduid door het symbool F (x)o Cummulatief: de som van alle voorgaande

o De cummulatieve frequentieverdeling van X is een tabel met twee kolommen of rijen, in de eerste kolom vind je de waarden van de X variabele in de steekproef en in de tweede de overeenkomende cummulatieve frequentie

o De cummulatieve gegroepeerde frequentie is hetzelfde als de gewone cummulatieve frequentieverdeling maar we hebben het probleem als we niet volgens de klassen werken en een andere waarde vragen

Dan verdelen we het aantal over de klasse en berekenen zo de oplossing

9

Relatieve frequentieverdelingo Verschillende soorten

Gewone relatieve frequentie : waarde van X gedeeld door n Gegroepeerde relatieve frequentie : Fi/n waarbij Fi de frequentie van de

klasse ki is Cummulatieve relatieve frequentie: som van voorgaande relatieve

frequenties Relatieve frequenties zijn procentueel of decimaal

Grafische voorstelling

Gewone data in een leesbare vorm stellen zodat het overzichtelijk wordt

Soorten niet cumulatieve frequentieverdelingen o Lijndiagram

Niet gegroepeerde verdeling voorstellen, elke lijn is de waarde van een variabele

o Staafdiagram of kolommendiagram Meetniveau moet ordinaal nominaal of absoluut zijn Hoogte is gelijk aan overeenkomstige frequentie Breedte en tussenruimte moet steeds gelijk zijn

o Cirkeldiagram Nominaal meetniveau

10

o Histogram Gegroepeerde frequentieverdeling Breedte rechthoek = breedte klasse De rechthoeken raken elkaar aan

Soorten cumulatieve frequentieverdelingeno Histogram

Gaat steeds stijgen Hoogte is de cumulatieve frequentie van de klasse

o Cumulatieve frequentiecurve Niet gegroepeerde data

Eerst punten aanduiden Aparte streepjes trekken en kijken hoeveel waarden er steeds

minder zijn

11

Gegroepeerde data Aangezien we de frequentie ‘uitsmeren’ over een klasse zullen we

een vloeiende lijn krijgen Chocopastatheorie

o Lijndiagram en kolommendiagram worden niet gebruikt bij cummulatieve frequenties

Hoofdstuk 6 : Reductietechnieken

Reductietechnieken o Technieken om de in de frequentieverdeling bevatte informatie samen te vatten in 1

getal

12

Maten van Centrale tendentie

o Het rekenkundig gemiddelde Meest populaire centrale tendentiemaat

Meetniveau: interval-, ratio- en absolute schaal Is zeer gevoelig aan outliers

Vectornotatie Scalaire product van twee vectoren (altijd rij * kolom)

Bij gegroepeerde data gebruikt men ipv xi het midden van de klassen (Ui+li)/2

o Mediaan Is de waarde van de variabele waarvoor geldt dat het aantal observaties

kleinder dan md gelijk is aan het aantal observaties dat groter is dan md Het middenste element

13

Indien het om een even aantal observaties gaat nemen we het gemiddelde van de middenste twee observaties

Gegroepeerde data Zelfde probleem, we weten niet precies waar de observaties binnen

een klasse liggen Daarom doen we F(mdx)/n=1/2

Meetniveau Ordinale en hogere schalen, enkel volgorde van belang

o Modus Klasse met de grootste frequentie Er kunnen verschillende Modi zijn Niet gevoelig aan outliers Niet zo een goede centrale tendentiemaat

Maten van spreiding (spreidingsmaten)

o Variantie Meest populaire spreidingsmaat Hoe groter de variantie hoe groter de spreiding

Formule:

Meetniveau: interval, ratio en absolute schaal (want er wordt afgetrokken en gerekend)

Is gevoelig aan outliers zelfs meer dan het gemiddelde

Vectornotatie Som van twee vectoren

14

o De som van twee vectoren is dus nog steeds een vector die dezelfde dementie heeft als de vectoren die opgeteld werden

o Scalaire vermenigvuldiging

o Nu we dit weten kunnen we een nieuwe formule voor de variantie opstellen

15

Percentielen

Het percentiel k is dus de waarde van Pk van die variabele waarvoor geldt dat k procenten van de observaties kleinder dan Pk zijn

P50 = Mediaan

Interkwartielafstand

o Meetniveau: niet met ordinale of nominale schaleno De interkwartielafstand is niet gevoelig aan outliers aangezien deze buiten de

interkwartielafstand liggen

Variatiebreedte

o Meetniveau: niet met ordinale of nominale schaal aangezien afstand hier zinloos is

16

o Zeer gevoelig aan outliers

Het getal d

o Meestal met nominale variabelen maar niet uitsluitendo Nominale variabele is altijd discreet, met eindig aantal waarden aangeduid door p

o Bv p=3 (wat is jouw haarkleur: blond, zwart, of rost)o Bv p=2 (geslacht?)

o Fmo is de frequentie van de modale klasse

o Interpretatieo indien Fmo= n dan is de spreiding minimaal en is d 0o indien elke waarde maar 1 keer voorkomt is de spreiding maximaal= 1

o we gebruiken d op elk meetniveau en is niet gevoelig aan outliers

Hoofdstuk 7: Bivariante Statistiek

We hebben al gezien hoe we één variabele bespreken. Maar soms komen we in een onderzoek meer dan een variabele tegen. Dan is het makkelijk om deze samen te bespreken en ze samen in een grafiek te plaatsen. In dit hoofdstuk houden we het bij bi-variabelen (twee variabelen)

Marginale frequentieverdeling

Een variabele apart, niet samen

Bivariante verdelingen

We nemen twee variabelen samen in een grafiek en in een frequentietabel. Zowel X als Y dus. We kunnen deze natuurlijk ook gewoon apart analyseren

We presenteren bivariante data op volgende manier

17

Het spreidingsdiagram

Grafische voorstelling voor bivariante verdelingen Elk punt op de diagram is dus een geobserveerd paar (x,y)

o Hoe dikker het punt hoe frequenter het paar voorkwamo Waar er geen punt is werd er geen waarden paar geobserveerd

De positie van de punten wijst op een bepaalde tendentie, we noemen de verzameling van al deze punten een puntenwolk.

o Zien we een stijgende tendentie van links naar rechts Positieve correlatie

o Dalende tendentie Negatieve correlatie

o Zien we helemaal geen tendentie noch verband Geen correlatie

Twee marginale verdelingen geven veel details, maar zeggen niks over het verband tussen beide. Daarom zijn bivariante verdelingen zeer handig.

Associatietechnieken

Technieken om een verband tussen twee variabelen te meteno Allereerst duiden we op de spreidingsdiagram twee rechten aan

Een die het gemiddelde van de X variabele weergeeft Een die het gemiddelde van de Y variabele weergeeft

18

Zo kunnen we de diagram in 4 delen opsplitsen, deel I, II, III en IVo Staat het punt boven het x gemiddelde en boven het y gemiddelde

In gebied I Dan is de afwijking altijd positief (+ x + = +)

o Staat het punt onder het x gem en onder het y gem In gebied II Dan is de afwijking positief (- x – = +)

o Staat het punt boven het x gem en onder het y gem In gebied IV Dan is de afwijking negatief ( + x - = -)

o Staat het punt boven het y gem en onder het x gem In gebied III Dan is de afwijking negatief (- x + = - )

Covariantie:

De covariantie is precies de maat die we besproken maar dan gedeeld door n om de maat onafhankelijk van de steekproef te maken

Meetniveau: niet met ordinale en nominale, tenmiste van intervalniveau zijn (aangezien we aftrekken en optellen)

Gevoeligheid aan outliers: ja alle termen worden opgeteld ook de outliers Vectornotatie:

19

Correlatiecoëfficiënt

Correlatiecoëfficiënt van pearson is een populaire associatiemaat enis gebasseerd op de covariantie

Covariantie was dan wel onafhankelijk van steekproefgrootte maar bleef afhankelijk van de meeteenheid (van de varianties binnen een variabele dus)

Het product SxSy is sowieso een positief getal (aangezien de standaarddeviatie positief is) het correlatiecoëfficiënt heeft dus hetzelfde teken als de covariantie

De trend zal dus stijgend (r > 1) of dalen zijn (r < 1) omdat hij genormaliseerd wordt door SxSy is het een waarde tussen -1 en +1

De waarde 0 komt overeen met een ongecoreleerde data Wat van belang is, is hoe dicht de punten bij de rechte liggen, niet hoe stijl deze is

De correlatiecoëfficiënt en de covariantie zijn maten voor een lineair verband

Soms zijn er ook andere verbanden die bv curvilineair zijn (als een curve)

Regressielijn

De regressielijn meet de helling van de trend Regressielijn van Y op X We weten dat bij sterke correlatie de punten bijna op een lijn liggen, maar wat is de helling

van deze lijn? En wat is de vergelijking van deze lijn? We zoeken een lijn die als ideaal heeft dat elk punt even ver van deze lijn ligt De vergelijking van deze lijn is

20

We moeten dus de afwijking tussen een punt en de lijn meten (deze wordt verticaal gemeten

We gebruiken volgende formules om de afstand te minimaliseren

Het getal b1 noemt men het regressiecoëfficient, dit is de helling van de rechte (rico)o B1>0 dan stijgt de rechteo B1<0 dan daalt de rechte

Het getal b0 is de snijlijn met de y-as

Er is ook de regressielijn van X op Y, dan worden de afstanden horizontaal gemeten

Meetniveau: niet met ordinale of nominaal meetniveau aangezien ze op de correlatiecoëfficiënt gebaseerd is

Kendall’s τ associaties maato Niet alle verbanden zijn lineair, kendall’s T geeft de mate van een verband tussen

twee variabeleno Een verband is monotoon als de richting (stijgend of dalend) niet veranderto We kunnen de T berekenen door steeds +1 als de waarde van de eerste groter is dan

de tweedeo We schrijven -1 als de waarde van de tweede groter is dan de eerste

21

Nadat we voor alle paren een +1 of -1 of 0 schreven berekenen we het product in de derde kollom

Dan nemen we het gemiddelde van de derde kollom dit is kendalls T Interpretatie:

o is het verband perfect stijgend dan is kendalls T = +1o is het verband perfect dalend dan is kendalls T= -1o is er er niet echt een verband dan is kendalls T = 0

meetniveau: alles hoger dan het ordinale meetniveau (aangezien er geen waarden gevruikt worden enkel groter en kleiner dan)

o CONCLUSIE:o Er bestaan verschillende soorten verbanden tusse, variabelen, lineair en curvilineair

(monotoon of niet monotoon) Lineair: correlatiecoëfficiënt en regressielijn Curvilineair monotoon: Kendall’s T (rangcoëfficient Rs van Spearman)

o Als men een onderzoek doet moet men altijd een visuele analyse doen om foute conclusies te vermijden

o Zorg ook dat je geen foute conclusies trekt omwille van een derde variabele o Bv op plaatsen waar meer telefooncellen zijn komt meer kanker voor

22

Fout want op plaatsen waar meer telefooncellen zijn wonen meer mensen en zullen der dus automatisch meer mensen met kanker zijn.

o Soms is er dus een associatie maar geen causaliteit en is je conclusie dus niet gegrond

2. Kansrekenen

23

Hoofdstuk 8: Toevalsvariabelen en kansverdeling

Basisbegrippen

Een toevalsproces Een proces waarvan de uitkomst onvoorspelbaar is (bv munt opwerpen

Een gebeurtenis een verzameling van alle mogelijke uitkomsten voor dat toevalsproces, (gebeurtenis A realiseert zich als een van de elementen van A zich realiseert)

o Bv. Gooien met een dobbelsteen: gebeurtenis even = verzameling (2,4,6)

Bewerkingen met een gebeurtenis

De Unie

De unie van twee gebeurtenissen A en B is de verzameling van alle elementen die in A of in B of in beiden zijn

U betekend ‘A of B’ in de wiskunde wil dit zeggen : A of B of Beideo Bv: A U B

= (4,5,6) U (2,4,6) = (2,4,5,6)

De Doorsnede

De doorsnede van twee gebeurtenissen A en B is de verzameling van alle elementen die in A en in B zijn

Het teken ∩ betekend EN Bv.

De complementaire gebeurtenis

A* is de complementaire gebeurtenis van A

24

Het is de gebeurtenis die zich voordoet als en slechts als A zich niet voordoet, doet A* zich voor dan doet A zich niet voor en omgekeerd

De complementaire gebeurtenis van een complementaire gebeurtenis is de oorsprongelijke gebeurtenis: (A*)* = A

De Toevalsvariabele

Een toevalsvariabele is een variabele waarvan de waardein een toevalsproces onvoorspelbaar is.Bv bij trekking van een persoon is zijn IQ onvoorspelbaar, daarom is de variabele IQ een toevalsvariabele. Er zijn

Continue toevalsvariabelen Discrete toevalsvariabelen

Toevalsvariabelen kunnen van verschillende meetniveaus zijn: nominaal, ordinaal, interval, ratio of absoluut

Kansen

De kans dat gebeurtenis A (symbool= P(A)) bij een toevalsproces wordt gedefinieerd als de relatieve frequentie van deze gebeurtenis als we het toevalsproces eindeloos zouden herhalen. F(A) is de frequentie van A

Bv als we A munt laten zijn en we n keer gooien dan is de relatieve frequentie fA/n (indien f oneindig zou zijn maar dat kan dus niet.

Kans van twee Unie gebeurtenissen

Stel dat A en B gebeurtenissen zijn waarvoor geld dat de doorsnede = ∅o Dit betekent dat A∩B = ∅o en dat

P(A∪B) = P(A) + P(B)

o Als we een toevalsproces herhalen is de frequentie van de gebeurtenis A U B de som van de frequenties van A en B afzonderlijk. Hetzelfde geldt voor de kans.

Stel dat A en B gebeurtenissen zijn waarvoor geldt dat de doorsnede = ∅.o Dus A∩B 6= ∅o Dan

25

P(A∪B) = P(A) + P(B)−P(A∩B)

De kans van doorsnede van A en B moet afgetrokken worden om haar niet twee keer op te tellen

Afhankelijke gebeurtenissen

Twee gebeurtenissen A en B zijn afhankelijk als de realisatie van de ene gebeurtenis de kans van de andere gebeurtenis beïnvloedt.

Twee gebeurtenissen zijn onafhankelijk als ze niet afhankelijk zijn van elkaar.

Voorbeeld:

Afhankelijk:A = {1,2,3} en B = {5,6}. Als A zich voordoet dan is de kans dat B zich ook voordoet nul omdat het onmogelijk is dat beide zich realiseren. We zeggen bijgevolg dat A en B afhankelijk zijn. Laat C = {1,2}. Als C zich realiseert dan is de kans dat A zich ook voordoet gelijk aan 1 omdat we zeker zijn dat A zich ook voordoet. A en C zijn dus hier ook afhankelijk.

Onafhankelijk: Laat A = {1,2,3,4} en B = {2,4,6} =“even”. P(B) = 1/2. Stel nu dat ik een dobbelsteen opnieuw gooi. U ziet het niet. Ik zeg u dat A zich realiseerde. U weet nog niet of B zich ook realiseerde. Wat is nu de kans van B, de kans van B gegeven (of op voorwaarde dat) A zich voordoet? Het is nog hetzelfde. Er zijn vier uitkomsten in A; twee van die uitkomsten zijn even. De kans van B is dus nog 1/2. De gebeurtenissen A en B zijn derhalve onafhankelijk.

We noteren dit als :P(A|B) (kans van A op voorwaarde B). Als B zich voordoet wat is dan de kans van A

P(A|B) = P(A) voor onafhankelijke A en B P(A|B) 6= P(A) voor afhankelijke A en B.

Formule om te berekenen:

Voorwaardelijke kans van A op voorwaarde B:

P(A|B) = P(A∩B) / P(B)

.

De kans van de doorsnede van twee gebeurtenissen

We kunnen nu gemakkelijk de kans van de doorsnede afleiden.

26

P(A∩B) = P(A|B)P(B) = P(B|A)P(A) (omdat A∩B = B∩A).

In het geval van onafhankelijke gebeurtenissen is dit

P(A|B) = P(A) en dus P(A∩B) = P(A)P(B).

Voorbeeld:laat A = {1,2,3,4} en B = {2,4,6} bij de worp van een dobbelsteen (zoals in het bovenstaand voorbeeld). We hebben al P(B|A) berekend: het is 1/2.P(B∩A) = P({2,4}) = P(B|A)P(A) = 1 /2 . 4/6 = 1/3.

Kans van een complementaire gebeurtenis

Stel dat A en A* complementaire gebeurtenissen zijn bij een bepaald proces. dan is P(A*)= 1-P(A) of P(A)+ P(A*) = P(AUA*)= 1

Kansverdeling

Discrete variabele

Als X een discrete toevalsvariabele is met een eindig aantal mogelijke waarden dat door p wordt aangeduid en x1, x2,…, xp de mogelijke waarden van X zijn. Dan is de verdeling van toevalsvariabele X een tabel met twee kolommen of rijen. De tweede kolom bevat de kansen.

Aantal Ogen Kans1 1/62 1/63 1/64 1/65 1/65 1/6

P= #individuen in een steekproefn= #mogelijke verschillende woorden van de toevalsvariabele

In kansrekenen is Fx(x) de kans dat de waarde van de toevalsvariabele X in een toevalsproces kleiner dan of gelijk is aan x

FX(x) = P(X ≤ x).

FX(x) Dit is de cumulatieve verdelingsfunctie.

Kansverdeling van de continue variabelen

27

Continue= oneindig veel mogelijkheden daarom moeten we onze notatie aanpassen. Hier representeren x1 of x’ , x2 of x’’ gewoon willekeurige waarden. Zoals bij discrete toevalsvariabelen X=x is een gebeurtenis P(X=x).P(X=x) = 0 want stel ik trek 1 persoon wat is de kans dat deze 78,55548 kg weegt? Deze kan is 0.

Het is bijgevolg onmogelijk om een kansverdeling op te stellen. Maar andere gebeurtenissen wel. Bv de kans dat iemand meer of minder weegt dan 75 kg. De cumulatieve verdelingsfunctie wordt dan ook gedefinieerd door FX(x) = P(X≤x)

Hier gaat het niet om een trapsgewijze functie

De kans dat b >0= P(x ≤ x ≤ x+b)=P(x ≤ x+b) – P(X ≤ x)=F(x+b) – F(x)

De Dichtheidsfunctie

Als we de intervallen oneindig verkleinen dan wordt de waarschijnlijkheid de afgeleide van F(X)x

Dit noemt men de dichtheidsfunctie van de variabele X, zijn symbool is FX(x). fX(x) is niet de kans dat X=x aangezien deze nul is. Het is de kans dat X binnen een klein interval valt. Het is eigenlijk kans gedeeld door lengte. Het geeft ons toch een idee van de waarschijnlijkheid.

Eigenschappen:

28

De kans dat de variabele X zich in het interval [x1,x2]bevindt is de oppervlakte onder de dichtheidsfunctie, tussen de twee waarden x1 en x2. Een dichtheidsfunctie is steeds positief! De oppervlakte onder een dichtheidsfunctie is steeds gelijk aan 1.

Voor continue variabelen maat het niet uit of men < of ≤ gebruiktvoor discrete variabelen moet men wel nauwkeurig zijn

Reductietechnieken

Discrete toevalsvariabelen o We kunnen alle technieken uit hoofdstuk 6 gebruiken. Maar sommige formules

zullen we moeten aanpassen.

o De verwachting = het gemiddelde van de steekproef X met n oneindig. De som van alle verschillende waarden van X vermenigvuldigd me hun

relatieve waarde.

o De variantie

29

De vierkantswortel van de variantie noemt men hier de standaardfout

Continue toevalsvariabelen o De verwachting

E (X )=∑i=1

p

(P (X )=xi ) xi

Deze kunnen we niet gebruiken aangezien het aantal mogelijke waarden oneindig is, daarom gebruiken we de integralen

E (X )=∫−∞

+∞

f X ( x ) x dx

o De variantie De variantie van een continue toevalsvariabele X is

De Bivariante kansverdeling

Als we meer dan één toevalsvariabele tegelijk willen bekijken.

Discreten toevalsvariabelen

30

Gewoon een speciale Bivariante relatieve frequentieverdeling met n→∞ en kan in de vorm van een tabel voorgesteld worden zoals deze hierboven, één cel stelt altijd de kans op een overeenkomstige gebeurtenis voor zoals P(X=1 en Y=3)De som van alle gebeurtenissen is gelijk aan 1.

De som van de waarde op een rij geeft ons de kans op de overeenkomstige waarde van X.De som van de waarden in een kolom geeft ons de kans op de overeenkomende waarde van Y

Continue toevalsvariabelen

Kansverdeling kan niet in de vorm van een tabel gepresenteerd worden. Want voor alle P(X=x en Y=y) = 0

We kunnen wel de bivariante verdelingsfunctie definiëren

Afhankelijke toevalsvariabelen

Aanpassing van het begrip afhankelijke gebeurtenis Twee toevalsvariabelen X en Y zijn onafhankelijk als de gebeurtenissen

o ‘’x < X ≤x” en ‘’y < Y ≤ y’ ‘’ onafhankelijk zijn voor alle mogelijke keuze. Is dit niet zo dan zijn ze afhankelijk

In praktijk gaan we kijken of :P(X=x en Y=y) = P(X=x) P(Y=y)

Kijken welke waarde er in de cel staat, dan nagaan of deze het product is van de X kans en Y kans

Dit moet gelden voor alle mogelijke combinaties

Voorwaardelijke verwachting

De verwachting van toevalsvariabele X op voorwaarde dat de gebeurtenis A zich voordoet.

Bv. Bij bovenstaande tabel, de kans dat iemand bist als hij 1 broer of zus heeft, we berekenen dit door

31

dit werd berekent via de formule

Associatietechnieken

We bestuderen hier enkel het Lineaire verband tussen twee variabelen.

Discrete toevalsvariabelen

Is het verband stijgend dan > 1 Is het verband dalend dan < 1 Is het verband gelijk aan 0 dan is er geen verband

o We moeten altijd eerst de verwachting berekenen en dan de varianties dan pas de covariantie

Continue toevalsvariabelen

De definitie van de covariantie wordt aangepast die van het correlatiecoëfficiënt blijft dezelfde. De interpretatie is ook dezelfde als voor discrete variabelen.

Correlatie en afhankelijkheid

32

o Covariantie van onafhankelijke toevalsvariabelen is altijd nul dus ook hun correlatiecoëfficiënt

o Zijn ze onafhankelijk dan is het correlatiecoëfficiënt dus nul, het kan WEL zijn dat er een ander verband is dat niet lineair is.

BELANGRIJK BEWIJS DAT COVARIANTIE VAN ONAFHANKELIJKE TOEVALSVARIABELE ALTIJD NUL IS

Enkele nuttige stellingen

Verwachting van een constante maal een variabele

Als Z een toevalsvariabele aX is mat a als constante dan is de verwachting van een constante maal een variabele de verwachting van de variabele E(Z)=aE(X)

De verwachting van een som

33

o ToepassingWe willen weten wat de verwachting van een loon is bij hetero echtparen, dit is de som van het loon van de man en dat van de vrouw

Verwachting van een product

o Als X en Y onafhankelijk zijn en Z=XY dan is het product van de verwachtingen van X en Y gelijk aan de verwachting van Z

E(Z) = E(X) E(Y)

De verwachting van een product van onafhankelijke toevalsvariabelen is het product van de verwachtingen

34

Verwachting van een product is afhankelijk van het feit dat de variabelen al dan niet afhankelijk zijn.

De variantie van een som

Toepassing: de variantie van het loon van een hetero echtpaar is groter dan de som van de varianties van vrouwen en mannen. Rijke mannen trouwen met rijke vrouwen ze zijn dus positief gecorreleerd

V (X−Y )=V (X )+V (Y )−2cov (X ,Y )

V (X+Y )=V ( X )+V (Y )+2cov (X ,Y )

35

Hoofdstuk 9: bijzondere kansverdeling

Binominale variabele

In het algemeen schrijven we de kansverdeling van de variabele B(n,π) is

Π is de kans van een gebeurtenis A dat n keer herhaald wordt

Gebruiksvoorwaarden

Π moet altijd gelijk blijven (met teruglegging dus) of de populatie moet zeer groot zijn dan maakt het niet uit

Normale variabele

36

De dichtheidsfunctie is nergens 0 De som van twee onafhankelijke variabelen is nog een normale variabele Een normale variabele plus een getal is een normale variabele met dezelfde variantie Een normale variabele maal een getal is een normale variabele met dezelfde verwachting

Het algemene geval

Eens we de oplossing vonden zoeken we dit op in de tabel

Tabel normaalverdeling

37

Tabel X² verdeling

39

Student of T – verdeling

40

De steekproefverdeling

De steekproevenverdeling van het gemiddelde MET TERUGLEGGING

Verwachting van een som is de som van de verwachingen

De variantie van een steekproefgrootheid

Intuitief zijn we geneigd te denken dat V (X) = V (X). En dat is niet correct. De variantie van de steekproefgrootheid X is niet gelijk aan de variantie van X; het is gelijk

aan de variantie van X, gedeeld door n. Ze is dus kleiner dan de variantie van X.

42

De Steekproevenverdeling van de variantie, met teruglegging

44

Voor toepassingen zie cursus p 180-186

45

3. Inductieve statistiek

Hoofdstuk 10 : Inleiding tot inductieve statistiek

De inductieve statistiek bestaat uit methodes omo Te besluiten, op basis van observaties en experimenten, of een theorie weerlegd

moet worden of nieto Om een theorie, op basis van observaties en experimenten te verfijnen.

Puntschatting => Hier wil men een bepaalde parameter door een waarde schatten Intervalschatting => Hier wil men een interval vinden waarin de parameter zich waarschijnlijk

bevindt

Hoofdstuk 11: Puntschatting

Voorbeeldoefening ‘wat is de proportie van de twijfelaars’?o Men wil de proportie = π vinden van jongeren die twijfelen aan een baan later, ze

nemen een steekproef van 10 jongeren: n = 10o 4 jongeren twijfelen 6 jongeren niet

Men wil specifieker zijn, is π werkelijk gelijk aan 0.4? waarschijnlijk niet, stel dat dit 0.9 was, hoe groot is de kans dan dat men 4 twijfelaars trok

We nemen aan dat de variabele X= aantal jongeren dat twijfelt een binomiale variabele is, we moeten dus P(B(10,0.9)=4) berekenen, dit doen we met de formule:

Berekenen we dit dan is de uitkomst = 0.0001, dit is zeer klein

Door in het wilde weg te gokken is de kans dat we de hoogste π gokken zeer klein, daarom is het beter om de berekening algemeen te houden.

Als ook de steekproefgrootte onbekend is een we werken dit uit dan bekomen we

46

o π̂=b1n

Definitie:

Soms zullen we andere parameters schatten (bvμenσ∈eennormale variabele) De parameter die we schatten zullen we dus altijd θ noemen, om deze te vinden berekenen

we steeds de steekproefgrootheid In het algemeen noemen we deze een schatter = S die dus een steekproefverdeling hebben. Schatter is een toevalsvariabele, we weten nooit wat zijn waarde zal zijn. schattING is een waarde van de schattER in een bepaalde steekproef

Eigenschappen goede schatter:

De schatter zal dus zelden een perfecte schatting geven , soms zal deze te groot zijn, soms zal deze te klein zijn maar we willen wel dat ze gelijk is aan de parameter

We proberen de afwijking zo klein mogelijk te houden.

Grootste aannemelijke methode

willen we θ van een bepaalde kansverdeling schatten dan moeten we over schatter S beschikken

om de schatter te vinden gebruiken we de grootste aannemelijke methode.

Zie pagina 195 en 196 voor een voorbeeld! (belangrijk)

47

Enkele Schatters

De verwachting

Variantie = is niet nuttig ( S² ) daarom gebruiken we deze formule

Proportie

Correlatiecoëfficiënt

De grootste aannemelijke schatter van de correlatiecoëfficiënt is Pxy is de overeenkomende correlatiecoëfficiënt in de steekproef.

48

VPPK — Vlaamse Psychologische en Pedagogische Kring · Web viewis een eigenschap die bij de...

Documents

Transcript of VPPK — Vlaamse Psychologische en Pedagogische Kring · Web viewis een eigenschap die bij de...