Uittreksel statistiek

download Uittreksel statistiek

of 15

Transcript of Uittreksel statistiek

Statistiek: Wetenschap die zich bezighoudt met het waarnemen, bestuderen en analyseren van massaverschijnselen Deelgebieden statistiek: 1. Toegepaste/beschrijvende statistiek Heeft tot doel om inzicht te geven hoe het er ergens mee voor staat 2. Statische statistiek Geeft weer wat de stand van zaken is op een bepaald moment 3. Dynamische statistiek Geeft inzicht in ontwikkelingen in een bepaald periode 4. Theoretische of mathematische statistiek Richt zich vooral op kansberekening, is van belang voor wetenschappelijk onderzoek Populatie: De gehele massa die wordt waargenomen Managementrapportage: Combinatie statistiek en boekhouding Interne statistiek: Interne gang van zaken binnen het bedrijf zowel op administratief/financieel als op technisch gebied Externe statistiek: Geeft inzicht in de marktontwikkeling (bijv. bedrijfsvergelijkend onderzoek) Primaire statistiek: Gegevens worden speciaal voor de statistiek verzameld Secundaire statistiek: Gegevens worden samengesteld uit bestaand materiaal Fasen statistisch onderzoek: 1. Voorbereiding en verzameling * waarom * welke gegevens (Juiste hanteerbare definities van begrippen die maar voor 1 uitleg vatbaar zijn) * welk tijdstip/periode * hoe 2. Verwerking, eventueel bewerking 3. Analyse Cut off methode: 20/80 regel Aanname dat de gevonden waarden bij de 80% niet genquteerde bedrijven dezelfde zijn als bij de 20% wel genquteerde bedrijven (Paretoprincipe), de eventuele fout ligt binnen aanvaardbare grenzen Steekproefmethode: Gebaseerd op de eigenschappen van de wet van de grote aantallen Naarmate het aantal waarnemingen groter is worden de eigenschappen van het gemiddelde van de waarnemingen meer bepalen voor de eigenschappen van het geheel Enkelvoudige tabel: tabel met 1 ingang (gegevens naar 1 gezichtspunt) Meervoudige tabel: tabel met dubbele ingang Drievoudige tabel: verder uitbreiding Frequentietabel: Geeft weer hoe vaak een gebeurtenis plaatsvindt Eisen waar een tabel moet voldoen: 1. Titel 2. Opschrift boven de kolommen kort en duidelijk 3. Bij veel kolommen nummeren 4. Getallen in de kolommen zo klein mogelijk houden Afrondingsregels: 1. 5 naar boven 2. < 5 naar beneden 3. Gegevens in honderdtallen? decimalen

4.5.

Indien het getal te klein is om in de gegeven afrondingseenheid genoteerd te worden betekent 0 niet nihil maar kleiner dan de halve eenheid waarin het getal wordt uitgedrukt (geen waarneming -) Indien het totaal niet meer overeenkomt met de som van de afgeronde getallen in een voetnoot vermelden: Door afrondingen komt de som van de afgeronde cijfers niet overeen met het werkelijke totaal

Variabele: Andere benaming voor een grootheid die verschillende waarden kan aannemen Continue variabele kan elke waarde aannemen Discrete variabele aantal mogelijke waarnemingsuitkomsten is beperkt

* Onafhankelijk oorzaakvariabele / horizontale-as (x-as abscis) * Afhankelijk gevolgvariabele / verticale-as (y-as ordinaat) Grafiek: Grafische voorstelling of een tekening die voor het oog duidelijk moet maken hoe de afhankelijkheid tussen 2 verschijnselen in feite ligt m.b.v. assenstelsel / cordinatenstelsel * 4 kwadranten met nummering (Romeinse cijfers) tegen de klok in * kruispunt van de assen = 0 oorsprong zo vierkant mogelijk of hoogte is maximaal 1,5x de breedte of omgekeerd scheurlijn: wegscheuren van het gedeelte dat toch leeg is Staafdiagram: Wordt gebruikt als de nadruk ligt op de verhouding tussen de verschillende periodes, lengte van de staaf is bepalend Vat de uitkomsten op een discrete variabele samen Histogram (kolommendiagram): Oppervlakte van de kolom is bepalend Vat de uitkomsten van een continue variabele samen Voorwaarden / regels grafieken en diagrammen: Duidelijk leesbaar Titel niet te veel gegevens in 1 grafiek Opschriften, bijschriften en schaalverdelingen beknopt en duidelijk

Diagrammen rechthoekig cordinatenstelsel Schaalverdeling aangeven, deelstreepjes, ronde bedragen Bij onbekende gegevens, grenzen van het hiaat verbinden d.m.v. stippellijn Indien x-as niet bij oorsprong begint tenminste cm rechts van de y-as beginnen (bij getallen scheurlijn gebruiken) Grafiek moet het papier vullen Punten van een lijndiagram en de kern van de staven van een als volgt plaatsen: * periode grootheid boven het midden * moment grootheid boven het moment * cumulatieve curve (absoluut of relatief) aan het einde van de klasse 2 of meer lijnen onderscheid in wijze van tekenen/ gebruik van kleuren, aangeven in legenda Dubbele schaalverdeling: 2 gegevens in 1 grafiekGemiddelde van de 2 reeksen getallen moet op dezelfde hoogte liggen (verhouding blijft gehandhaafd = schommelwijdte) Bij stapeldiagram arceringen/kleuren van onder naar boven steeds lichter

Meervoudig staafdiagram: Samengesteld diagram toelichten van de samenstelling van een verschijnsel Aantal verschijnselen maximaal 5

Samengesteld staafdiagram, kolommen naast elkaar Stapeldiagram, gegevens zij gestapeld Procentueel stapeldiagram, alle staven 100% Gestapeld lijndiagram, vooral bij groot aantal waarnemingen

Liggend staafdiagram: Waarde van de grootheden wordt op de horizontale as afgezet, bijv. bevolkingspiramide Z-diagram: Verschillende grootheden worden tegelijk weergegeven: 1. Maandomzetten 2. Cumulatieve maandomzetten 3. Voortschrijdende jaartotalen Alle waarden worden aan het eind van de maand geplaatst

Groot bezwaar: in 1 grafiek worden de maangegevens en de jaartotalen op dezelfde schaalverdeling uitgezet schommelingen in de maandomzetten komen niet of onvoldoende tot hun recht

Vlakdiagram:

Wordt gebruikt om de ontwikkeling van waarden weer te geven die gevonden zijn uit de vermenigvuldiging van 2 grootheden De oppervlakte van de rechthoek vormt de waarde van de omzet Niet geschikt om de ontwikkeling van een verschijnsel weer te geven, geeft een redelijk beeld over de (zich wijzigende) samenstelling van een verschijnsel

Cirkeldiagram: Is ook een vlakdiagram Goed bruikbaar om de samengestelde onderdelen van een geheel weer te geven Niet geschikt om de ontwikkeling van een verschijnsel weer te geven, geeft een redelijk beeld over de (zich wijzigende) samenstelling van een verschijnsel Blokdiagram: Statistische cijfers worden voorgesteld door een rechthoekig blok Wordt vooral gebruikt door vermenigvuldiging van 3 grootheden Niet geschikt om de ontwikkeling van een verschijnsel weer te geven, geeft een redelijk beeld over de (zich wijzigende) samenstelling van een verschijnsel Cartogram: Landkaart waarop de verspreiding van een bepaald verschijnsel over het land is aangegeven Stroomdiagram: Wordt gebruikt om de weg die een goederenstroom of geldstroom aflegt uit te beelden Stereogram: Beeldstatistiek Geen figuren maar voorwerpen, lichamen met 3 dimensies

Isotypen Internationaal algemeen aanvaarde symbolen voor beeldstatistiek

Frequentieverdeling: (frequentietafel / frequentietabel / frequentiedistributie) Frequentie: aantal waarnemingen van een bepaalde uitkomst Bij discrete variabele weergeven d.m.v. staafdiagram Bij continue variabele onbeperkt aantal uitkomsten beperken door samen te voegen tot 1 klasse Klassebreedte: het verschil tussen de laagste waarde die in de klasse zou kunnen voorkomen en de laagste waarde die in de daarop volgende klasse zou kunnen voorkomen klassebreedte kiezen die gelijk is aan 1/10 deel van de variatiebreedte, uitkomst afronden tot een rond getal, opletten: discrete of continue variabelen? Modale klasse = klasse waarin de top valt, hoogste frequentie Variatiebreedte: het verschil tussen de hoogste en de laagste waarneming die in een populatie voorkomt Klasse = onafhankelijke variabele x-as Frequentie = afhankelijke variabele y-as Continue variabelen verdeling weergeven in een histogram of lijndiagram (= frequentiepolygoon) Afwerken frequentietabel: * Titel * Kolommen onderscheiden door verticale lijnen * Kolommen nummeren * Omschrijvingen boven de kolommen worden door horizontale lijnen gescheiden * bij cumulatieve cijfers wordt de klasseaanduiding aangepast, de 1e klasse is de klasse tot de ondergrens van de onderste klasse

Vorm frequentieverdeling (histogram of frequentiepolygoon): 1. Symmetrische verdeling, vloeiende symmetrische curve Ontstaat vaak bij een homogene populatie, massa verschijnselen van dezelfde soort 2. Asymmetrische (scheve) verdeling, bijv. besteedbare inkomens 3. Bij niet homogene populatie meertoppigheid multimodaliteit bimodaliteit tweetoppigheid Populatie splitsen in homogene groepen, elke groep afzonderlijk bestuderen Relatieve frequentie: Het vergelijken van ontwikkelingen van deelverschijnselen in de tijd

= absolute frequentie uitgedrukt in procenten van het totaal aantal waarnemingen Indien bij afronding totaal niet op 100% uitkomt hoogst relatieve frequentie aanpassen

Frequentiedichtheid: Bij frequentieverdeling met ongelijke klassenbreedten

Frequentie per eenheid klassebreedte Gekozen klassebreedte is vaak de kleinst voorkomende Modale klasse is de klasse met de grootste frequentiedichtheid Hoogte van de kolommen wordt bepaald door de frequentiedichtheid de oppervlakte van de kolommen i maatgevend voor de absolute frequentie van een klasse

Cumulatief: De nieuwe waarde opgeteld bij het totaal van de vorige waarden Cumulatieve grafieken geven inzicht in de groei en ontwikkeling van verschijnselen Centrale tendentie: Karakteriseert een massa gegevens met behulp van 1 getal Gemiddelden * Rekenkundig Gemiddelde * Harmonisch Gemiddelde * Kwadratisch Gemiddelde * Meetkundig Gemiddelde * Voortschrijdend Gemiddelde Modus of modale klasse Mediaan Kwantielen * Kwartiel * Deciel * Percentiel Rekenkundig gemiddelde (RG): 1. Ongewogen rekenkundig gemiddelde: De som van een aantal waarden gedeeld door hun aantal (Alle koersen worden als even belangrijk beschouwd) 2. Gewogen rekenkundig gemiddelde: De som van een aantal waarden, ieder vermenigvuldigd met haar wegingscofficint, gedeeld door de som van de wegingscofficinten (Wegingscofficint bepaalt hoe zwaar de koers wordt meegewogen, bij frequentieverdeling aanname dat alle waarnemingen gelijkmatig binnen de klassen zijn verdeeld) Nadeel van RG is dat extreme waarden t grote invloed hebben Mediaan (Me): Het kengetal dat aangeeft waar het 50% punt zich bevindt, de waarde van de middelste waarneming Rangnummer (Rm): Het nummeren van de waarnemingen bij een groot aantal naar grootte gerangschikte waarnemingen Modus (Mo): De waarde die het meest voorkomt Bij frequentieverdeling, het midden van de modale klasse, bij ongelijke klassebreedte uitgaan van de frequentiedichtheid Interpoleren: Het bepalen van de waarde binnen de klasse Opmerkingen:

Bij een symmetrische verdeling vallen het rekenkundig gemiddelde, de modus en de mediaan samen RG < Mo verdeling is scheef naar links (de staart ligt naar links) RG > Mo verdeling is scheef naar rechts (de staart ligt naar rechts)

Voortschrijdend jaartotaal: De steeds 1 maand verschuivende jaartotalen Eerste kwartiel (Q1): Derde kwartiel (Q3): 25% punt 75% punt Eerste en derde kwartiel samen met de mediaan geven een goed inzicht in de opbouw van een populatie Deciel (D1 t/m D9): 10% t/m 90% punt Percentiel (P1 t/m P99): Verdeling naar willekeurige percentages

Kwartielsafstand: =Q3 - Q1 ligt 50% van alle waarnemingen Als centrale tendentie fungeert een daarvan afgeleid begrip: Halve Kwartielsafstand (KS of HS) Gemiddelde absolute afwijking: De som van de absolute verschillen van de individuele waarnemingen en het rekenkundig gemiddelde, gedeeld door heet aantal waarnemingen Variantie (VAR)en standaarddeviatie: De variantie is het gemiddelde van de kwadratische afwijkingen t.o.v. het rekenkundig gemiddelde Variantie wordt gebruikt om de invloed van vooral de extreme afwijkingen sterker tot uitdrukking te laten komen

Standaarddeviatie is de wortel uit de variantie, dit om e.e.a. weer in de juiste orde van grootte te brengen

Kengetal: Cijfer dat de verhouding uitdrukt tussen 2 grootheden op hetzelfde moment of in dezelfde periode

Kengetallen die als norm voor een branche of bedrijfstak gaan dienen standaardkengetallen

Percentage: Maatstaf geschikt om een deel met een geheel te vergelijken Promillage: Wordt toegepast als het percentage te klein wordt, = %/10 Perunage: Drukt cijfers uit per un, per stuk / = %/100 Consumentenprijsindex (CPI): Geeft de prijsontwikkeling weer van goederen en diensten die huishoudens aanschaffen voor consumptie Belangrijke maatstaf voor inflatie, inflatie wordt gemeten als de stijging van de CPI in een bepaalde periode van dezelfde periode van het voorgaande jaar Basisjaar is 1995 Niet alle uitgaven tellen mee, bijv. inkomstenbelasting, sociale premies Basisverlegging: CBS past de samenstelling van het pakket goederen en diensten regelmatig aan Indexcijfers: Doel is om ontwikkelingen simpel weer te geven en situaties te vereenvoudigen Wordt toegepast wanneer men de ontwikkeling van een bepaald verschijnsel in de tijd wil volgen Verhoudingscijfer dat weergeeft hoe een getal zich verhoudt tot een basisgegeven van 100

Verhoudingsgetal waarbij de waarde van een verschijnsel in een bepaalde periode uitgedrukt wordt t.o.v. de waarde van hetzelfde verschijnsel in een andere periode, de basisperiode (niet te ver in het verleden, 5-10 jaar, in een normale periode) Als indexcijfers hoog oplopen kiest me er meestal voor om de basisperiode te verleggen Koppelen van reeksen houdt in dat men de basis verder terug in de tijd legt en de oude reeks voortzet aan de hand van de indexcijfers van de nieuwe reeks waarde nieuwe reeks/100 x waarde basis nieuwe reeks in de oude reeks

Enkelvoudige (partile) indexcijfers: Om ontwikkelingen in een bedrijf zichtbaar te maken gebruikt men indexcijfers van de prijs, hoeveelheid en waarde Partieel duidt aan dat het indexcijfer een deel vormt van een groter geheel, het samengesteld indexcijfer Relatie tussen enkelvoudige indexcijfers wordt aangeduid als factorwisselingstoets, factortest of driehoeksrelatie Samengestelde indexcijfers:

Eenvoudigste methode: prijsindexcijfers optellen en delen door 3 SOPI, SOHI en SOWI wordt in de praktijk zelden gebruikt Gewogen indexcijfer gaat altijd uit van de waarde van de verschillende producten Berekenen via de methode van Laspeyres

Defleren:

Het corrigeren van een economische grootheid voor de invloed van de opgetreden prijsstijging Omzetgegevens van het lopende jaar in prijzen van het basisjaar zij gedefleerde cijfers

Refleren: Als er omzetgegevens van het lopende jaar in prijzen van het basisjaar gegeven zijn en er moet een waarde index berekent worden

Prijsontwikkeling aan gegevens toevoegen

Tijdreeks: Aantal waarnemingen over een langere tijd

Indien de cijfers betrekking hebben op het verleden historische reeks Wordt opgesteld om ontwikkelingen in markten en prijzen te kunnen begrijpen en analyseren Soms kan er m.b.v. de gegevens een voorspelling worden gemaakt over de toekomst prognose Bij het analyseren van de cijfers in een historische reeks wordt een model gehanteerd, de uiteindelijke waarneming is het gevolg van de som van invloeden samenstellende delen ofwel componenten Opsplitsen naar componenten is: * handig om het verleden te verklaren * hulpmiddel bij het maken van de prognose (ontwikkeling van elke individuele component)

Trendcomponent: Geeft weer wat de algemene ontwikkeling is over een langere periode

Om de trend in een historische reeks te benoemen berekenen van het voortschrijdend gemiddelde (VG) van een serie waarnemingen bijv. kwartaalomzet voortschrijdend 4 kwart-totaal optellen naar voortschrijdend 8 kwart-totaal delen door 8: VG Als gevolg van seizoensinvloeden zal kwartaal 1 structureel een hogere of lager omzet kennen VG in het midden van het 3e kwartaal, zowel kwartaal 1 van jaar 1 als van jaar 2 wordt meegewogen Bij een oneven aantal periodes uitkomsten optellen en delen door het aantal Trendbreuk (structuurwijziging): indien de voortdurende stijging/daling zich ineens naar een ander niveau verplaatst, hierna zet de trend zich weer voort

Conjunctuur: 1 van de weergaven van de ontwikkeling van het nationale inkomen in de tijd Hoogconjunctuur = overbesteding Laagconjunctuur = onderbesteding Aanname dat de conjunctuurbeweging 7 jaren beslaat, wel cijfers van 30 jaar nodig om een patroon te ontdekken Seizoensbeweging: De beweging die binnen ieder jaar een soortgelijk gedrag vertoont Seizoenspatroon speelt om de trend heen

Incidentele invloeden: Het gevolg van een incidentele gebeurtenis die niet seizoensmatig, conjunctuur- of trendgebonden is Onvoorspelbaar Restcomponent: Ook storingscomponent genoemd In iedere tijdreeks zit een toevallige afwijking, niet het gevolg van bepaalde oorzaken Additieve methode: Seizoenscomponent blijft gelijk, ongeacht de trendontwikkeling Seizoensinvloed mag bij de trend worden opgeteld (to add) Variatiebreedte blijft vrijwel gelijk Multiplicatieve methode: De grootte van de seizoenswisselingen verandert met de trend mee Seizoensinvloed kan worden bepaald door de trendwaarde met een index te vermenigvuldigen (multiply)

Variatiebreedte neemt over de jaren zichtbaar toe of af

Kleinste relatieve fout: Correctie na afronden: correctie/seizoenscijfer x 100% Werkloosheidscijfers:

Worden gecorrigeerd voor seizoensinvloeden m.b.v. een indexcijfer terugrekenen naar 100

Regels voor het opstellen van tabellen en grafieken: Punten van de lijnen boven het midden van de periode plaatsen (periodegrootheden) Kwartalen aanduiden met Romeinse cijfers

In de 1e kolom tussen de overgang van de jaren horizontale lijnen plaatsen, jaaraanduiding wordt tussen kwartaal II en III geplaatst Voortschrijdend vierkwartstotaal staat steeds een halve regel onder het 2e kwartaal

Multiplicatieve seizoensindices afronden op helen Werkelijke waarden worden aangegeven met een doorgetrokken lijn Berekende trendwaarde aangeduid met een stippellijn Prognose wordt aangeduid met punt streep puntlijn

Lineair extrapoleren: Rechtsreeks doortrekken van de trend * Doortrekken d.m.v. grafiek * Gemiddelde waarde bij de trend uit een kwartaal op te tellen Regressieanalyse: Statistische techniek die inzicht geeft in het verband tussen oorzaak en gevolg Correlatie: Samenhang tussen 1 of meer verschijnselen

Onderzoek alleen zinvol als er een logisch verband is tussen oorzaak en gevolg causaal verband Wel een verband maar niet causaal? nonsens-correlatie

Causaal verband: De verandering in de ene variabele heeft een verandering in de andere variabele tot gevolg

Bijv. rente gemiddelde hypotheek / prijs product verkoop Positief verband toename van de oorzaakvariabele leidt tot een toename van de gevolgvariabele (bijv. productie kosten) Negatief verband toename van de oorzaakvariabele leidt tot lagere waarde van de gevolgvariabele (bijv. rente hypotheek) Sterk verband oorzaak en gevolg hangen precies samen (bijv. productie van 40% leidt altijd tot een kostentoename van exact 25%) Zwak verband oorzaak en gevolg hangen een beetje samen (bijv. productie van 40% leidt tot een kostentoename van tussen de 10% en 25%) Berekenen d.m.v. regressieanalyse correlatiecofficint (r) = maatstaf voor de correlatie Positieve correlatie: 0