M. Carmen Carollo Limeres Profesora Titular de la USC ... · M. Carmen Carollo Limeres Profesora...

Post on 19-Oct-2018

215 views 0 download

Transcript of M. Carmen Carollo Limeres Profesora Titular de la USC ... · M. Carmen Carollo Limeres Profesora...

M. Carmen Carollo Limeres Profesora Titular de la USC. Unidad de Bioestadística. Facultad de Medicina mdelcarmen.carollo@usc.es Octubre de 2011

Explorando los datos. ¿Cómo resumir la información de

tipo cuantitativo? Variables cuantitativas

3

Índice

1. Introducción 2. Clasificación de variables 3. Estadística descriptiva

– Frecuencias

– Representaciones gráficas

– Medidas resumen

4. Resumen 5. Software 6. Bibliografía

4

Introducción

1. Introducción

5

1. Introducción

Gran cantidad de datos

Técnicas que permitan organizar y resumir

los datos

Los datos contienen

información

Base de datos “ais”: Los datos corresponden a 102 hombres y a 100 mujeres deportistas colegiados en el Instituto Australiano de Deportes

6

Clasificación de variables

2. Clasificación de variables

7

2. Clasificación de variables

FEGAS

Variables

Cuantitativas

Continuas

-Altura -IMC -Hcto -Hb

Discretas

-Nº de días concentración

Cualitativas

Ordinales

IMC (Cole et al.)

Categóricas

Sexo Tipo deporte,

8

Estadística descriptiva

3. Estadística descriptiva

9

3. Estadística descriptiva

La Estadística descriptiva se ocupa de: clasificar y resumir

la información contenida en los datos a través de técnicas numéricas y técnicas gráficas.

En esta presentación veremos cómo resumir la información relacionada con datos cuantitativos

10

3. Estadística descriptiva

FEGAS

Estadística descriptiva

Distribuciones de frecuencias

Representaciones gráficas

Medidas resumen

11

3. 1 Distribuciones de frecuencias

3. Estadística Descriptiva Frecuencias

Representaciones Gráficas Medidas resumen

12

3. 1 Distribuciones de frecuencias

• Frecuencia Absoluta (ni) : es el número de veces que ocurre cada resultado (xi).

• Frecuencia Relativa (fi ): Es la frecuencia absoluta dividida por el número de observaciones.

• Frecuencia Absoluta Acumulada (Ni ): Es el número

de veces que se ha observado un resultado ≤ xi .

• Frecuencia Relativa Acumulada (Fi): Es la frecuencia absoluta acumulada dividida por el número total de observaciones.

FEGAS

13

3. 1 Distribuciones de frecuencias. Datos discretos

Nº DE DÍAS (Xi)

Frecuencias Absolutas

(ni)

Frecuencias relativas

(fi)

Frecuencias acumuladas Absolutas

(Ni)

Frecuencias acumuladas relativas

(Fi) 20 42 0,21 42 0,21

21 32 0,16 74 0,37

22 29 0,14 103 0,51

23 34 0,17 137 0,68

24 28 0,14 165 0,82

25 37 0,18 202 1,00

202

1,00

FEGAS

14

3. 1 Distribuciones de frecuencias. Datos continuos

© 2010.NETEX

Para datos continuos el resumen anterior es poco práctico. Agrupar los datos en intervalos de clase (representados por la marca de clase) [ )[ )[ )[ )… [ )[ )[ ) Frecuencias = Número de observaciones por intervalo Intervalos: Cuantos más intervalos, más información pero menos manejable.

Cuantos menos intervalos, menos información pero es más manejable.

Número de intervalos a considerar: El entero más próximo a ,n= nº de datos (como máximo 10 intervalos)

n

iX

in

15

3. 1 Distribuciones de frecuencias. Datos continuos

Hcto

Intervalos

Marcas de

Clase (Xi)

Frec. Absolutas

(ni)

Frec. relativas

(fi)

Frec. acumuladas Absolutas

(Ni)

Frec. acumuladas relativas

(Fi) [35-40) 37,5 46 0,228 46 0,228

[40-45) 42,5 88 0,435 134 0,663

[45-50) 47,5 65 0,322 199 0,985

[50-55) 52,5 2 0,010 201 0,995

[55-60) 57,5 1 0,005 202 1,000

202

1,000

FEGAS

16

3.2 Representaciones gráficas

3. Estadística Descriptiva Frecuencias

Representaciones Gráficas Medidas resumen

17

3.2 Representaciones gráficas

Tipo de variable

Cuantitativas

Continuas

Histograma Diagrama de cajas

Discretas

Diagrama de barras

Diagrama de sectores

Cualitativas

Diagrama de barras

Diagrama de

sectores

18

3.2 Representaciones gráficas. Datos discretos

Nº DEDÍAS

Frecuencias absolutas

20 42

21 32

22 29

23 34

24 28

25 37

Nº días concentración

19

3.2 Representaciones gráficas. Datos discretos

Nº DEDÍAS

Frecuencias absolutas

20 42

21 32

22 29

23 34

24 28

25 37

¡Atención! Representación útil sólo si la variable tiene pocos valores

20

3.2 Representaciones gráficas. Datos continuos

FEGAS

Hcto

Hcto

Intervalos

Marcasde

Clase(Xi)

Frec.Absolutas

(ni)

[35-40) 37,5 46

[40-45) 42,5 88

[45-50) 47,5 65

[50-55) 52,5 2

[55-60) 57,5 1

21

3.2 Representaciones gráficas. Datos continuos

Hcto Hcto

22

3.2 Representaciones gráficas. Datos continuos

Primer cuartil: primer valor que acumula el 25 % de las observaciones

Segundo cuartil o mediana: primer valor que acumula el 50 % de las observaciones

Tercer cuartil: primer valor que acumula el 75 % de las observaciones

FEGAS

23

3.2 Representaciones gráficas. Datos continuos

FEGAS

Hcto

Dato atípico

Cuartil 3º

Mediana

Cuartil 1º

Bigotes

24

3.2 Representaciones gráficas. Datos continuos

FEGAS

25

3.2 Representaciones gráficas. Datos continuos por datos categóricos

FEGAS

Hct

o

Hcto por sexo

¿El hematocrito depende del sexo?

26

Representaciones gráficas. Datos continuos por datos continuos

FEGAS

Hcto

Hb

¿Existe alguna relación entre el Hcto y la Hb?

27

3.2 Representaciones gráficas. Datos continuos por datos continuos

FEGAS

Hct

o

IMC

¿Existe alguna relación entre el IMC y el Hcto?

28

Clasificación-Representaciones gráficas

FEGAS

IDEA GLOBAL DE

CONJUNTO

Clasificación de Datos

Distribuciones de frecuencias

Representaciones gráficas

29

3.3 Medidas resumen

3. Estadística Descriptiva Frecuencias

Representaciones Gráficas Medidas resumen

30

3.3 Medidas resumen

Medidas

resumen

Posición Dispersión Forma

FEGAS

31

3.3 Medidas resumen de posición

FEGAS

Tendencia central

• Media

• Mediana

• Moda

Tendencia no central

• Rango

• Cuartiles

• Percentiles

32

3.3 Medidas resumen de posición

• Medidas de posición de tendencia central

FEGAS

Media: Suma de valores dividido entre el nº de datos

Mediana: Primer valor que acumula el 50% de los datos

Moda: Valor/valores que más se repiten

1i

iX X

n= ∑

33

Medidas resumen de posición

Ejemplo: nº de días de concentración 3 3 3 4 5 5 15

Media: (3+3+3+4+5+5+15)/7 = 5,43

• Moda: 3

Mediana: 3 3 3 4 5 5 15

34

Medidas resumen de posición

• Propiedades de la media:

– Es única.

– Sólo tiene sentido para datos numéricos.

– Su valor está comprendido entre el mínimo y el

máximo de los datos.

– Es el “centro de gravedad” de los datos.

– Está afectada por cada valor. Valores extremos

pueden distorsionarla.

FEGAS

35

Medidas descriptivas de posición

• Propiedades de la mediana: • Es única. • Los datos deben ser al menos de tipo ordinal. • Su valor está comprendido entre el mínimo y el máximo

de los datos. • Los valores extremos no tienen efectos importantes

sobre ella.

FEGAS

Ejemplo nº de días de concentración: 3 3 3 4 5 5 15 Media = 5,43 Mediana = 4

36

3.3 Medidas resumen de posición

• Medidas de posición de tendencia no central

FEGAS

Rango: diferencia entre la mayor y la menor de las observaciones

Cuartiles: tres observaciones que dividen el rango en cuatro partes iguales (25%, 50%,75%)

Percentiles: 99 observaciones que dividen el rango en cien partes iguales

37

Medidas resumen de posición

Ejemplo: nº de días de concentración 3 3 3 4 5 5 15

Rango: 15 – 3= 12

Cuartiles: cuartil 1º cuartil 2º cuartil 3º 3 4 5

Percentiles: 10% 25% 50% 90% 3 3 4 15

38

3.3 Medidas resumen de dispersión

• La dispersión de un conjunto de datos se refiere a la variabilidad que muestran.

FEGAS

Rango

Varianza

Coeficiente de variación

Más concentrada

Más dispersa

39

3.3 Medidas resumen de dispersión

• Medidas de dispersión

FEGAS

Varianza:

Coeficiente de variación:

Rango: diferencia entre la mayor y la menor de las observaciones

( )2

2

1

1 k

ii

S X Xn =

= −∑

SCVX

=

CVhombres=0,079 CVmujeres=0,081

40

Medidas resumen de dispersión

Ejemplo: nº de días de concentración 3, 3, 3, 4, 5, 5, 15

Rango: R=15 – 3= 12

Varianza:

Coeficiente de variación: CV= 3,99/5,43 = 0,73

( ) ( ) ( ) ( )

( ) ( ) ( )

2 2 2 22

2 2 2

1 [ 3 5,43 3 5,43 3 5, 43 4 5, 437

5 5,43 5 5,43 15 5,4 5,] 63 1 9

s = − + − + − + − +

+ − + − + − =

41

3.3 Medidas resumen de forma

Medidas de forma

Asimetría Apuntamiento

FEGAS

43

3.3 Medidas resumen de forma. Apuntamiento

FEGAS

Apuntamiento < 0

Apuntamiento = 0

Apuntamiento > 0

El coeficiente de apuntamiento mide el grado de concentración de los datos, en la región central de la distribución, comparado con el de la “distribución normal”. 4

4 3pmCAs

= −

44

Conclusión

4. Conclusión/Resumen

45

4. Conclusión

• Es imprescindible organizar y resumir los datos de forma correcta:

Identificar el tipo de dato ¿Es cualitativo? ¿Es cuantitativo?

Utilizar la técnica adecuada de Estadística descriptiva

Interpretar correctamente los resultados

46

5. Software

Software

47

5. Software

© 2010.NETEX

• Epidat 4.0:

• Excel:

http://www.sergas.es/MostrarContidos_N3_T01.aspx?IdPaxina=62713

• R:

http://www.r-project.org/

• SPSS:

48

Bibliografía

6. Referencias/Bibliografía

49

6. Bibliografía

• Álvarez Cáceres, R. (2007) “Estadística Aplicada a las Ciencias de la Salud”. Editorial Diaz de Santos.

• Daniel, W.W. (2006) “Bioestadística. Base para el análisis de las ciencias de la salud”. (2ª ed). Editorial LIMUSA.Wiley.

• Douglas G. Altman (1997) “Practical Statistics for Medical Research”. Ed. Chapman & Hall.

• Martín Andrés, A.; Luna del Castillo, J. (1994) “Bioestadística para las ciencias de la salud”. (4ª ed). Ediciones Norma.

• Martínez González, M.A, Almudena Sánchez y Javier Faulin. (2006). “Bioestadística amigable”. 2ª ed. Editorial Diaz de Santos.

• Milton, J.S. (1994) “Estadística para biología y ciencias de la salud”. (2ª ed). Ed. Interamericana, McGraw-Hill.

• Quesada, V. y otros (1982) “Curso de ejercicios de estadística”. (2ª ed). Editorial Alambra.

• Rosner, B. (2000) “Fundamentals of biostatistics”. (5ª ed). Wadsworth Publishing Company. Duxbury Press.

¡¡¡MUCHAS GRACIAS!!!