Pedro López Roldán - UAB Barcelona · Titulació Curs Assign1 Assign2 Assign3 1 1 AP EX S...

26
à Anàlisi de dades amb St ti ti l P d t d S i S l ti Statistical Product and Service Solutions Pedro López Roldán Departament de Sociologia ó Departament de Sociologia Identificació de les dades

Transcript of Pedro López Roldán - UAB Barcelona · Titulació Curs Assign1 Assign2 Assign3 1 1 AP EX S...

Page 1: Pedro López Roldán - UAB Barcelona · Titulació Curs Assign1 Assign2 Assign3 1 1 AP EX S Estudiant 2 Titulació Curs Assign4 Assign5 Assign6 2 2 AP NT AP ... Microsoft PowerPoint

àAnàlisi de dades ambSt ti ti l P d t d S i S l tiStatistical Product and Service Solutions

Pedro López RoldánDepartament de Sociologia

ó

Departament de Sociologia

Identificació de les dades

Page 2: Pedro López Roldán - UAB Barcelona · Titulació Curs Assign1 Assign2 Assign3 1 1 AP EX S Estudiant 2 Titulació Curs Assign4 Assign5 Assign6 2 2 AP NT AP ... Microsoft PowerPoint

Identificació de les dadesIdentificació de les dadesIntroduir, Obrir o Importar les dades

Registre de la informació a l’editor de datosD t E t Data Entry

Lectura d’un fitxer externSense format ASCII (Lectura dades): DAT TXT Sense format –ASCII – (Lectura dades): DAT,TXT Leer datos de texto GET DATA Comandament DATA LIST

Amb format (Importar dades): DBF,XLS,SLK,*W*, SAS,SYD,ODBC,SQL

(SYS O SA ) GET FILE

GET DATAGET TRANSLATE

(SYS, POR, SAV) GET FILE

Dades incloses al programa d’instruccions BEGIN DATA / END DATA

GET TRANSLATEGET SASGET CAPTURE

BEGIN DATA / END DATA Es poden editar diverses matrius. “Conjunto de datos activo”

Page 3: Pedro López Roldán - UAB Barcelona · Titulació Curs Assign1 Assign2 Assign3 1 1 AP EX S Estudiant 2 Titulació Curs Assign4 Assign5 Assign6 2 2 AP NT AP ... Microsoft PowerPoint

Identificació de les dadesIdentificació de les dadesIntroducció de les dades

Editor del

Editor de dades. Pestanya de “Vista de datos”Editor del contingut de les caselles

Etiquetes dels valors

Inserir cas o variable

Informació variables

Recuperar quadres de diàleg

Número de

Casella activa, posició del cursor

cas i nom de la variable

cursor

Barra d’estat amb informació del processador i de l’arxiu de dades

Page 4: Pedro López Roldán - UAB Barcelona · Titulació Curs Assign1 Assign2 Assign3 1 1 AP EX S Estudiant 2 Titulació Curs Assign4 Assign5 Assign6 2 2 AP NT AP ... Microsoft PowerPoint

Identificació de les dadesIdentificació de les dadesDiccionari de les dades

Nom de la variable (RENAME VARIABLES)Ti d i bl (FORMATS / PRINT FORMATS) Tipus de variable (FORMATS / PRINT FORMATS)

(NUMERIC / STRING) Etiqueta de la variable VARIABLE LABELS Etiqueta de la variable VARIABLE LABELS Etiquetes dels valors VALUE LABELS

Afegir etiquetes dels valors (ADD VALUE LABELS)g q ( ) Definició de valors perduts MISSING VALUES Nivell de mesura VARIABLE LEVEL

A l d d l VARIABLE WIDTH Amplada de columna VARIABLE WIDTH Alineació VARIABLE ALIGNMENT Visualitzar el diccionari de les dades DISPLAY Visualitzar el diccionari de les dades DISPLAY

Page 5: Pedro López Roldán - UAB Barcelona · Titulació Curs Assign1 Assign2 Assign3 1 1 AP EX S Estudiant 2 Titulació Curs Assign4 Assign5 Assign6 2 2 AP NT AP ... Microsoft PowerPoint

Identificació de les dadesIdentificació de les dadesDiccionari de les dades

Editor de dades. Pestanya de “Vista de variables”Editor de dades. Pestanya de Vista de variables

Nom de la variable

Tipus de format

Amplada o dígits de la a iable

Nombre de decimals

Etiqueta de la variable

Etiqueta dels valors de la

Valors perduts de

Amplada columna Vista de

Alineació Vista de Datos

Nivell de mesuravariable format variable decimals variable l’usuari Datos Datos mesura

Page 6: Pedro López Roldán - UAB Barcelona · Titulació Curs Assign1 Assign2 Assign3 1 1 AP EX S Estudiant 2 Titulació Curs Assign4 Assign5 Assign6 2 2 AP NT AP ... Microsoft PowerPoint

Identificació de les dadesIdentificació de les dadesDiccionari de les dades

Definició del tipus de variable

Etiquetes dels valorsEtiquetes dels valors

Page 7: Pedro López Roldán - UAB Barcelona · Titulació Curs Assign1 Assign2 Assign3 1 1 AP EX S Estudiant 2 Titulació Curs Assign4 Assign5 Assign6 2 2 AP NT AP ... Microsoft PowerPoint

Identificació de les dadesIdentificació de les dadesDiccionari de les dades

Definició dels valors perduts

Definició del nivell de mesura Nominal

Ordinal

Escala

Page 8: Pedro López Roldán - UAB Barcelona · Titulació Curs Assign1 Assign2 Assign3 1 1 AP EX S Estudiant 2 Titulació Curs Assign4 Assign5 Assign6 2 2 AP NT AP ... Microsoft PowerPoint

Identificació de les dadesIdentificació de les dadesDiccionari de les dades: valors perduts

L’absència de valors (Valors perduts). És habitual que ens trobem en lasituació de no disposar d’informació d’alguns casos o individus ensituació de no disposar d informació d alguns casos o individus enrelació a una o més variables. El sistema necessita, no obstant,identificar igualment aquestes situacions amb un valor determinat.Aquests valors s’anomenen valors perduts (missing values). N’hi ha dedos tipus:dos tipus:

Valors perduts de l’usuari. Són els valors que impliquen una manca d’informació (per exemple, els “no sap”, “no contesta” o “no pertinent”) que es codifiquen amb un valor determinat (per exemple, 8, 9 i 0), i es declaren per l’usuari com a perduts en la identificació de les variablesdeclaren per l usuari com a perduts en la identificació de les variables per tal de tractar-los de forma diferenciada i que, per defecte, no formin part dels càlculs.

Valors perduts del sistema. Es corresponen amb també la manca ó ò à

p pd’informació, però es generen automàticament pel programari quan troben una casella en blanc a la matriu de dades, o bé quan generem una nova variable i no s’assigna un valor determinat a un o més casos. Els valors perduts es visualitzen a l’editor amb un punt (“.”) i a les p p ( )taules apareixen amb l’etiqueta “Perdidos Sistema”.

Page 9: Pedro López Roldán - UAB Barcelona · Titulació Curs Assign1 Assign2 Assign3 1 1 AP EX S Estudiant 2 Titulació Curs Assign4 Assign5 Assign6 2 2 AP NT AP ... Microsoft PowerPoint

Identificació de les dadesIdentificació de les dades1) Lectura d’un fitxer sense format. Assistent

FRE ALL.GET DATA /TYPE = TXT/FILE = 'Datos de empleados.txt'

M úp

/DELCASE = LINE/DELIMITERS = "\t"/ARRANGEMENT = DELIMITED/FIRSTCASE = 2

Menú:

Archivo/IMPORTCASE = ALL/VARIABLES =ID F2.1SEXO A1FECHNAC ADATE10

/Leer datos de texto…

FECHNAC ADATE10EDUC F2.1CATLAB F1.0SALARIO F6.2SALINI F5 2

Obrir el fitxer d’extensió TXT o DAT SALINI F5.2

TIEMPEMP F2.1EXPPREV F3.2MINORÍA F1.0.

CACHE.

TXT o DAT

EXECUTE.

Page 10: Pedro López Roldán - UAB Barcelona · Titulació Curs Assign1 Assign2 Assign3 1 1 AP EX S Estudiant 2 Titulació Curs Assign4 Assign5 Assign6 2 2 AP NT AP ... Microsoft PowerPoint

Identificació de les dadesIdentificació de les dades1) Lectura d’un fitxer sense format. Assistent

Page 11: Pedro López Roldán - UAB Barcelona · Titulació Curs Assign1 Assign2 Assign3 1 1 AP EX S Estudiant 2 Titulació Curs Assign4 Assign5 Assign6 2 2 AP NT AP ... Microsoft PowerPoint

Identificació de les dadesIdentificació de les dades1) Lectura d’un fitxer sense format. Assistent

Page 12: Pedro López Roldán - UAB Barcelona · Titulació Curs Assign1 Assign2 Assign3 1 1 AP EX S Estudiant 2 Titulació Curs Assign4 Assign5 Assign6 2 2 AP NT AP ... Microsoft PowerPoint

Identificació de les dadesIdentificació de les dades1) Lectura d’un fitxer sense format. Assistent

Page 13: Pedro López Roldán - UAB Barcelona · Titulació Curs Assign1 Assign2 Assign3 1 1 AP EX S Estudiant 2 Titulació Curs Assign4 Assign5 Assign6 2 2 AP NT AP ... Microsoft PowerPoint

Identificació de les dadesIdentificació de les dades1) Lectura d’un fitxer sense format. Assistent

Page 14: Pedro López Roldán - UAB Barcelona · Titulació Curs Assign1 Assign2 Assign3 1 1 AP EX S Estudiant 2 Titulació Curs Assign4 Assign5 Assign6 2 2 AP NT AP ... Microsoft PowerPoint

Identificació de les dadesIdentificació de les dades1) Lectura d’un fitxer sense format. Assistent

Page 15: Pedro López Roldán - UAB Barcelona · Titulació Curs Assign1 Assign2 Assign3 1 1 AP EX S Estudiant 2 Titulació Curs Assign4 Assign5 Assign6 2 2 AP NT AP ... Microsoft PowerPoint

Identificació de les dadesIdentificació de les dades1) Lectura d’un fitxer sense format. Assistent

Page 16: Pedro López Roldán - UAB Barcelona · Titulació Curs Assign1 Assign2 Assign3 1 1 AP EX S Estudiant 2 Titulació Curs Assign4 Assign5 Assign6 2 2 AP NT AP ... Microsoft PowerPoint

Identificació de les dadesIdentificació de les dades2) Lectura d’un fitxer sense format. Sintaxi

a) Comandament: DATA LIST Format lliure** 2a) Format lliure.DATA LIST FREE /1 ID * SEXO(a1) FECHNAC EDUC CATLAB SALARIO SALINI

TIEMPEMP EXPPREV MINORÍA

a) Comandament: DATA LIST Format lliure

TIEMPEMP EXPPREV MINORÍA.BEGIN DATA.1 h 1952 15 3 57000 27000 98 144 02 h 1958 16 1 40200 18750 98 36 03 m 1939 12 1 21450 12000 98 381 04 m 1947 8 1 21900 13200 98 190 05 h 1955 15 1 45000 21000 98 138 06 h 1958 15 1 32100 13500 98 67 06 h 1958 15 1 32100 13500 98 67 07 h 1956 15 1 36000 18750 98 114 08 m 1966 12 1 21900 9750 98 0 09 m 1946 15 1 27900 12750 98 115 010 1946 12 1 24000 13500 98 244 010 m 1946 12 1 24000 13500 98 244 0END DATA.LIST /CASES=FROM 1 TO 10.

Page 17: Pedro López Roldán - UAB Barcelona · Titulació Curs Assign1 Assign2 Assign3 1 1 AP EX S Estudiant 2 Titulació Curs Assign4 Assign5 Assign6 2 2 AP NT AP ... Microsoft PowerPoint

Identificació de les dadesIdentificació de les dades2) Lectura d’un fitxer sense format. Sintaxi

b) Comandament: DATA LIST Format lliure** 2b) Format lliure (un cas per registre).DATA LIST LIST (" ") /1 ID * SEXO(A1) FECHNAC EDUC CATLAB SALARIO SALINI

TIEMPEMP EXPPREV MINORÍA

b) Comandament: DATA LIST Format lliure

TIEMPEMP EXPPREV MINORÍA.BEGIN DATA.1 h 1952 15 3 57000 27000 98 144 02 h 1958 16 1 40200 18750 98 36 03 m 1939 12 1 21450 12000 98 381 04 m 1947 8 1 21900 13200 98 190 05 h 1955 15 1 45000 21000 98 138 06 h 1958 15 1 32100 13500 98 67 06 h 1958 15 1 32100 13500 98 67 07 h 1956 15 1 36000 18750 98 114 08 m 1966 12 1 21900 9750 98 0 09 m 1946 15 1 27900 12750 98 115 010 1946 12 1 24000 13500 98 244 010 m 1946 12 1 24000 13500 98 244 0END DATA.LIST /FORMAT=SINGLE.

Page 18: Pedro López Roldán - UAB Barcelona · Titulació Curs Assign1 Assign2 Assign3 1 1 AP EX S Estudiant 2 Titulació Curs Assign4 Assign5 Assign6 2 2 AP NT AP ... Microsoft PowerPoint

Identificació de les dadesIdentificació de les dades2) Lectura d’un fitxer sense format. Sintaxi

c) Comandament: DATA LIST Format fix de columna** 2c) Format fix de columna.DATA LIST /1 ID 1-2 SEXO 3(A) FECHNAC 4-12(ADATE) EDUC 13-14 CATLAB 15

SALARIO 16 20(3) SALINI 21 25(3) TIEMPEMP 26 27 EXPPREV 28 30

c) Comandament: DATA LIST Format fix de columna

SALARIO 16-20(3) SALINI 21-25(3) TIEMPEMP 26-27 EXPPREV 28-30 MINORÍA 31.

BEGIN DATA.1h2/ 3/195215357000270009814402h5/23/1958161402001875098 3603m7/26/193912121450120009838104m4/15/1947 8121900132009819005h2/ 9/195515145000210009813805h2/ 9/195515145000210009813806h8/22/1958151321001350098 6707h4/26/195615136000187509811408m5/ 6/196612121900 975098 009 1/23/194615127900127509811589m1/23/19461512790012750981158

10m2/13/19461212400013500982449END DATA.LIST.

Page 19: Pedro López Roldán - UAB Barcelona · Titulació Curs Assign1 Assign2 Assign3 1 1 AP EX S Estudiant 2 Titulació Curs Assign4 Assign5 Assign6 2 2 AP NT AP ... Microsoft PowerPoint

Identificació de les dadesIdentificació de les dades2) Lectura d’un fitxer sense format. Sintaxi

d) Comandament: VARIABLE LABELS per a completar lad) Comandament: VARIABLE LABELS per a completar la identificació

VAR LAB ID 'Código de empleado'SEXO 'Sexo'FECHNAC 'Fecha de nacimiento'EDUC 'Nivel educativo'CATLAB 'Categoría laboral'SALARIO 'Salario actual'SALINI 'Salario inicial'SALINI Salario inicialTIEMPEMP 'Meses desde el contrato'EXPPREV 'Experiencia previa (meses)'MINORÍA 'Clasificación étnica'.

Page 20: Pedro López Roldán - UAB Barcelona · Titulació Curs Assign1 Assign2 Assign3 1 1 AP EX S Estudiant 2 Titulació Curs Assign4 Assign5 Assign6 2 2 AP NT AP ... Microsoft PowerPoint

Identificació de les dadesIdentificació de les dades2) Lectura d’un fitxer sense format. Sintaxi

e) Comandaments: VALUE LABELS, VARIABLE LEVEL

VAL LAB SEXO 'h' 'Hombre'

e) Comandaments: VALUE LABELS, VARIABLE LEVELMISSING per a completar la

identificació VAL LAB SEXO 'h' 'Hombre'

'm' 'Mujer' /CATLAB 1 'Administrativo'

2 'Seguridad'g3 'Directivo'

/MINORÍA 0 'No'1 'Sí'8 'NS'9 'NC'.

VAR LEVEL ID SEXO MINORÍA (nominal) CATLAB (ordinal)FECHNAC EDUC SALARIO SALINI TIEMPEMP EXPPREV (scale)FECHNAC EDUC SALARIO SALINI TIEMPEMP EXPPREV (scale).

MISSING VAL MINORÍA (8,9).FRE ALL.

Page 21: Pedro López Roldán - UAB Barcelona · Titulació Curs Assign1 Assign2 Assign3 1 1 AP EX S Estudiant 2 Titulació Curs Assign4 Assign5 Assign6 2 2 AP NT AP ... Microsoft PowerPoint

Identificació de les dadesIdentificació de les dades3) Lectura de fitxers complexos

FILE TYPE NESTED per a fitxers niats que contenenFILE TYPE NESTED per a fitxers niats que contenen diversos tipus de registres amb una relació jeràrquica.

A 1998S 1E Estudiant1 60 Nivell 1: A anyE Estudiant2 30S 2E Estudiant1 48

Nivell 2: S semestre

Nivell 3: E estudiantE Estudiant3 24E Estudiant4 36

Nivell 3: E estudiant

Crèdits superats

Page 22: Pedro López Roldán - UAB Barcelona · Titulació Curs Assign1 Assign2 Assign3 1 1 AP EX S Estudiant 2 Titulació Curs Assign4 Assign5 Assign6 2 2 AP NT AP ... Microsoft PowerPoint

Identificació de les dadesIdentificació de les dades3) Lectura de fitxers complexos

FILE TYPE GROUPED per a fitxers agrupats que tenenFILE TYPE GROUPED per a fitxers agrupats que tenen diversos registres per cas, i els registres de cas s’agrupen conjuntament amb un identificador de cas i un codi de registre.

E t di t 1 2 31 C1 4

Estudiant: 1,2,3,... (identificador)

Curs: C1,C2,C3 (codi de registre)

1 C2 21 C3 32 C1 6

Nota2 C2 42 C3 53 C1 73 C2 6

3 C3 8

Page 23: Pedro López Roldán - UAB Barcelona · Titulació Curs Assign1 Assign2 Assign3 1 1 AP EX S Estudiant 2 Titulació Curs Assign4 Assign5 Assign6 2 2 AP NT AP ... Microsoft PowerPoint

Identificació de les dadesIdentificació de les dades3) Lectura de fitxers complexos

FILE TYPE MIXED per a fitxers mixtos en què diferents FILE TYPE MIXED per a fitxers mixtos en què diferents tipus de casos tenen diferents tipus de registres.

Estudiant 1Titulació Curs Assign1 Assign2 Assign31 1 AP EX S

Estudiant 2Titulació Curs Assign4 Assign5 Assign62 2 AP NT AP

Page 24: Pedro López Roldán - UAB Barcelona · Titulació Curs Assign1 Assign2 Assign3 1 1 AP EX S Estudiant 2 Titulació Curs Assign4 Assign5 Assign6 2 2 AP NT AP ... Microsoft PowerPoint

Identificació de les dadesIdentificació de les dades3) Lectura de fitxers complexos

d d f d d d REPEATING DATA per a dades en un fitxer de dades repetides en què el registre conté informació per a diversos casoscasos.

Grup Alumne Nota Alumne Nota Alumne Nota 1 421 AP 422 EX 423 S2 625 NT 616 NT 590 AP3 789 S 824 EX 756 S

Page 25: Pedro López Roldán - UAB Barcelona · Titulació Curs Assign1 Assign2 Assign3 1 1 AP EX S Estudiant 2 Titulació Curs Assign4 Assign5 Assign6 2 2 AP NT AP ... Microsoft PowerPoint

Identificació de les dadesIdentificació de les dadesDesar les dades. Exportació

Menú: Archivo / Guardar (Ctrl+S) Archivo / Guardar como.../ ( ) /

SAVE OUTFILE=file

Desa el fitxer (actiu) de dades amb el format dels sistema SPSS i amb elDesa el fitxer (actiu) de dades amb el format dels sistema SPSS i amb el nom especificat (entre cometes).

XSAVE OUTFILE=file

Desa el fitxer (actiu) de dades amb el format dels sistema SPSS i amb el nom especificat (entre cometes), però no s’executa fins que no es força l l t d l d dla lectura de les dades.

SAVE TRANSLATE /OUTFILE=file

Desa el fitxer (actiu) de dades amb un format diferent dels sistema SPSS i amb el nom especificat (entre cometes).

Page 26: Pedro López Roldán - UAB Barcelona · Titulació Curs Assign1 Assign2 Assign3 1 1 AP EX S Estudiant 2 Titulació Curs Assign4 Assign5 Assign6 2 2 AP NT AP ... Microsoft PowerPoint

Identificació de les dadesIdentificació de les dadesExercici

Qüestionari