Francisco J. Mart n Mateos Jos e L. Ruiz Reina · 2019-05-21 · Rellenar los huecos vac os Media...

54
Preprocesado e ingenier´ ıa de caracter´ ısticas Francisco J. Mart´ ın Mateos Jos´ e L. Ruiz Reina Dpto. Ciencias de la Computaci´ on e Inteligencia Artificial Universidad de Sevilla Razonamiento Asistido por Computador, 2018-2019

Transcript of Francisco J. Mart n Mateos Jos e L. Ruiz Reina · 2019-05-21 · Rellenar los huecos vac os Media...

Page 1: Francisco J. Mart n Mateos Jos e L. Ruiz Reina · 2019-05-21 · Rellenar los huecos vac os Media Mediana Moda. Valores ausentes Eliminaci on de instancias ... Correspondencia num

Preprocesado e ingenierıa de caracterısticas

Francisco J. Martın MateosJose L. Ruiz Reina

Dpto. Ciencias de la Computacion e Inteligencia ArtificialUniversidad de Sevilla

Razonamiento Asistido por Computador, 2018-2019

Page 2: Francisco J. Mart n Mateos Jos e L. Ruiz Reina · 2019-05-21 · Rellenar los huecos vac os Media Mediana Moda. Valores ausentes Eliminaci on de instancias ... Correspondencia num
Page 3: Francisco J. Mart n Mateos Jos e L. Ruiz Reina · 2019-05-21 · Rellenar los huecos vac os Media Mediana Moda. Valores ausentes Eliminaci on de instancias ... Correspondencia num

Parte I

Valores ausentes

Page 4: Francisco J. Mart n Mateos Jos e L. Ruiz Reina · 2019-05-21 · Rellenar los huecos vac os Media Mediana Moda. Valores ausentes Eliminaci on de instancias ... Correspondencia num

Valores ausentes

• Situacion• Errores en la recogida de datos• Imposibilidad de recoger datos

• Ajuste• Eliminacion de instancias• Rellenar los huecos vacıos

• Media• Mediana• Moda

Page 5: Francisco J. Mart n Mateos Jos e L. Ruiz Reina · 2019-05-21 · Rellenar los huecos vac os Media Mediana Moda. Valores ausentes Eliminaci on de instancias ... Correspondencia num

Valores ausentes

• Eliminacion de instancias

Color Precio Talla

rosa 12.60 Lrosa 10.20 XLazul Lazul 12.40rojo 11.20 M

Clase

Tipo ITipo ITipo IITipo IITipo I

Page 6: Francisco J. Mart n Mateos Jos e L. Ruiz Reina · 2019-05-21 · Rellenar los huecos vac os Media Mediana Moda. Valores ausentes Eliminaci on de instancias ... Correspondencia num

Valores ausentes

• Eliminacion de instancias

Color Precio Talla

rosa 12.60 Lrosa 10.20 XLazul Lazul 12.40rojo 11.20 M

Clase

Tipo ITipo ITipo IITipo IITipo I

Page 7: Francisco J. Mart n Mateos Jos e L. Ruiz Reina · 2019-05-21 · Rellenar los huecos vac os Media Mediana Moda. Valores ausentes Eliminaci on de instancias ... Correspondencia num

Valores ausentes

• Rellenar huecos vacıos: Media

Color Precio Talla

rosa 12.60 Lrosa 10.20 XLazul 11.60 Lazul 12.40rojo 11.20 M

Clase

Tipo ITipo ITipo IITipo IITipo I

12,60+10,20+12,40+11,204 = 11,60

Page 8: Francisco J. Mart n Mateos Jos e L. Ruiz Reina · 2019-05-21 · Rellenar los huecos vac os Media Mediana Moda. Valores ausentes Eliminaci on de instancias ... Correspondencia num

Valores ausentes

• Rellenar huecos vacıos: Mediana

Color Precio Talla

rosa 12.60 Lrosa 10.20 XLazul 11.80 Lazul 12.40rojo 11.20 M

Clase

Tipo ITipo ITipo IITipo IITipo I

10,20 < 11,20 < 12,40 < 12,60⇒ 11,80

Page 9: Francisco J. Mart n Mateos Jos e L. Ruiz Reina · 2019-05-21 · Rellenar los huecos vac os Media Mediana Moda. Valores ausentes Eliminaci on de instancias ... Correspondencia num

Valores ausentes

• Rellenar huecos vacıos: Moda

Color Precio Talla

rosa 12.60 Lrosa 10.20 XLazul Lazul 12.40 Lrojo 11.20 M

Clase

Tipo ITipo ITipo IITipo IITipo I

Page 10: Francisco J. Mart n Mateos Jos e L. Ruiz Reina · 2019-05-21 · Rellenar los huecos vac os Media Mediana Moda. Valores ausentes Eliminaci on de instancias ... Correspondencia num

Parte II

Datos categoricos

Page 11: Francisco J. Mart n Mateos Jos e L. Ruiz Reina · 2019-05-21 · Rellenar los huecos vac os Media Mediana Moda. Valores ausentes Eliminaci on de instancias ... Correspondencia num

Datos categoricos

• Situacion• Caracterısticas ordinales (talla)• Caracterısticas nominales (color)

• Ajuste• Correspondencia numerica• Codificacion One-Hot

Page 12: Francisco J. Mart n Mateos Jos e L. Ruiz Reina · 2019-05-21 · Rellenar los huecos vac os Media Mediana Moda. Valores ausentes Eliminaci on de instancias ... Correspondencia num

Datos categoricos

• Correspondencia numerica (caracterıstica ordinal)

Color Precio Talla

rosa 12.60 Lrosa 10.20 XLazul 11.40 Lazul 12.40 Mrojo 11.20 M

Clase

Tipo ITipo ITipo IITipo IITipo I

Page 13: Francisco J. Mart n Mateos Jos e L. Ruiz Reina · 2019-05-21 · Rellenar los huecos vac os Media Mediana Moda. Valores ausentes Eliminaci on de instancias ... Correspondencia num

Datos categoricos

• Correspondencia numerica (caracterıstica ordinal)

Color Precio Talla

rosa 12.60 2rosa 10.20 3azul 11.40 2azul 12.40 1rojo 11.20 1

Clase

Tipo ITipo ITipo IITipo IITipo I

M(1) < L(2) < XL(3)

Page 14: Francisco J. Mart n Mateos Jos e L. Ruiz Reina · 2019-05-21 · Rellenar los huecos vac os Media Mediana Moda. Valores ausentes Eliminaci on de instancias ... Correspondencia num

Datos categoricos

• Correspondencia numerica (valor de clasificacion)

Color Precio Talla

rosa 12.60 Lrosa 10.20 XLazul 11.40 Lazul 12.40 Mrojo 11.20 M

Clase

Tipo ITipo ITipo IITipo IITipo I

Page 15: Francisco J. Mart n Mateos Jos e L. Ruiz Reina · 2019-05-21 · Rellenar los huecos vac os Media Mediana Moda. Valores ausentes Eliminaci on de instancias ... Correspondencia num

Datos categoricos

• Correspondencia numerica (valor de clasificacion)

Color Precio Talla

rosa 12.60 Lrosa 10.20 XLazul 11.40 Lazul 12.40 Mrojo 11.20 M

Clase

11221

Tipo I (1),Tipo II (2)

Page 16: Francisco J. Mart n Mateos Jos e L. Ruiz Reina · 2019-05-21 · Rellenar los huecos vac os Media Mediana Moda. Valores ausentes Eliminaci on de instancias ... Correspondencia num

Datos categoricos

• Correspondencia numerica (caracterıstica nominal)

Color Precio Talla

rosa 12.60 Lrosa 10.20 XLazul 11.40 Lazul 12.40 Mrojo 11.20 M

Clase

Tipo ITipo ITipo IITipo IITipo I

Page 17: Francisco J. Mart n Mateos Jos e L. Ruiz Reina · 2019-05-21 · Rellenar los huecos vac os Media Mediana Moda. Valores ausentes Eliminaci on de instancias ... Correspondencia num

Datos categoricos

• Correspondencia numerica (caracterıstica nominal)

Color Precio Talla

1 12.60 L1 10.20 XL2 11.40 L2 12.40 M3 11.20 M

Clase

Tipo ITipo ITipo IITipo IITipo I

rosa(1), azul(2), rojo(3)Cuidado: Estamos introduciendo un orden artificial

Page 18: Francisco J. Mart n Mateos Jos e L. Ruiz Reina · 2019-05-21 · Rellenar los huecos vac os Media Mediana Moda. Valores ausentes Eliminaci on de instancias ... Correspondencia num

Datos categoricos

• Codificacion One-Hot

Color Precio Talla

rosa 12.60 Lrosa 10.20 XLazul 11.40 Lazul 12.40 Mrojo 11.20 M

Clase

Tipo ITipo ITipo IITipo IITipo I

Page 19: Francisco J. Mart n Mateos Jos e L. Ruiz Reina · 2019-05-21 · Rellenar los huecos vac os Media Mediana Moda. Valores ausentes Eliminaci on de instancias ... Correspondencia num

Datos categoricos

• Codificacion One-Hot

Rosa Azul Rojo Precio Talla

1 0 0 12.60 L1 0 0 10.20 XL0 1 0 11.40 L0 1 0 12.40 M0 0 1 11.20 M

Clase

Tipo ITipo ITipo IITipo IITipo I

Cuidado: Estamos aumentando la dimensionalidad

Page 20: Francisco J. Mart n Mateos Jos e L. Ruiz Reina · 2019-05-21 · Rellenar los huecos vac os Media Mediana Moda. Valores ausentes Eliminaci on de instancias ... Correspondencia num

Parte III

Discretizado

Page 21: Francisco J. Mart n Mateos Jos e L. Ruiz Reina · 2019-05-21 · Rellenar los huecos vac os Media Mediana Moda. Valores ausentes Eliminaci on de instancias ... Correspondencia num

Discretizado

• Situacion• Modelos lineales con datos no lineales

• Ajuste• Discretizado• Codificacion One-Hot

Page 22: Francisco J. Mart n Mateos Jos e L. Ruiz Reina · 2019-05-21 · Rellenar los huecos vac os Media Mediana Moda. Valores ausentes Eliminaci on de instancias ... Correspondencia num

Discretizado

• Datos no lineales

Page 23: Francisco J. Mart n Mateos Jos e L. Ruiz Reina · 2019-05-21 · Rellenar los huecos vac os Media Mediana Moda. Valores ausentes Eliminaci on de instancias ... Correspondencia num

Discretizado

• Modelos lineales

Page 24: Francisco J. Mart n Mateos Jos e L. Ruiz Reina · 2019-05-21 · Rellenar los huecos vac os Media Mediana Moda. Valores ausentes Eliminaci on de instancias ... Correspondencia num

Discretizado

• Discretizado

Page 25: Francisco J. Mart n Mateos Jos e L. Ruiz Reina · 2019-05-21 · Rellenar los huecos vac os Media Mediana Moda. Valores ausentes Eliminaci on de instancias ... Correspondencia num

Discretizado

• Discretizado

Page 26: Francisco J. Mart n Mateos Jos e L. Ruiz Reina · 2019-05-21 · Rellenar los huecos vac os Media Mediana Moda. Valores ausentes Eliminaci on de instancias ... Correspondencia num

Discretizado

• Discretizado y codificacion One-Hot

Page 27: Francisco J. Mart n Mateos Jos e L. Ruiz Reina · 2019-05-21 · Rellenar los huecos vac os Media Mediana Moda. Valores ausentes Eliminaci on de instancias ... Correspondencia num

Discretizado

• Discretizado

Color Precio Talla

rosa 12.60 Lrosa 10.20 XLazul 11.40 Lazul 12.40 Mrojo 11.20 M

Clase

Tipo ITipo ITipo IITipo IITipo I

Page 28: Francisco J. Mart n Mateos Jos e L. Ruiz Reina · 2019-05-21 · Rellenar los huecos vac os Media Mediana Moda. Valores ausentes Eliminaci on de instancias ... Correspondencia num

Discretizado

• Discretizado

Color Precio Talla

rosa 3 Lrosa 1 XLazul 2 Lazul 3 Mrojo 2 M

Clase

Tipo ITipo ITipo IITipo IITipo I

10-11 (1), 11-12 (2), 12-13 (3)

Page 29: Francisco J. Mart n Mateos Jos e L. Ruiz Reina · 2019-05-21 · Rellenar los huecos vac os Media Mediana Moda. Valores ausentes Eliminaci on de instancias ... Correspondencia num

Discretizado

• Discretizado y codificacion One-Hot

Color 10-11 11-12 12-13 Talla

rosa 0 0 1 Lrosa 1 0 0 XLazul 0 1 0 Lazul 0 0 1 Mrojo 0 1 0 M

Clase

Tipo ITipo ITipo IITipo IITipo I

Cuidado: Estamos aumentando la dimensionalidad

Page 30: Francisco J. Mart n Mateos Jos e L. Ruiz Reina · 2019-05-21 · Rellenar los huecos vac os Media Mediana Moda. Valores ausentes Eliminaci on de instancias ... Correspondencia num

Parte IV

Escalado

Page 31: Francisco J. Mart n Mateos Jos e L. Ruiz Reina · 2019-05-21 · Rellenar los huecos vac os Media Mediana Moda. Valores ausentes Eliminaci on de instancias ... Correspondencia num

Escalado

• Situacion• Diferencia de magnitud entre caracterısticas

• Ajuste• Normalizacion• Estandarizacion

Page 32: Francisco J. Mart n Mateos Jos e L. Ruiz Reina · 2019-05-21 · Rellenar los huecos vac os Media Mediana Moda. Valores ausentes Eliminaci on de instancias ... Correspondencia num

Escalado

• Normalizacion

Color Precio Talla

rosa 12.60 2rosa 10.20 3azul 11.40 2azul 12.40 1rojo 11.20 1

Clase

Tipo ITipo ITipo IITipo IITipo I

x(i)norm = x(i)−xmin

xmax−xmin

Page 33: Francisco J. Mart n Mateos Jos e L. Ruiz Reina · 2019-05-21 · Rellenar los huecos vac os Media Mediana Moda. Valores ausentes Eliminaci on de instancias ... Correspondencia num

Escalado

• Normalizacion

Color Precio Talla

rosa 12.60 0.5rosa 10.20 1azul 11.40 0.5azul 12.40 0rojo 11.20 0

Clase

Tipo ITipo ITipo IITipo IITipo I

x(i)norm = x(i)−xmin

xmax−xmin

Page 34: Francisco J. Mart n Mateos Jos e L. Ruiz Reina · 2019-05-21 · Rellenar los huecos vac os Media Mediana Moda. Valores ausentes Eliminaci on de instancias ... Correspondencia num

Escalado

• Estandarizacion

Color Precio Talla

rosa 12.60 2rosa 10.20 3azul 11.40 2azul 12.40 1rojo 11.20 1

Clase

Tipo ITipo ITipo IITipo IITipo I

x(i)norm = x(i)−µx

σx

Page 35: Francisco J. Mart n Mateos Jos e L. Ruiz Reina · 2019-05-21 · Rellenar los huecos vac os Media Mediana Moda. Valores ausentes Eliminaci on de instancias ... Correspondencia num

Escalado

• Estandarizacion

Color Precio Talla

rosa 1.19 2rosa -1.56 3azul -0.18 2azul 0.96 1rojo -0.41 1

Clase

Tipo ITipo ITipo IITipo IITipo I

x(i)norm = x(i)−µx

σx

Page 36: Francisco J. Mart n Mateos Jos e L. Ruiz Reina · 2019-05-21 · Rellenar los huecos vac os Media Mediana Moda. Valores ausentes Eliminaci on de instancias ... Correspondencia num

Parte V

Seleccion de caracterısticas

Page 37: Francisco J. Mart n Mateos Jos e L. Ruiz Reina · 2019-05-21 · Rellenar los huecos vac os Media Mediana Moda. Valores ausentes Eliminaci on de instancias ... Correspondencia num

Seleccion de caracterısticas

• Situacion• Sobreajuste

• Ajuste• Recopilar mas datos• Utilizar un modelo mas simple• Penalizar la complejidad con regularizacion• Reducir la dimensionalidad

• Seleccion de caracterısticas

Page 38: Francisco J. Mart n Mateos Jos e L. Ruiz Reina · 2019-05-21 · Rellenar los huecos vac os Media Mediana Moda. Valores ausentes Eliminaci on de instancias ... Correspondencia num

Seleccion de caracterısticas

• Eliminacion recursiva de caracterısticas• Modelo inicial con n caracterısticas• Para cada caracterıstica

• Eliminar la caracterıstica• Construir un nuevo modelo

• Considerar el modelo reducidoque mejora el rendimiento

• Objetivo final• Reducir hasta dejar m caracterısticas (m < n)• Reducir mientras haya mejora en el rendimiento

Page 39: Francisco J. Mart n Mateos Jos e L. Ruiz Reina · 2019-05-21 · Rellenar los huecos vac os Media Mediana Moda. Valores ausentes Eliminaci on de instancias ... Correspondencia num

Seleccion de caracterısticas

• Seleccion de caracterısticas basada en modelos• Medir la importancia de las caracterısticas

con un modelo de decision• Pesos en modelos lineales con regularizacion L1• Ganancia de informacion en arboles de decision

• Seleccionar las caracterısticas cuyaimportancia supera un lımite

Page 40: Francisco J. Mart n Mateos Jos e L. Ruiz Reina · 2019-05-21 · Rellenar los huecos vac os Media Mediana Moda. Valores ausentes Eliminaci on de instancias ... Correspondencia num

Parte VI

Analisis de componentes principales

(PCA)

Page 41: Francisco J. Mart n Mateos Jos e L. Ruiz Reina · 2019-05-21 · Rellenar los huecos vac os Media Mediana Moda. Valores ausentes Eliminaci on de instancias ... Correspondencia num

Analisis de componentes principales (PCA)

• Situacion• Sobreajuste

• Ajuste• Recopilar mas datos• Penalizar la complejidad con regularizacion• Utilizar un modelo mas simple• Reducir la dimensionalidad

• Extraccion de caracterısticas

Page 42: Francisco J. Mart n Mateos Jos e L. Ruiz Reina · 2019-05-21 · Rellenar los huecos vac os Media Mediana Moda. Valores ausentes Eliminaci on de instancias ... Correspondencia num

Analisis de componentes principales (PCA)

• Un ejemplo

Page 43: Francisco J. Mart n Mateos Jos e L. Ruiz Reina · 2019-05-21 · Rellenar los huecos vac os Media Mediana Moda. Valores ausentes Eliminaci on de instancias ... Correspondencia num

Analisis de componentes principales (PCA)

• Datos originales

Page 44: Francisco J. Mart n Mateos Jos e L. Ruiz Reina · 2019-05-21 · Rellenar los huecos vac os Media Mediana Moda. Valores ausentes Eliminaci on de instancias ... Correspondencia num

Analisis de componentes principales (PCA)

• Componentes principales

Page 45: Francisco J. Mart n Mateos Jos e L. Ruiz Reina · 2019-05-21 · Rellenar los huecos vac os Media Mediana Moda. Valores ausentes Eliminaci on de instancias ... Correspondencia num

Analisis de componentes principales (PCA)

• Datos transformados

Page 46: Francisco J. Mart n Mateos Jos e L. Ruiz Reina · 2019-05-21 · Rellenar los huecos vac os Media Mediana Moda. Valores ausentes Eliminaci on de instancias ... Correspondencia num

Analisis de componentes principales (PCA)

• Covarianza entre doscaracterısticas

σjk =1

n

n∑i=1

(x(i)j −µj)(x

(i)k −µk)

• Mide el grado decorrelacion

• Con caracterısticasestandarizadas,µj = µk = 0

Page 47: Francisco J. Mart n Mateos Jos e L. Ruiz Reina · 2019-05-21 · Rellenar los huecos vac os Media Mediana Moda. Valores ausentes Eliminaci on de instancias ... Correspondencia num

Analisis de componentes principales (PCA)

• Matriz de covarianzas

Σ =

σ2

1 σ12 . . . σ1n

σ21 σ22 . . . σ2n

......

. . ....

σn1 σn2 . . . σ2n

• Los autovectores de esta matriz

son las direcciones de maximavarianza Σv = λv

• Los autovectores son lascomponentes principales

• Los autovalores (λ) representanel grado de variacion

Page 48: Francisco J. Mart n Mateos Jos e L. Ruiz Reina · 2019-05-21 · Rellenar los huecos vac os Media Mediana Moda. Valores ausentes Eliminaci on de instancias ... Correspondencia num

Analisis de componentes principales (PCA)

• Extraccion de caracterısticas• Estandarizar los datos• Construir la matriz de covarianzas• Calcular sus autovalores y autovectores• Seleccionar los mejores autovectores• Transformar los datos originales

• Objetivo• Escoger las k mejores componentes (k < n)• Escoger las componentes con un grado de

variacion (autovalor) por encima de una cota

Page 49: Francisco J. Mart n Mateos Jos e L. Ruiz Reina · 2019-05-21 · Rellenar los huecos vac os Media Mediana Moda. Valores ausentes Eliminaci on de instancias ... Correspondencia num

Parte VII

Preprocesado e ingenierıa de

caracterısticas

Page 50: Francisco J. Mart n Mateos Jos e L. Ruiz Reina · 2019-05-21 · Rellenar los huecos vac os Media Mediana Moda. Valores ausentes Eliminaci on de instancias ... Correspondencia num

Preprocesado e ingenierıa de caracterısticas

• Valores ausentes

• Datos categoricos

• Discretizado

• Escalado

• Seleccion de caracterısticas

• Analisis de componentes principales

Page 51: Francisco J. Mart n Mateos Jos e L. Ruiz Reina · 2019-05-21 · Rellenar los huecos vac os Media Mediana Moda. Valores ausentes Eliminaci on de instancias ... Correspondencia num

Parte VIII

Bibliografıa

Page 52: Francisco J. Mart n Mateos Jos e L. Ruiz Reina · 2019-05-21 · Rellenar los huecos vac os Media Mediana Moda. Valores ausentes Eliminaci on de instancias ... Correspondencia num

Bibliografıa

• Andreas C. Muller y Sarah GuidoIntroduction to Machine Learning with Python (O’Really,2017)• Cap. 3: “Unsupervised Learning and preprocessing”• Cap. 4: “Representing Data and Engineering Features”

• Sebastian RaschkaPython Machine Learning (O’Really, 2017)• Cap. 4: “Building Good Training Sets - Data Preprocessing”• Cap. 5: “Compressing Data via Dimensionality Reduction”

Page 53: Francisco J. Mart n Mateos Jos e L. Ruiz Reina · 2019-05-21 · Rellenar los huecos vac os Media Mediana Moda. Valores ausentes Eliminaci on de instancias ... Correspondencia num

Parte IX

Manipulacion de caracterısticas

Page 54: Francisco J. Mart n Mateos Jos e L. Ruiz Reina · 2019-05-21 · Rellenar los huecos vac os Media Mediana Moda. Valores ausentes Eliminaci on de instancias ... Correspondencia num

Parte X

Reduccion de la dimensionalidad