Francisco J. Mart n Mateos Jos e L. Ruiz Reina · 2019-05-21 · Rellenar los huecos vac os Media...

Post on 25-Jul-2020

1 views 0 download

Transcript of Francisco J. Mart n Mateos Jos e L. Ruiz Reina · 2019-05-21 · Rellenar los huecos vac os Media...

Preprocesado e ingenierıa de caracterısticas

Francisco J. Martın MateosJose L. Ruiz Reina

Dpto. Ciencias de la Computacion e Inteligencia ArtificialUniversidad de Sevilla

Razonamiento Asistido por Computador, 2018-2019

Parte I

Valores ausentes

Valores ausentes

• Situacion• Errores en la recogida de datos• Imposibilidad de recoger datos

• Ajuste• Eliminacion de instancias• Rellenar los huecos vacıos

• Media• Mediana• Moda

Valores ausentes

• Eliminacion de instancias

Color Precio Talla

rosa 12.60 Lrosa 10.20 XLazul Lazul 12.40rojo 11.20 M

Clase

Tipo ITipo ITipo IITipo IITipo I

Valores ausentes

• Eliminacion de instancias

Color Precio Talla

rosa 12.60 Lrosa 10.20 XLazul Lazul 12.40rojo 11.20 M

Clase

Tipo ITipo ITipo IITipo IITipo I

Valores ausentes

• Rellenar huecos vacıos: Media

Color Precio Talla

rosa 12.60 Lrosa 10.20 XLazul 11.60 Lazul 12.40rojo 11.20 M

Clase

Tipo ITipo ITipo IITipo IITipo I

12,60+10,20+12,40+11,204 = 11,60

Valores ausentes

• Rellenar huecos vacıos: Mediana

Color Precio Talla

rosa 12.60 Lrosa 10.20 XLazul 11.80 Lazul 12.40rojo 11.20 M

Clase

Tipo ITipo ITipo IITipo IITipo I

10,20 < 11,20 < 12,40 < 12,60⇒ 11,80

Valores ausentes

• Rellenar huecos vacıos: Moda

Color Precio Talla

rosa 12.60 Lrosa 10.20 XLazul Lazul 12.40 Lrojo 11.20 M

Clase

Tipo ITipo ITipo IITipo IITipo I

Parte II

Datos categoricos

Datos categoricos

• Situacion• Caracterısticas ordinales (talla)• Caracterısticas nominales (color)

• Ajuste• Correspondencia numerica• Codificacion One-Hot

Datos categoricos

• Correspondencia numerica (caracterıstica ordinal)

Color Precio Talla

rosa 12.60 Lrosa 10.20 XLazul 11.40 Lazul 12.40 Mrojo 11.20 M

Clase

Tipo ITipo ITipo IITipo IITipo I

Datos categoricos

• Correspondencia numerica (caracterıstica ordinal)

Color Precio Talla

rosa 12.60 2rosa 10.20 3azul 11.40 2azul 12.40 1rojo 11.20 1

Clase

Tipo ITipo ITipo IITipo IITipo I

M(1) < L(2) < XL(3)

Datos categoricos

• Correspondencia numerica (valor de clasificacion)

Color Precio Talla

rosa 12.60 Lrosa 10.20 XLazul 11.40 Lazul 12.40 Mrojo 11.20 M

Clase

Tipo ITipo ITipo IITipo IITipo I

Datos categoricos

• Correspondencia numerica (valor de clasificacion)

Color Precio Talla

rosa 12.60 Lrosa 10.20 XLazul 11.40 Lazul 12.40 Mrojo 11.20 M

Clase

11221

Tipo I (1),Tipo II (2)

Datos categoricos

• Correspondencia numerica (caracterıstica nominal)

Color Precio Talla

rosa 12.60 Lrosa 10.20 XLazul 11.40 Lazul 12.40 Mrojo 11.20 M

Clase

Tipo ITipo ITipo IITipo IITipo I

Datos categoricos

• Correspondencia numerica (caracterıstica nominal)

Color Precio Talla

1 12.60 L1 10.20 XL2 11.40 L2 12.40 M3 11.20 M

Clase

Tipo ITipo ITipo IITipo IITipo I

rosa(1), azul(2), rojo(3)Cuidado: Estamos introduciendo un orden artificial

Datos categoricos

• Codificacion One-Hot

Color Precio Talla

rosa 12.60 Lrosa 10.20 XLazul 11.40 Lazul 12.40 Mrojo 11.20 M

Clase

Tipo ITipo ITipo IITipo IITipo I

Datos categoricos

• Codificacion One-Hot

Rosa Azul Rojo Precio Talla

1 0 0 12.60 L1 0 0 10.20 XL0 1 0 11.40 L0 1 0 12.40 M0 0 1 11.20 M

Clase

Tipo ITipo ITipo IITipo IITipo I

Cuidado: Estamos aumentando la dimensionalidad

Parte III

Discretizado

Discretizado

• Situacion• Modelos lineales con datos no lineales

• Ajuste• Discretizado• Codificacion One-Hot

Discretizado

• Datos no lineales

Discretizado

• Modelos lineales

Discretizado

• Discretizado

Discretizado

• Discretizado

Discretizado

• Discretizado y codificacion One-Hot

Discretizado

• Discretizado

Color Precio Talla

rosa 12.60 Lrosa 10.20 XLazul 11.40 Lazul 12.40 Mrojo 11.20 M

Clase

Tipo ITipo ITipo IITipo IITipo I

Discretizado

• Discretizado

Color Precio Talla

rosa 3 Lrosa 1 XLazul 2 Lazul 3 Mrojo 2 M

Clase

Tipo ITipo ITipo IITipo IITipo I

10-11 (1), 11-12 (2), 12-13 (3)

Discretizado

• Discretizado y codificacion One-Hot

Color 10-11 11-12 12-13 Talla

rosa 0 0 1 Lrosa 1 0 0 XLazul 0 1 0 Lazul 0 0 1 Mrojo 0 1 0 M

Clase

Tipo ITipo ITipo IITipo IITipo I

Cuidado: Estamos aumentando la dimensionalidad

Parte IV

Escalado

Escalado

• Situacion• Diferencia de magnitud entre caracterısticas

• Ajuste• Normalizacion• Estandarizacion

Escalado

• Normalizacion

Color Precio Talla

rosa 12.60 2rosa 10.20 3azul 11.40 2azul 12.40 1rojo 11.20 1

Clase

Tipo ITipo ITipo IITipo IITipo I

x(i)norm = x(i)−xmin

xmax−xmin

Escalado

• Normalizacion

Color Precio Talla

rosa 12.60 0.5rosa 10.20 1azul 11.40 0.5azul 12.40 0rojo 11.20 0

Clase

Tipo ITipo ITipo IITipo IITipo I

x(i)norm = x(i)−xmin

xmax−xmin

Escalado

• Estandarizacion

Color Precio Talla

rosa 12.60 2rosa 10.20 3azul 11.40 2azul 12.40 1rojo 11.20 1

Clase

Tipo ITipo ITipo IITipo IITipo I

x(i)norm = x(i)−µx

σx

Escalado

• Estandarizacion

Color Precio Talla

rosa 1.19 2rosa -1.56 3azul -0.18 2azul 0.96 1rojo -0.41 1

Clase

Tipo ITipo ITipo IITipo IITipo I

x(i)norm = x(i)−µx

σx

Parte V

Seleccion de caracterısticas

Seleccion de caracterısticas

• Situacion• Sobreajuste

• Ajuste• Recopilar mas datos• Utilizar un modelo mas simple• Penalizar la complejidad con regularizacion• Reducir la dimensionalidad

• Seleccion de caracterısticas

Seleccion de caracterısticas

• Eliminacion recursiva de caracterısticas• Modelo inicial con n caracterısticas• Para cada caracterıstica

• Eliminar la caracterıstica• Construir un nuevo modelo

• Considerar el modelo reducidoque mejora el rendimiento

• Objetivo final• Reducir hasta dejar m caracterısticas (m < n)• Reducir mientras haya mejora en el rendimiento

Seleccion de caracterısticas

• Seleccion de caracterısticas basada en modelos• Medir la importancia de las caracterısticas

con un modelo de decision• Pesos en modelos lineales con regularizacion L1• Ganancia de informacion en arboles de decision

• Seleccionar las caracterısticas cuyaimportancia supera un lımite

Parte VI

Analisis de componentes principales

(PCA)

Analisis de componentes principales (PCA)

• Situacion• Sobreajuste

• Ajuste• Recopilar mas datos• Penalizar la complejidad con regularizacion• Utilizar un modelo mas simple• Reducir la dimensionalidad

• Extraccion de caracterısticas

Analisis de componentes principales (PCA)

• Un ejemplo

Analisis de componentes principales (PCA)

• Datos originales

Analisis de componentes principales (PCA)

• Componentes principales

Analisis de componentes principales (PCA)

• Datos transformados

Analisis de componentes principales (PCA)

• Covarianza entre doscaracterısticas

σjk =1

n

n∑i=1

(x(i)j −µj)(x

(i)k −µk)

• Mide el grado decorrelacion

• Con caracterısticasestandarizadas,µj = µk = 0

Analisis de componentes principales (PCA)

• Matriz de covarianzas

Σ =

σ2

1 σ12 . . . σ1n

σ21 σ22 . . . σ2n

......

. . ....

σn1 σn2 . . . σ2n

• Los autovectores de esta matriz

son las direcciones de maximavarianza Σv = λv

• Los autovectores son lascomponentes principales

• Los autovalores (λ) representanel grado de variacion

Analisis de componentes principales (PCA)

• Extraccion de caracterısticas• Estandarizar los datos• Construir la matriz de covarianzas• Calcular sus autovalores y autovectores• Seleccionar los mejores autovectores• Transformar los datos originales

• Objetivo• Escoger las k mejores componentes (k < n)• Escoger las componentes con un grado de

variacion (autovalor) por encima de una cota

Parte VII

Preprocesado e ingenierıa de

caracterısticas

Preprocesado e ingenierıa de caracterısticas

• Valores ausentes

• Datos categoricos

• Discretizado

• Escalado

• Seleccion de caracterısticas

• Analisis de componentes principales

Parte VIII

Bibliografıa

Bibliografıa

• Andreas C. Muller y Sarah GuidoIntroduction to Machine Learning with Python (O’Really,2017)• Cap. 3: “Unsupervised Learning and preprocessing”• Cap. 4: “Representing Data and Engineering Features”

• Sebastian RaschkaPython Machine Learning (O’Really, 2017)• Cap. 4: “Building Good Training Sets - Data Preprocessing”• Cap. 5: “Compressing Data via Dimensionality Reduction”

Parte IX

Manipulacion de caracterısticas

Parte X

Reduccion de la dimensionalidad