Francisco J. Mart n Mateos Jos e L. Ruiz Reina · 2019-05-21 · Rellenar los huecos vac os Media...
Transcript of Francisco J. Mart n Mateos Jos e L. Ruiz Reina · 2019-05-21 · Rellenar los huecos vac os Media...
Preprocesado e ingenierıa de caracterısticas
Francisco J. Martın MateosJose L. Ruiz Reina
Dpto. Ciencias de la Computacion e Inteligencia ArtificialUniversidad de Sevilla
Razonamiento Asistido por Computador, 2018-2019
Parte I
Valores ausentes
Valores ausentes
• Situacion• Errores en la recogida de datos• Imposibilidad de recoger datos
• Ajuste• Eliminacion de instancias• Rellenar los huecos vacıos
• Media• Mediana• Moda
Valores ausentes
• Eliminacion de instancias
Color Precio Talla
rosa 12.60 Lrosa 10.20 XLazul Lazul 12.40rojo 11.20 M
Clase
Tipo ITipo ITipo IITipo IITipo I
Valores ausentes
• Eliminacion de instancias
Color Precio Talla
rosa 12.60 Lrosa 10.20 XLazul Lazul 12.40rojo 11.20 M
Clase
Tipo ITipo ITipo IITipo IITipo I
Valores ausentes
• Rellenar huecos vacıos: Media
Color Precio Talla
rosa 12.60 Lrosa 10.20 XLazul 11.60 Lazul 12.40rojo 11.20 M
Clase
Tipo ITipo ITipo IITipo IITipo I
12,60+10,20+12,40+11,204 = 11,60
Valores ausentes
• Rellenar huecos vacıos: Mediana
Color Precio Talla
rosa 12.60 Lrosa 10.20 XLazul 11.80 Lazul 12.40rojo 11.20 M
Clase
Tipo ITipo ITipo IITipo IITipo I
10,20 < 11,20 < 12,40 < 12,60⇒ 11,80
Valores ausentes
• Rellenar huecos vacıos: Moda
Color Precio Talla
rosa 12.60 Lrosa 10.20 XLazul Lazul 12.40 Lrojo 11.20 M
Clase
Tipo ITipo ITipo IITipo IITipo I
Parte II
Datos categoricos
Datos categoricos
• Situacion• Caracterısticas ordinales (talla)• Caracterısticas nominales (color)
• Ajuste• Correspondencia numerica• Codificacion One-Hot
Datos categoricos
• Correspondencia numerica (caracterıstica ordinal)
Color Precio Talla
rosa 12.60 Lrosa 10.20 XLazul 11.40 Lazul 12.40 Mrojo 11.20 M
Clase
Tipo ITipo ITipo IITipo IITipo I
Datos categoricos
• Correspondencia numerica (caracterıstica ordinal)
Color Precio Talla
rosa 12.60 2rosa 10.20 3azul 11.40 2azul 12.40 1rojo 11.20 1
Clase
Tipo ITipo ITipo IITipo IITipo I
M(1) < L(2) < XL(3)
Datos categoricos
• Correspondencia numerica (valor de clasificacion)
Color Precio Talla
rosa 12.60 Lrosa 10.20 XLazul 11.40 Lazul 12.40 Mrojo 11.20 M
Clase
Tipo ITipo ITipo IITipo IITipo I
Datos categoricos
• Correspondencia numerica (valor de clasificacion)
Color Precio Talla
rosa 12.60 Lrosa 10.20 XLazul 11.40 Lazul 12.40 Mrojo 11.20 M
Clase
11221
Tipo I (1),Tipo II (2)
Datos categoricos
• Correspondencia numerica (caracterıstica nominal)
Color Precio Talla
rosa 12.60 Lrosa 10.20 XLazul 11.40 Lazul 12.40 Mrojo 11.20 M
Clase
Tipo ITipo ITipo IITipo IITipo I
Datos categoricos
• Correspondencia numerica (caracterıstica nominal)
Color Precio Talla
1 12.60 L1 10.20 XL2 11.40 L2 12.40 M3 11.20 M
Clase
Tipo ITipo ITipo IITipo IITipo I
rosa(1), azul(2), rojo(3)Cuidado: Estamos introduciendo un orden artificial
Datos categoricos
• Codificacion One-Hot
Color Precio Talla
rosa 12.60 Lrosa 10.20 XLazul 11.40 Lazul 12.40 Mrojo 11.20 M
Clase
Tipo ITipo ITipo IITipo IITipo I
Datos categoricos
• Codificacion One-Hot
Rosa Azul Rojo Precio Talla
1 0 0 12.60 L1 0 0 10.20 XL0 1 0 11.40 L0 1 0 12.40 M0 0 1 11.20 M
Clase
Tipo ITipo ITipo IITipo IITipo I
Cuidado: Estamos aumentando la dimensionalidad
Parte III
Discretizado
Discretizado
• Situacion• Modelos lineales con datos no lineales
• Ajuste• Discretizado• Codificacion One-Hot
Discretizado
• Datos no lineales
Discretizado
• Modelos lineales
Discretizado
• Discretizado
Discretizado
• Discretizado
Discretizado
• Discretizado y codificacion One-Hot
Discretizado
• Discretizado
Color Precio Talla
rosa 12.60 Lrosa 10.20 XLazul 11.40 Lazul 12.40 Mrojo 11.20 M
Clase
Tipo ITipo ITipo IITipo IITipo I
Discretizado
• Discretizado
Color Precio Talla
rosa 3 Lrosa 1 XLazul 2 Lazul 3 Mrojo 2 M
Clase
Tipo ITipo ITipo IITipo IITipo I
10-11 (1), 11-12 (2), 12-13 (3)
Discretizado
• Discretizado y codificacion One-Hot
Color 10-11 11-12 12-13 Talla
rosa 0 0 1 Lrosa 1 0 0 XLazul 0 1 0 Lazul 0 0 1 Mrojo 0 1 0 M
Clase
Tipo ITipo ITipo IITipo IITipo I
Cuidado: Estamos aumentando la dimensionalidad
Parte IV
Escalado
Escalado
• Situacion• Diferencia de magnitud entre caracterısticas
• Ajuste• Normalizacion• Estandarizacion
Escalado
• Normalizacion
Color Precio Talla
rosa 12.60 2rosa 10.20 3azul 11.40 2azul 12.40 1rojo 11.20 1
Clase
Tipo ITipo ITipo IITipo IITipo I
x(i)norm = x(i)−xmin
xmax−xmin
Escalado
• Normalizacion
Color Precio Talla
rosa 12.60 0.5rosa 10.20 1azul 11.40 0.5azul 12.40 0rojo 11.20 0
Clase
Tipo ITipo ITipo IITipo IITipo I
x(i)norm = x(i)−xmin
xmax−xmin
Escalado
• Estandarizacion
Color Precio Talla
rosa 12.60 2rosa 10.20 3azul 11.40 2azul 12.40 1rojo 11.20 1
Clase
Tipo ITipo ITipo IITipo IITipo I
x(i)norm = x(i)−µx
σx
Escalado
• Estandarizacion
Color Precio Talla
rosa 1.19 2rosa -1.56 3azul -0.18 2azul 0.96 1rojo -0.41 1
Clase
Tipo ITipo ITipo IITipo IITipo I
x(i)norm = x(i)−µx
σx
Parte V
Seleccion de caracterısticas
Seleccion de caracterısticas
• Situacion• Sobreajuste
• Ajuste• Recopilar mas datos• Utilizar un modelo mas simple• Penalizar la complejidad con regularizacion• Reducir la dimensionalidad
• Seleccion de caracterısticas
Seleccion de caracterısticas
• Eliminacion recursiva de caracterısticas• Modelo inicial con n caracterısticas• Para cada caracterıstica
• Eliminar la caracterıstica• Construir un nuevo modelo
• Considerar el modelo reducidoque mejora el rendimiento
• Objetivo final• Reducir hasta dejar m caracterısticas (m < n)• Reducir mientras haya mejora en el rendimiento
Seleccion de caracterısticas
• Seleccion de caracterısticas basada en modelos• Medir la importancia de las caracterısticas
con un modelo de decision• Pesos en modelos lineales con regularizacion L1• Ganancia de informacion en arboles de decision
• Seleccionar las caracterısticas cuyaimportancia supera un lımite
Parte VI
Analisis de componentes principales
(PCA)
Analisis de componentes principales (PCA)
• Situacion• Sobreajuste
• Ajuste• Recopilar mas datos• Penalizar la complejidad con regularizacion• Utilizar un modelo mas simple• Reducir la dimensionalidad
• Extraccion de caracterısticas
Analisis de componentes principales (PCA)
• Un ejemplo
Analisis de componentes principales (PCA)
• Datos originales
Analisis de componentes principales (PCA)
• Componentes principales
Analisis de componentes principales (PCA)
• Datos transformados
Analisis de componentes principales (PCA)
• Covarianza entre doscaracterısticas
σjk =1
n
n∑i=1
(x(i)j −µj)(x
(i)k −µk)
• Mide el grado decorrelacion
• Con caracterısticasestandarizadas,µj = µk = 0
Analisis de componentes principales (PCA)
• Matriz de covarianzas
Σ =
σ2
1 σ12 . . . σ1n
σ21 σ22 . . . σ2n
......
. . ....
σn1 σn2 . . . σ2n
• Los autovectores de esta matriz
son las direcciones de maximavarianza Σv = λv
• Los autovectores son lascomponentes principales
• Los autovalores (λ) representanel grado de variacion
Analisis de componentes principales (PCA)
• Extraccion de caracterısticas• Estandarizar los datos• Construir la matriz de covarianzas• Calcular sus autovalores y autovectores• Seleccionar los mejores autovectores• Transformar los datos originales
• Objetivo• Escoger las k mejores componentes (k < n)• Escoger las componentes con un grado de
variacion (autovalor) por encima de una cota
Parte VII
Preprocesado e ingenierıa de
caracterısticas
Preprocesado e ingenierıa de caracterısticas
• Valores ausentes
• Datos categoricos
• Discretizado
• Escalado
• Seleccion de caracterısticas
• Analisis de componentes principales
Parte VIII
Bibliografıa
Bibliografıa
• Andreas C. Muller y Sarah GuidoIntroduction to Machine Learning with Python (O’Really,2017)• Cap. 3: “Unsupervised Learning and preprocessing”• Cap. 4: “Representing Data and Engineering Features”
• Sebastian RaschkaPython Machine Learning (O’Really, 2017)• Cap. 4: “Building Good Training Sets - Data Preprocessing”• Cap. 5: “Compressing Data via Dimensionality Reduction”
Parte IX
Manipulacion de caracterısticas
Parte X
Reduccion de la dimensionalidad