directrices
- definir con la mayor claridad posible los objetivos del análisis
- plantear formalmente esos objetivos de acuerdo con la información disponible
- descripción y depuración de los datos
- tratamiento de los datos perdidos
- cuidado con los criterios de imputación
- analizar las variables según los objetivos
- relaciones unidimensionales
- descriptivos
- medias, desviaciones típicas, medianas, porcentajes
- gráficas
- descriptivos
- si hay muchas variables, programar automáticamente los análisis y seleccionar los estadísticos
- relaciones unidimensionales
- análisis multidimensional
- clasificación supervisada
- en primer lugar, usar técnicas que permitan interpretar los resultados
- regresión lineal/logística
- análisis discriminante
- árboles de regresión/clasificación
- si esas técnicas no funcionan bien, usar otros métodos
- redes neuronales
- bosques aleatorios
- boosting
- adaboost: pesos diferentes a cada individuo
- gradient boost: gradiente descendente y complejidad
- bagging
- máquinas de vectores soporte
- curvas ROC
- AUC - área bajo la curva
- criterio de Youden
- selección de variables
- emplear criterios automáticos, aunque la última palabra es nuestra
- análisis unidimensional
- en primer lugar, usar técnicas que permitan interpretar los resultados
- clasificación no supervisada
- clúster
- distancias entre individuos
- ojo con las unidades y los criterios de agregación
- redes neuronales
- Kohonen (mapas autoorganizados, SOMA)
- preparar un pequeño informe
- clúster
- clasificación supervisada
- consejos
- en muchas ocasiones será necesario combinar distintos procedimientos
- la existencia de tantos métodos y tan diferentes significa que cada uno tiene ventajas e inconvenientes
- a priori no se sabe qué método es el más adecuado para un datos concretos