directrices

  1. definir con la mayor claridad posible los objetivos del análisis
    • plantear formalmente esos objetivos de acuerdo con la información disponible
  2. descripción y depuración de los datos
    • tratamiento de los datos perdidos
    • cuidado con los criterios de imputación
  3. analizar las variables según los objetivos
    • relaciones unidimensionales
      • descriptivos
        • medias, desviaciones típicas, medianas, porcentajes
        • gráficas
    • si hay muchas variables, programar automáticamente los análisis y seleccionar los estadísticos
  4. análisis multidimensional
    • clasificación supervisada
      • en primer lugar, usar técnicas que permitan interpretar los resultados
        • regresión lineal/logística
        • análisis discriminante
        • árboles de regresión/clasificación
      • si esas técnicas no funcionan bien, usar otros métodos
        • redes neuronales
        • bosques aleatorios
        • boosting
          • adaboost: pesos diferentes a cada individuo
          • gradient boost: gradiente descendente y complejidad
        • bagging
        • máquinas de vectores soporte
      • curvas ROC
        • AUC - área bajo la curva
        • criterio de Youden
      • selección de variables
        • emplear criterios automáticos, aunque la última palabra es nuestra
        • análisis unidimensional
    • clasificación no supervisada
      • clúster
        • distancias entre individuos
        • ojo con las unidades y los criterios de agregación
      • redes neuronales
        • Kohonen (mapas autoorganizados, SOMA)
        • preparar un pequeño informe
  5. consejos
    • en muchas ocasiones será necesario combinar distintos procedimientos
    • la existencia de tantos métodos y tan diferentes significa que cada uno tiene ventajas e inconvenientes
    • a priori no se sabe qué método es el más adecuado para un datos concretos

Author: Carlos Enrique Carleos Artime

Created: 2019-12-18 mié 16:34

Emacs 25.2.2 (Org mode 8.2.10)

Validate