análisis de datos = análisis multivariante + aprendizaje automático

Índice

matriz/cuadro
- filas = instancias / individuos
- columnas = variables / características / atributos
tipos de variables:
- numéricas / cuantitativas: continuas, discretas
- categóricas / cualitativas: nominales (dicótomas, polítomas), ordinales

no supervisadas: sin variable respuesta
supervisadas
- X = variables explicativas / independientes / exógenas / regresoras
- y = variable respuesta / dependiente / endógena

conjunto de entrenamiento
- datos usados para ajustar los modelos
conjunto de validación / test
- datos usados para evaluar rendimiento fuera de la muestra

k-fold: dividir en k subconjuntos y rotar entrenamiento/test
jackknife / Leave-One-Out (LOO)
- cada instancia como test
- entrenar con todas las demás
variantes estratificadas (mantener proporción de clases)

porcentaje de aciertos (accuracy)
matriz de confusión
- verdaderos positivos, falsos positivos
- verdaderos negativos, falsos negativos
métricas derivadas: sensibilidad (recall), especificidad; precision, F1-score

acccuracy engañosa
modelos ingenues (naïf) con alto porcentaje de aciertos (clasificar todos como sanos)

ponderación de clases (class weighting)
- ajuste de la función de pérdida
- penalización diferencial de errores según la clase
submuestreo (undersampling)
- reducción de la clase mayoritaria
sobremuestreo (oversampling)
- replicación o generación sintética de instancias minoritarias
- ejemplo: SMOTE
estrategias híbridas
- combinación de submuestreo y sobremuestreo

métricas alternativas a accuracy
- sensibilidad, F1-score, balanced accuracy, AUC

análisis de componentes principales (PCA)
- R: stats::prcomp / stats::princomp
- Python: sklearn.decomposition.PCA
análisis de correspondencias (CA)
- R: FactoMineR::CA
- Python: prince.CA
t-SNE
- R: Rtsne::Rtsne
- Python: sklearn.manifold.TSNE
UMAP
- R: uwot::umap
- Python: umap-learn.UMAP
Autoencoders (no supervisados)
- R: h2o::h2o.deeplearning
- Python: keras / tensorflow

k-medias (k-means)
- R: stats::kmeans
- Python: sklearn.cluster.KMeans
clustering jerárquico (hclust)
- R: stats::hclust
- Python: scipy.cluster.hierarchy.linkage / sklearn.cluster.AgglomerativeClustering
DBSCAN
- R: dbscan::dbscan
- Python: sklearn.cluster.DBSCAN
Mean Shift
- R: meanShiftR::meanShift
- Python: sklearn.cluster.MeanShift
Gaussian Mixture Models (GMM)
- R: mclust::Mclust
- Python: sklearn.mixture.GaussianMixture

análisis discriminante lineal (LDA)
- R: MASS::lda
- Python: sklearn.discriminant_{analysis.LinearDiscriminantAnalysis}
árboles de decisión
- R: rpart::rpart
- Python: sklearn.tree.DecisionTreeClassifier
random forests
- R: randomForest::randomForest
- Python: sklearn.ensemble.RandomForestClassifier
gradient boosting (XGBoost, LightGBM, CatBoost)
- R: xgboost::xgboost / lightgbm::lgb.train
- Python: xgboost.XGBClassifier / lightgbm.LGBMClassifier / catboost.CatBoostClassifier
regresión logística
- R: stats::glm (family = binomial)
- Python: sklearn.linear_{model.LogisticRegression} / statsmodels.api.Logit
support vector machines (SVM)
- R: e1071::svm
- Python: sklearn.svm.SVC
redes neuronales supervisadas
- R: keras::keras_model_sequential / nnet::nnet
- Python: keras / tensorflow / torch.nn

regresión lineal
- R: stats::lm
- Python: sklearn.linear_{model.LinearRegression} / statsmodels.api.OLS
regresión polinómica
- R: stats::lm (con polinomios en formula)
- Python: sklearn.preprocessing.PolynomialFeatures + LinearRegression
árboles de regresión
- R: rpart::rpart
- Python: sklearn.tree.DecisionTreeRegressor
random forests y gradient boosting para regresión
- R: randomForest::randomForest / xgboost::xgboost
- Python: sklearn.ensemble.RandomForestRegressor / xgboost.XGBRegressor
redes neuronales supervisadas
- R: keras::keras_model_sequential / nnet::nnet
- Python: keras / tensorflow / torch.nn

Partial Least Squares (PLS) → reducción dimensional supervisada
- R: pls::plsr
- Python: sklearn.cross_{decomposition.PLSRegression}
Regularización: Ridge, Lasso, Elastic Net
- R: glmnet::glmnet
- Python: sklearn.linear_model.Ridge / Lasso / ElasticNet
Modelos generativos supervisados (Conditional VAEs)
- R: keras::keras_model_sequential
- Python: keras / tensorflow / torch