% Created 2026-02-06 vie 16:09
% Intended LaTeX compiler: pdflatex
\documentclass[11pt]{article}
\usepackage[utf8]{inputenc}
\usepackage[T1]{fontenc}
\usepackage{graphicx}
\usepackage{longtable}
\usepackage{wrapfig}
\usepackage{rotating}
\usepackage[normalem]{ulem}
\usepackage{amsmath}
\usepackage{amssymb}
\usepackage{capt-of}
\usepackage{hyperref}
\usepackage[spanish]{babel}
\author{MANADINE}
\date{\today}
\title{análisis de datos = análisis multivariante + aprendizaje automático}
\hypersetup{
 pdfauthor={MANADINE},
 pdftitle={análisis de datos = análisis multivariante + aprendizaje automático},
 pdfkeywords={},
 pdfsubject={},
 pdfcreator={Emacs 29.3 (Org mode 9.6.15)}, 
 pdflang={Spanish}}
\begin{document}

\maketitle
\tableofcontents

\section{conceptos}
\label{sec:orgbe06a52}
\subsection{datos}
\label{sec:org04e7c58}
\subsubsection{representación}
\label{sec:org0894b8d}
\begin{itemize}
\item matriz/cuadro
\begin{itemize}
\item filas = instancias / individuos
\item columnas = variables / características / atributos
\end{itemize}
\item tipos de variables:
\begin{itemize}
\item numéricas / cuantitativas: continuas, discretas
\item categóricas / cualitativas: nominales (dicótomas, polítomas), ordinales
\end{itemize}
\end{itemize}
\subsubsection{preprocesamiento}
\label{sec:orgec4fc85}
\begin{itemize}
\item tipificación / normalización / estandarización
\item imputación de valores faltantes
\item codificación de variables categóricas
\end{itemize}
\subsection{tipos de técnicas}
\label{sec:org10c3786}
\begin{itemize}
\item no supervisadas: sin variable respuesta
\item supervisadas
\begin{itemize}
\item X = variables explicativas / independientes / exógenas / regresoras
\item y = variable respuesta / dependiente / endógena
\end{itemize}
\end{itemize}
\subsection{entrenamiento y validación}
\label{sec:org2961b8d}
\begin{itemize}
\item conjunto de entrenamiento
\begin{itemize}
\item datos usados para ajustar los modelos
\end{itemize}
\item conjunto de validación / test
\begin{itemize}
\item datos usados para evaluar rendimiento fuera de la muestra
\end{itemize}
\end{itemize}
\subsubsection{cruz-validación / validación cruzada}
\label{sec:org1bdad40}
\begin{itemize}
\item k-fold: dividir en k subconjuntos y rotar entrenamiento/test
\item jackknife / Leave-One-Out (LOO)
\begin{itemize}
\item cada instancia como test
\item entrenar con todas las demás
\end{itemize}
\item variantes estratificadas (mantener proporción de clases)
\end{itemize}
\subsection{evaluación de modelos supervisados}
\label{sec:orgbb031a1}
\subsubsection{clasificación}
\label{sec:org578910b}
\begin{itemize}
\item porcentaje de aciertos (accuracy)
\item matriz de confusión
\begin{itemize}
\item verdaderos positivos, falsos positivos
\item verdaderos negativos, falsos negativos
\end{itemize}
\item métricas derivadas: sensibilidad (recall), especificidad;
precision, F1-score
\end{itemize}
\subsubsection{regresión}
\label{sec:org4bf242c}
\begin{itemize}
\item error cuadrático medio (ECM, MSE), raíz del ECM (RMSE)
\item error absoluto medio (MAE)
\item devianza o log-loss para modelos probabilísticos
\end{itemize}
\subsection{desequilibrio entre clases (class imbalance)}
\label{sec:org433a42e}
\subsubsection{definición}
\label{sec:orgd7c82f4}
\begin{itemize}
\item distribución no uniforme de las clases
\item ejemplo: 95\% de sanos, 5\% de enfermos
\end{itemize}
\subsubsection{consecuencias}
\label{sec:orge027832}
\begin{itemize}
\item acccuracy engañosa
\item modelos ingenues (naïf) con alto porcentaje de aciertos (clasificar todos como sanos)
\end{itemize}
\subsubsection{estrategias de corrección}
\label{sec:orgb76c33c}
\begin{enumerate}
\item ponderación de clases (class weighting)
\label{sec:org7a2aadb}
\begin{itemize}
\item ajuste de la función de pérdida
\item penalización diferencial de errores según la clase
\end{itemize}
\item submuestreo (undersampling)
\label{sec:org8b13513}
\begin{itemize}
\item reducción de la clase mayoritaria
\end{itemize}
\item sobremuestreo (oversampling)
\label{sec:orgaa5f4ac}
\begin{itemize}
\item replicación o generación sintética de instancias minoritarias
\item ejemplo: SMOTE
\end{itemize}
\item estrategias híbridas
\label{sec:org7a17bb9}
\begin{itemize}
\item combinación de submuestreo y sobremuestreo
\end{itemize}
\end{enumerate}
\subsubsection{evaluación en presencia de desequilibrio}
\label{sec:org9fe5cbe}
\begin{itemize}
\item métricas alternativas a accuracy
\begin{itemize}
\item sensibilidad, F1-score, balanced accuracy, AUC
\end{itemize}
\end{itemize}
\subsection{conceptos adicionales}
\label{sec:org26a6255}
\subsubsection{sesgo vs varianza}
\label{sec:org126f9c1}
\begin{itemize}
\item infraajuste (underfitting) vs sobreajuste (overfitting)
\end{itemize}
\subsubsection{modelo naïf / baseline}
\label{sec:org0d47f01}
\begin{itemize}
\item estrategia simple para comparar (ej.: predecir la clase mayoritaria)
\end{itemize}

\section{técnicas}
\label{sec:org772fac0}
\begin{center}
\includegraphics[width=.9\linewidth]{./tEcnicas-ad1.png}
\end{center}
\subsection{técnicas no supervisadas}
\label{sec:orgd576c97}
\subsubsection{reducción dimensional}
\label{sec:org0351ad4}
\begin{enumerate}
\item análisis de componentes principales (PCA)
\label{sec:org724b52e}
\begin{itemize}
\item R: stats::prcomp / stats::princomp
\item Python: sklearn.decomposition.PCA
\end{itemize}
\item análisis de correspondencias (CA)
\label{sec:orgc359e7e}
\begin{itemize}
\item R: FactoMineR::CA
\item Python: prince.CA
\end{itemize}
\item t-SNE
\label{sec:org51a98c6}
\begin{itemize}
\item R: Rtsne::Rtsne
\item Python: sklearn.manifold.TSNE
\end{itemize}
\item UMAP
\label{sec:org9b07be4}
\begin{itemize}
\item R: uwot::umap
\item Python: umap-learn.UMAP
\end{itemize}
\item Autoencoders (no supervisados)
\label{sec:org43e9a63}
\begin{itemize}
\item R: h2o::h2o.deeplearning
\item Python: keras / tensorflow
\end{itemize}
\end{enumerate}
\subsubsection{clustering / clasificación sin etiquetas}
\label{sec:orgf133a0a}
\begin{enumerate}
\item k-medias (k-means)
\label{sec:org2fc34e3}
\begin{itemize}
\item R: stats::kmeans
\item Python: sklearn.cluster.KMeans
\end{itemize}
\item clustering jerárquico (hclust)
\label{sec:orga97502d}
\begin{itemize}
\item R: stats::hclust
\item Python: scipy.cluster.hierarchy.linkage / sklearn.cluster.AgglomerativeClustering
\end{itemize}
\item DBSCAN
\label{sec:org3f16dce}
\begin{itemize}
\item R: dbscan::dbscan
\item Python: sklearn.cluster.DBSCAN
\end{itemize}
\item Mean Shift
\label{sec:org2eff52b}
\begin{itemize}
\item R: meanShiftR::meanShift
\item Python: sklearn.cluster.MeanShift
\end{itemize}
\item Gaussian Mixture Models (GMM)
\label{sec:orgd6986d1}
\begin{itemize}
\item R: mclust::Mclust
\item Python: sklearn.mixture.GaussianMixture
\end{itemize}
\end{enumerate}
\subsection{técnicas supervisadas}
\label{sec:orgdd9de1c}
\subsubsection{clasificación}
\label{sec:orga7c0e2e}
\begin{enumerate}
\item análisis discriminante lineal (LDA)
\label{sec:org639673f}
\begin{itemize}
\item R: MASS::lda
\item Python: sklearn.discriminant\textsubscript{analysis.LinearDiscriminantAnalysis}
\end{itemize}
\item árboles de decisión
\label{sec:orgb0113b2}
\begin{itemize}
\item R: rpart::rpart
\item Python: sklearn.tree.DecisionTreeClassifier
\end{itemize}
\item random forests
\label{sec:orgb000f06}
\begin{itemize}
\item R: randomForest::randomForest
\item Python: sklearn.ensemble.RandomForestClassifier
\end{itemize}
\item gradient boosting (XGBoost, LightGBM, CatBoost)
\label{sec:org68c9744}
\begin{itemize}
\item R: xgboost::xgboost / lightgbm::lgb.train
\item Python: xgboost.XGBClassifier / lightgbm.LGBMClassifier / catboost.CatBoostClassifier
\end{itemize}
\item regresión logística
\label{sec:orge7e4b9d}
\begin{itemize}
\item R: stats::glm (family = binomial)
\item Python: sklearn.linear\textsubscript{model.LogisticRegression} / statsmodels.api.Logit
\end{itemize}
\item support vector machines (SVM)
\label{sec:org99482ce}
\begin{itemize}
\item R: e1071::svm
\item Python: sklearn.svm.SVC
\end{itemize}
\item redes neuronales supervisadas
\label{sec:orgedea765}
\begin{itemize}
\item R: keras::keras\textsubscript{model}\textsubscript{sequential} / nnet::nnet
\item Python: keras / tensorflow / torch.nn
\end{itemize}
\end{enumerate}
\subsubsection{regresión}
\label{sec:orgc6f3922}
\begin{enumerate}
\item regresión lineal
\label{sec:org8dee6b1}
\begin{itemize}
\item R: stats::lm
\item Python: sklearn.linear\textsubscript{model.LinearRegression} / statsmodels.api.OLS
\end{itemize}
\item regresión polinómica
\label{sec:orgc4e7868}
\begin{itemize}
\item R: stats::lm (con polinomios en formula)
\item Python: sklearn.preprocessing.PolynomialFeatures + LinearRegression
\end{itemize}
\item árboles de regresión
\label{sec:orgd84fd07}
\begin{itemize}
\item R: rpart::rpart
\item Python: sklearn.tree.DecisionTreeRegressor
\end{itemize}
\item random forests y gradient boosting para regresión
\label{sec:org2458381}
\begin{itemize}
\item R: randomForest::randomForest / xgboost::xgboost
\item Python: sklearn.ensemble.RandomForestRegressor / xgboost.XGBRegressor
\end{itemize}
\item redes neuronales supervisadas
\label{sec:org992c94b}
\begin{itemize}
\item R: keras::keras\textsubscript{model}\textsubscript{sequential} / nnet::nnet
\item Python: keras / tensorflow / torch.nn
\end{itemize}
\end{enumerate}
\subsubsection{métodos híbridos / especiales}
\label{sec:orgec3f7f9}
\begin{enumerate}
\item Partial Least Squares (PLS) → reducción dimensional supervisada
\label{sec:org432cbe2}
\begin{itemize}
\item R: pls::plsr
\item Python: sklearn.cross\textsubscript{decomposition.PLSRegression}
\end{itemize}
\item Regularización: Ridge, Lasso, Elastic Net
\label{sec:orgfcf3e5a}
\begin{itemize}
\item R: glmnet::glmnet
\item Python: sklearn.linear\textsubscript{model.Ridge} / Lasso / ElasticNet
\end{itemize}
\item Modelos generativos supervisados (Conditional VAEs)
\label{sec:org9274257}
\begin{itemize}
\item R: keras::keras\textsubscript{model}\textsubscript{sequential}
\item Python: keras / tensorflow / torch
\end{itemize}
\end{enumerate}
\end{document}
