\documentclass[12pt, a4paper]{article}

% ─── Paquetes ───────────────────────────────────────────────────────────────
\usepackage[utf8]{inputenc}
\usepackage[T1]{fontenc}
\usepackage[spanish]{babel}
\usepackage{amsmath, amssymb, amsthm}
\usepackage{mathtools}
\usepackage{bm}
\usepackage{geometry}
\usepackage{hyperref}
\usepackage{booktabs}
\usepackage{enumitem}
\usepackage{xcolor}
\usepackage{tcolorbox}
\usepackage{titlesec}
% lmodern and microtype not available in this environment

% ─── Geometría ──────────────────────────────────────────────────────────────
\geometry{top=2.5cm, bottom=2.5cm, left=2cm, right=2cm}

% ─── Colores ────────────────────────────────────────────────────────────────
\definecolor{azul}{RGB}{31, 119, 180}
\definecolor{verde}{RGB}{44, 160, 44}
\definecolor{gris}{RGB}{100, 100, 100}

% ─── Entornos de teorema ────────────────────────────────────────────────────
\theoremstyle{plain}
\newtheorem{theorem}{Teorema}[section]
\newtheorem{proposition}[theorem]{Proposición}
\newtheorem{corollary}[theorem]{Corolario}
\newtheorem{lemma}[theorem]{Lema}

\theoremstyle{definition}
\newtheorem{definition}[theorem]{Definición}
\newtheorem{example}[theorem]{Ejemplo}
\newtheorem{remark}[theorem]{Observación}

% ─── Cajas de resultado ─────────────────────────────────────────────────────
\tcbuselibrary{most}
\newtcolorbox{resultbox}{
  colback=azul!8, colframe=azul!60,
  boxrule=0.8pt, arc=4pt,
  left=6pt, right=6pt, top=4pt, bottom=4pt
}

% ─── Macros matemáticos ─────────────────────────────────────────────────────
\newcommand{\R}{\mathbb{R}}
\newcommand{\N}{\mathcal{N}}
\newcommand{\mat}[1]{\mathbf{#1}}
\newcommand{\vect}[1]{\bm{#1}}
\newcommand{\tr}{\operatorname{tr}}
\newcommand{\rg}{\operatorname{rango}}
\newcommand{\diag}{\operatorname{diag}}
\newcommand{\Cov}{\operatorname{Cov}}
\newcommand{\Var}{\operatorname{Var}}
\renewcommand{\P}{\mathbb{P}}

% ─── Título ─────────────────────────────────────────────────────────────────
\title{%
  \textbf{Análisis Factorial Discriminante\\ y Análisis Discriminante}\\[0.4em]
  \large Grado en Matemáticas --- Análisis de Datos
}
\author{Norberto Corral Blanco \\[0.3em]
  \small Universidad de Oviedo
  \and Beatriz Sinova Fernández\\[0.3em]
  \small Universidad de Oviedo}
\date{}

% ════════════════════════════════════════════════════════════════════════════
\begin{document}
\maketitle
\tableofcontents
\bigskip

% ════════════════════════════════════════════════════════════════════════════
\section{Preliminares: matrices de datos y centrado}
% ════════════════════════════════════════════════════════════════════════════

\subsection{La matriz de datos}

Consideramos una \textbf{matriz de datos} $\mat{X}$ de dimensión $n \times p$,
donde $n$ es el número de observaciones y $p$ el número de variables:
\[
  \mat{X} =
  \begin{pmatrix}
    x_{11} & x_{12} & \cdots & x_{1p} \\
    x_{21} & x_{22} & \cdots & x_{2p} \\
    \vdots & \vdots & \ddots & \vdots \\
    x_{n1} & x_{n2} & \cdots & x_{np}
  \end{pmatrix}.
\]
Cada fila $\vect{x}_i^t = (x_{i1}, \ldots, x_{ip})$ representa la observación
$i$-ésima; cada columna $\vect{x}_{(j)}$ recoge los $n$ valores de la variable $j$.

\subsection{Matriz de centrado}

\begin{definition}
  La \textbf{matriz de centrado} es
  \[
    \mat{H} = \mat{I}_n - \frac{1}{n}\mat{1}\mat{1}^t
            = \mat{I}_n - \mat{J},
    \qquad \mat{J} = \frac{1}{n}\mat{1}\mat{1}^t.
  \]
\end{definition}

\noindent La acción de $\mat{H}$ sobre un vector $\vect{x}$ es restar la media:
\[
  \mat{H}\vect{x}
  = \vect{x} - \mat{1}\bar{x}
  = (x_1 - \bar{x},\, \ldots,\, x_n - \bar{x})^t.
\]
La \textbf{matriz de datos centrada} respecto a todas las variables es
\[
  \mat{X}_c = \mat{H}\mat{X},
\]
cuya entrada $(i,j)$ vale $x_{ij} - \bar{x}_j$.

\begin{proposition}[Propiedades de $\mat{H}$]
  \label{prop:H}
  \begin{enumerate}[label=(\roman*)]
    \item $\mat{H}$ es \textbf{simétrica}: $\mat{H}^t = \mat{H}$.
    \item $\mat{H}$ es \textbf{idempotente}: $\mat{H}^2 = \mat{H}$.
    \item Los valores propios de $\mat{H}$ son $0$ (con multiplicidad $1$)
          y $1$ (con multiplicidad $n-1$).
    \item $\rg(\mat{H}) = \tr(\mat{H}) = n-1$.
  \end{enumerate}
\end{proposition}

\begin{proof}
  \textit{(i)} $\mat{H}^t = \mat{I}_n^t - \frac{1}{n}(\mat{1}\mat{1}^t)^t
  = \mat{I}_n - \frac{1}{n}\mat{1}\mat{1}^t = \mat{H}$.

  \textit{(ii)} $\mat{J}^2 = \frac{1}{n^2}\mat{1}\mat{1}^t\mat{1}\mat{1}^t
  = \frac{n}{n^2}\mat{1}\mat{1}^t = \mat{J}$, por lo que
  \[
    \mat{H}^2 = (\mat{I}-\mat{J})^2 = \mat{I} - 2\mat{J} + \mat{J}^2
              = \mat{I} - 2\mat{J} + \mat{J} = \mat{I} - \mat{J} = \mat{H}.
  \]

  \textit{(iii)} Si $\mat{H}\vect{u} = \lambda\vect{u}$, aplicando $\mat{H}$:
  $\mat{H}^2\vect{u} = \lambda^2\vect{u}$; pero $\mat{H}^2 = \mat{H}$,
  así que $\lambda\vect{u} = \lambda^2\vect{u}$, es decir $\lambda(\lambda-1)=0$.
  El único vector en el núcleo de $\mat{H}$ es proporcional a $\mat{1}$
  (pues $\mat{H}\mat{1} = \mat{1} - \mat{1} = \vect{0}$), de modo que
  $\lambda = 0$ tiene multiplicidad $1$ y $\lambda = 1$ tiene multiplicidad $n-1$.

  \textit{(iv)} Como $\mat{H}$ es simétrica e idempotente, admite
  diagonalización ortogonal $\mat{H} = \mat{U}\Lambda\mat{U}^t$ con
  $\mat{U}$ ortogonal. Por tanto
  $\rg(\mat{H}) = \rg(\Lambda) = \tr(\Lambda) = \tr(\mat{U}\Lambda\mat{U}^t) = \tr(\mat{H}) = n - 1$.
\end{proof}

% ════════════════════════════════════════════════════════════════════════════
\section{Sumas de cuadrados y descomposición de la variabilidad}
% ════════════════════════════════════════════════════════════════════════════

\subsection{Suma de cuadrados total}

\begin{definition}
  La \textbf{suma de cuadrados total} es la matriz $p\times p$
  \[
    \mat{T} = \mat{X}^t\mat{H}\mat{X}.
  \]
\end{definition}

La matriz de varianzas-covarianzas muestral verifica $\mat{S} = \tfrac{1}{n}\mat{T}$.
Cuando $n > p$, el estimador insesgado de la matriz de covarianzas poblacional es
$\hat{\mat{S}} = \tfrac{1}{n-p}\mat{T}$.

\subsection{Estructura por grupos}

Supongamos que las $n$ observaciones provienen de $g$ subpoblaciones:
el grupo $k$ aporta $n_k$ observaciones ($\sum_{k=1}^g n_k = n$).
La matriz de datos se particiona como
$\mat{X}^t = (\mat{X}_1^t \mid \cdots \mid \mat{X}_g^t)$,
donde $\mat{X}_k$ tiene dimensión $n_k \times p$.

\begin{definition}
  Definimos la \textbf{matriz diagonal por bloques}
  \[
    \mat{D} = \diag(\mat{J}_1, \ldots, \mat{J}_g),
    \qquad \mat{J}_k = \frac{1}{n_k}\mat{1}_{n_k}\mat{1}_{n_k}^t.
  \]
\end{definition}

\begin{proposition}[Propiedades de $\mat{D}$]
  $\mat{D}$ es simétrica e idempotente con $\rg(\mat{D}) = \tr(\mat{D}) = g$.
\end{proposition}

\begin{proof}
  Simetría: cada $\mat{J}_k$ es simétrica, luego $\mat{D}^t = \mat{D}$.
  Idempotencia: $\mat{D}^2 = \diag(\mat{J}_1^2,\ldots,\mat{J}_g^2)
  = \diag(\mat{J}_1,\ldots,\mat{J}_g) = \mat{D}$ porque $\mat{J}_k^2 = \mat{J}_k$.
  Rango: $\tr(\mat{J}_k) = n_k \cdot \tfrac{1}{n_k} = 1$, así que
  $\rg(\mat{D}) = \tr(\mat{D}) = \sum_{k=1}^g 1 = g$.
\end{proof}

\subsection{Descomposición $\mat{T} = \mat{W} + \mat{B}$}

\begin{resultbox}
\begin{theorem}[Descomposición de la variabilidad total]
  \[
    \mat{T} = \mat{X}^t\mat{H}\mat{X}
            = \underbrace{\mat{X}^t(\mat{I}-\mat{D})\mat{X}}_{\mat{W}}
            + \underbrace{\mat{X}^t(\mat{D}-\mat{J})\mat{X}}_{\mat{B}}.
  \]
\end{theorem}
\end{resultbox}

\begin{proof}
  Basta escribir $\mat{H} = \mat{I} - \mat{J} = (\mat{I}-\mat{D}) + (\mat{D}-\mat{J})$.
\end{proof}

La \textbf{variabilidad intragrupos} ($\mat{W}$) y la \textbf{variabilidad entre grupos} ($\mat{B}$)
admiten las siguientes expresiones explícitas.

\subsubsection{Variabilidad entre grupos: $\mat{B}$}

Observemos que $\mat{D}\mat{J} = \mat{J}$ (cada bloque $\mat{J}_k$ aplicado a
$\mat{J}$ da $\mat{J}$ por ser todas las columnas de $\mat{J}$ iguales a $\tfrac{1}{n}$).
Por simetría, $\mat{J}\mat{D} = \mat{J}$ también.

\begin{proposition}[Propiedades de $\mat{D}-\mat{J}$]
  $\mat{D}-\mat{J}$ es simétrica e idempotente con $\rg(\mat{D}-\mat{J}) = g-1$.
\end{proposition}

\begin{proof}
  \textit{Simetría}: inmediata por serlo $\mat{D}$ y $\mat{J}$.
  \textit{Idempotencia}:
  \[
    (\mat{D}-\mat{J})^2 = \mat{D}^2 - \mat{D}\mat{J} - \mat{J}\mat{D} + \mat{J}^2
    = \mat{D} - \mat{J} - \mat{J} + \mat{J} = \mat{D} - \mat{J}.
  \]
  \textit{Rango}: $\rg(\mat{D}-\mat{J}) = \tr(\mat{D}-\mat{J}) = \tr(\mat{D}) - \tr(\mat{J}) = g - 1$.
\end{proof}

Dado que $(\mat{D}-\mat{J})$ es simétrica e idempotente, usando que
$\mat{D}\mat{X} = (\mat{J}_1\mat{X}_1^t \mid \cdots \mid \mat{J}_g\mat{X}_g^t)^t$
con $\mat{J}_k\mat{X}_k$ igual a la matriz cuyas filas son $\bar{\vect{x}}_k^t$, se obtiene:
\[
  \mat{B} = \mat{X}^t(\mat{D}-\mat{J})\mat{X}
          = \bigl[(\mat{D}-\mat{J})\mat{X}\bigr]^t\bigl[(\mat{D}-\mat{J})\mat{X}\bigr]
          = \sum_{k=1}^g n_k (\bar{\vect{x}}_k - \bar{\vect{x}})(\bar{\vect{x}}_k - \bar{\vect{x}})^t,
\]
donde $\bar{\vect{x}}_k$ es el vector de medias del grupo $k$ y
$\bar{\vect{x}}$ la media global.

\subsubsection{Variabilidad intragrupos: $\mat{W}$}

\begin{proposition}[Propiedades de $\mat{I}-\mat{D}$]
  $\mat{I}-\mat{D}$ es simétrica e idempotente con $\rg(\mat{I}-\mat{D}) = n-g$.
\end{proposition}

\begin{proof}
  Análogo al caso de $\mat{H}$. Idempotencia:
  $(\mat{I}-\mat{D})^2 = \mat{I} - 2\mat{D} + \mat{D}^2 = \mat{I} - \mat{D}$.
  Rango: $\tr(\mat{I}-\mat{D}) = n - g$.
\end{proof}

La variabilidad intragrupos satisface:
\[
  \mat{W} = \mat{X}^t(\mat{I}-\mat{D})\mat{X}
          = \sum_{k=1}^g\sum_{i=1}^{n_k}
            (\vect{x}_{ki}-\bar{\vect{x}}_k)(\vect{x}_{ki}-\bar{\vect{x}}_k)^t
          = \sum_{k=1}^g n_k \mat{S}_k,
\]
donde $\vect{x}_{ki}$ es la $i$-ésima observación del grupo $k$
y $\mat{S}_k$ es la matriz de covarianzas muestral del grupo $k$.

% ════════════════════════════════════════════════════════════════════════════
\section{Análisis Factorial Discriminante: factores canónicos}
% ════════════════════════════════════════════════════════════════════════════

\subsection{Motivación}

Clásicamente, el análisis discriminante distingue dos vertientes:

\begin{itemize}
  \item \textbf{Aspecto descriptivo (geométrico)}: buscar combinaciones lineales de las
        variables originales que separen lo mejor posible los $g$ grupos.
  \item \textbf{Aspecto decisional (probabilístico)}: asignar un nuevo individuo a
        uno de los grupos a partir de sus valores observados.
\end{itemize}

A menudo, cada variable marginal $x_j$ se comporta de modo similar en todos los grupos,
pero las diferencias resultan muy claras al considerar el comportamiento conjunto.
Los \textbf{factores discriminantes canónicos} responden al aspecto descriptivo.

\subsection{Planteamiento del problema}

Dada la combinación lineal centrada $\vect{y} = \mat{H}\mat{X}\vect{a}$, su
variabilidad total se descompone como:
\[
  n\,\Var(\vect{y}) = \vect{y}^t\vect{y}
  = \vect{a}^t\mat{X}^t\mat{H}\mat{X}\vect{a}
  = \vect{a}^t\mat{T}\vect{a}
  = \underbrace{\vect{a}^t\mat{W}\vect{a}}_{\text{intragrupos}}
  + \underbrace{\vect{a}^t\mat{B}\vect{a}}_{\text{entre grupos}}.
\]

\begin{resultbox}
\textbf{Objetivo}: Encontrar $\vect{a} \in \R^p$ que maximice la proporción de
variabilidad explicada entre grupos respecto a la variabilidad intragrupos:
\[
  \max_{\vect{a}} \frac{\vect{a}^t\mat{B}\vect{a}}{\vect{a}^t\mat{W}\vect{a}}.
\]
\end{resultbox}

\noindent Maximizar únicamente $\vect{a}^t\mat{B}\vect{a}$ no tiene sentido: una
dirección con mayor variabilidad entre grupos puede tener aún mayor dispersión
intragrupos, lo que empeoraría la separación real.

\subsection{Resolución: reducción a un problema de valores propios}

Suponemos que $\mat{W}$ es \textbf{definida positiva} (lo cual requiere $n - g \geq p$
y que ninguna variable sea combinación lineal de las restantes). En ese caso,
$\mat{W} = \mat{U}\Lambda\mat{U}^t$ con $\Lambda$ diagonal de entradas positivas, y
podemos definir
\[
  \mat{W}^{1/2} = \mat{U}\Lambda^{1/2}\mat{U}^t, \quad
  \mat{W}^{-1/2} = \mat{U}\Lambda^{-1/2}\mat{U}^t.
\]
Ambas son \textbf{simétricas} e inversas la una de la otra.
El cambio de variable $\vect{b} = \mat{W}^{1/2}\vect{a}$ transforma el cociente de Rayleigh generalizado en uno estándar:
\[
  \frac{\vect{a}^t\mat{B}\vect{a}}{\vect{a}^t\mat{W}\vect{a}}
  = \frac{\vect{b}^t\mat{W}^{-1/2}\mat{B}\mat{W}^{-1/2}\vect{b}}{\vect{b}^t\vect{b}}.
\]

\begin{theorem}[Primer factor discriminante canónico]
  El máximo de $\dfrac{\vect{a}^t\mat{B}\vect{a}}{\vect{a}^t\mat{W}\vect{a}}$
  se alcanza con
  \[
    \vect{a}_1 = \mat{W}^{-1/2}\vect{b}_1,
  \]
  donde $\vect{b}_1$ es el vector propio unitario asociado al mayor valor propio
  $\lambda_1$ de la matriz simétrica semidefinida positiva $\mat{W}^{-1/2}\mat{B}\mat{W}^{-1/2}$.
  El primer factor discriminante canónico es
  \[
    \vect{y}_1 = \mat{H}\mat{X}\vect{a}_1.
  \]
\end{theorem}

\begin{proof}
  El cociente $\dfrac{\vect{b}^t\mat{M}\vect{b}}{\vect{b}^t\vect{b}}$, con
  $\mat{M} = \mat{W}^{-1/2}\mat{B}\mat{W}^{-1/2}$ simétrica, alcanza su máximo
  $\lambda_1$ en el vector propio $\vect{b}_1$ asociado a dicho valor propio
  (cociente de Rayleigh clásico). Deshaciendo el cambio, $\vect{a}_1 = \mat{W}^{-1/2}\vect{b}_1$.
\end{proof}

\subsubsection{Conexión con los valores propios de $\mat{W}^{-1}\mat{B}$}

\begin{proposition}
  $\vect{a}_1 = \mat{W}^{-1/2}\vect{b}_1$ es vector propio de $\mat{W}^{-1}\mat{B}$
  asociado al mismo valor propio $\lambda_1$, es decir,
  $\mat{W}^{-1}\mat{B}\vect{a}_1 = \lambda_1\vect{a}_1$.
\end{proposition}

\begin{proof}
  De $\mat{W}^{-1/2}\mat{B}\mat{W}^{-1/2}\vect{b}_1 = \lambda_1\vect{b}_1$
  se tiene, premultiplicando por $\mat{W}^{-1/2}$:
  \[
    \mat{W}^{-1}\mat{B}\underbrace{\mat{W}^{-1/2}\vect{b}_1}_{\vect{a}_1}
    = \lambda_1\underbrace{\mat{W}^{-1/2}\vect{b}_1}_{\vect{a}_1}. \qedhere
  \]
\end{proof}

\noindent En la práctica es más eficiente trabajar con la matriz simétrica
$\mat{W}^{-1/2}\mat{B}\mat{W}^{-1/2}$, pero conceptualmente el resultado se
enuncia equivalentemente en términos de $\mat{W}^{-1}\mat{B}$.

\subsection{Número de factores discriminantes canónicos}

\begin{theorem}
  Si $\rg(\mat{X}) = p$, el número máximo de factores discriminantes canónicos es
  \[
    s = \min(p,\, g-1).
  \]
\end{theorem}

\begin{proof}
  Como $\mat{W}$ es invertible, $\rg(\mat{W}^{-1}\mat{B}) = \rg(\mat{B})$.
  Ahora bien,
  \[
    \rg(\mat{B}) = \rg\!\left(\mat{X}^t(\mat{D}-\mat{J})\mat{X}\right)
    \leq \min\bigl(p,\, \rg(\mat{D}-\mat{J})\bigr) = \min(p,\, g-1).
  \]
  La igualdad se alcanza cuando $\rg(\mat{X}) = p$.
  La cota $g-1$ refleja que conocer las medias de $g-1$ grupos determina la del último:
  $\bar{\vect{x}}_g = \bigl(n\bar{\vect{x}} - \sum_{k=1}^{g-1}n_k\bar{\vect{x}}_k\bigr)/n_g$.
\end{proof}

\subsection{Los $s$ factores discriminantes son no correlacionados}

\begin{definition}
  Los \textbf{factores discriminantes canónicos} son las variables
  $\vect{y}_k = \mat{H}\mat{X}\vect{a}_k$, $k=1,\ldots,s$, con
  $\vect{a}_k = \mat{W}^{-1/2}\vect{b}_k$ y $\vect{b}_k$ el
  $k$-ésimo vector propio de $\mat{W}^{-1/2}\mat{B}\mat{W}^{-1/2}$ (ordenados
  por valor propio decreciente).
\end{definition}

\begin{theorem}
  $\Cov(\vect{y}_1, \vect{y}_2) = 0$; más en general, los $s$ factores
  discriminantes canónicos tienen covarianzas dos a dos nulas.
\end{theorem}

\begin{proof}
  Como los factores están centrados ($\mat{H}\mat{X}\vect{a}_k$ tiene media cero),
  \begin{align*}
    n\,\Cov(\vect{y}_1,\vect{y}_2)
    &= \vect{a}_1^t\mat{X}^t\mat{H}\mat{X}\vect{a}_2
     = \vect{a}_1^t\mat{T}\vect{a}_2
     = \vect{a}_1^t(\mat{W}+\mat{B})\vect{a}_2 \\
    &= \vect{a}_1^t\mat{W}\vect{a}_2 + \vect{a}_1^t\mat{B}\vect{a}_2.
  \end{align*}
  Para el primer sumando, con $\vect{a}_k = \mat{W}^{-1/2}\vect{b}_k$:
  \[
    \vect{a}_1^t\mat{W}\vect{a}_2
    = \vect{b}_1^t\underbrace{\mat{W}^{-1/2}\mat{W}\mat{W}^{-1/2}}_{\mat{I}}\vect{b}_2
    = \vect{b}_1^t\vect{b}_2 = 0,
  \]
  pues $\vect{b}_1,\vect{b}_2$ son vectores propios de una matriz simétrica para
  valores propios distintos, luego ortogonales.
  Para el segundo sumando, usando la simetría de $\mat{W}^{-1/2}$:
  \[
    \vect{a}_1^t\mat{B}\vect{a}_2
    = \vect{b}_1^t\underbrace{\mat{W}^{-1/2}\mat{B}\mat{W}^{-1/2}}_{\mat{M}}\vect{b}_2
    = \vect{b}_1^t(\lambda_2\vect{b}_2)
    = \lambda_2\,\vect{b}_1^t\vect{b}_2 = 0. \qedhere
  \]
\end{proof}

\subsection{Interpretación de los factores}

Cada factor $\vect{y}_k$ proyecta los datos en la dirección $\vect{a}_k$ que,
dentro de la restricción $\vect{a}^t\mat{W}\vect{a} = 1$, maximiza
$\vect{a}^t\mat{B}\vect{a}$ sujeto a ser no correlacionado con los factores
anteriores. El valor propio $\lambda_k$ mide la separación entre grupos en esa
dirección relativa a la dispersión intragrupos:
\[
  \lambda_k = \frac{\vect{a}_k^t\mat{B}\vect{a}_k}{\vect{a}_k^t\mat{W}\vect{a}_k},
  \quad \text{con } \lambda_1 \geq \lambda_2 \geq \cdots \geq \lambda_s \geq 0.
\]
La proporción de discriminación explicada por el $k$-ésimo factor es
\[
  \rho_k = \frac{\lambda_k}{\displaystyle\sum_{j=1}^s \lambda_j}.
\]

% ════════════════════════════════════════════════════════════════════════════
\section{Análisis Discriminante: clasificación}
% ════════════════════════════════════════════════════════════════════════════

\subsection{El problema de clasificación}

Sea $\vect{x} = (x_1,\ldots,x_p)^t$ el vector de características observadas en
un individuo cuyo grupo de pertenencia se desconoce.  Hay $g$ subpoblaciones y
se dispone de muestras de entrenamiento bien clasificadas.  El objetivo es
asignar $\vect{x}$ a uno de los $g$ grupos.

Las situaciones habituales son:
\begin{enumerate}
  \item La distribución de $\vect{x}$ está \emph{completamente especificada}
        en cada subpoblación.
  \item La distribución es \emph{conocida salvo por el valor de algunos parámetros}.
  \item No se conoce la distribución de $\vect{x}$ (métodos no paramétricos).
\end{enumerate}

\subsection{El método de máxima verosimilitud}

\begin{definition}
  El \textbf{criterio de máxima verosimilitud} asigna el individuo $\vect{x}$ al grupo $k$ si
  \[
    \mathcal{L}(\vect{x}\mid k) = \max_{j=1,\ldots,g} \mathcal{L}(\vect{x}\mid j),
  \]
  donde $\mathcal{L}(\vect{x}\mid j)$ denota la función de verosimilitud de $\vect{x}$
  en la subpoblación $j$.
\end{definition}

\subsubsection{Caso univariante con igual varianza}

Para $g=2$ con $X\mid 1 \sim \mathcal{N}(\mu_1,\sigma)$ y $X\mid 2 \sim \mathcal{N}(\mu_2,\sigma)$,
el cociente de verosimilitudes es:
\[
  \frac{\mathcal{L}(x\mid 1)}{\mathcal{L}(x\mid 2)}
  = \exp\!\left(-\frac{(x-\mu_1)^2 - (x-\mu_2)^2}{2\sigma^2}\right).
\]

\begin{proposition}
  El individuo $x$ se clasifica en la subpoblación $1$ si y solo si
  $x$ está más próximo a $\mu_1$ que a $\mu_2$, es decir,
  \[
    |x - \mu_1| < |x - \mu_2|
    \iff
    x > \bar{\mu} := \frac{\mu_1+\mu_2}{2} \text{ si } \mu_1 > \mu_2
    \quad\text{(y al revés si } \mu_1 < \mu_2\text{)}.
  \]
\end{proposition}

\begin{proof}
  $\mathcal{L}(x\mid 1) > \mathcal{L}(x\mid 2)$ iff
  $-(x-\mu_1)^2 + (x-\mu_2)^2 > 0$ iff
  $2x(\mu_1-\mu_2) > \mu_1^2 - \mu_2^2 = (\mu_1-\mu_2)(\mu_1+\mu_2)$.
  Dividiendo por $\mu_1-\mu_2$ (y cambiando la desigualdad si es negativo)
  se obtiene el resultado.
\end{proof}

\subsubsection{Caso univariante con desiguales varianzas}

Para $X\mid j \sim \mathcal{N}(\mu_j,\sigma_j)$, $j=1,2$, la frontera de decisión
es \emph{cuadrática}:
\[
  z_1^2 + 2\ln\sigma_1 < z_2^2 + 2\ln\sigma_2,
  \quad z_j = \frac{x-\mu_j}{\sigma_j}.
\]

\subsection{Caso multivariante: discriminante lineal (LDA)}

\subsubsection{Dos subpoblaciones}

Suponemos $\vect{x}\mid j \sim \mathcal{N}_p(\vect{\mu}_j, \Sigma)$, $j=1,2$,
con la \emph{misma} matriz de covarianzas $\Sigma$.

\begin{theorem}[Regla lineal de clasificación]
  El criterio de máxima verosimilitud clasifica $\vect{x}$ en la subpoblación $1$ sii
  \[
    (\vect{\mu}_1-\vect{\mu}_2)^t\Sigma^{-1}\!\left(\vect{x} - \frac{\vect{\mu}_1+\vect{\mu}_2}{2}\right) > 0.
  \]
\end{theorem}

\begin{proof}
  El cociente de verosimilitudes es
  \[
    \frac{\mathcal{L}(\vect{x}\mid 1)}{\mathcal{L}(\vect{x}\mid 2)}
    = \exp\!\left\{-\tfrac{1}{2}(\vect{x}-\vect{\mu}_1)^t\Sigma^{-1}(\vect{x}-\vect{\mu}_1)
      +\tfrac{1}{2}(\vect{x}-\vect{\mu}_2)^t\Sigma^{-1}(\vect{x}-\vect{\mu}_2)\right\}.
  \]
  Expandiendo las formas cuadráticas:
  \begin{align*}
    &-(\vect{x}-\vect{\mu}_1)^t\Sigma^{-1}(\vect{x}-\vect{\mu}_1)
     +(\vect{x}-\vect{\mu}_2)^t\Sigma^{-1}(\vect{x}-\vect{\mu}_2) \\
    &= 2(\vect{\mu}_1-\vect{\mu}_2)^t\Sigma^{-1}\vect{x}
      - \vect{\mu}_1^t\Sigma^{-1}\vect{\mu}_1 + \vect{\mu}_2^t\Sigma^{-1}\vect{\mu}_2 \\
    &= 2(\vect{\mu}_1-\vect{\mu}_2)^t\Sigma^{-1}\!\left(\vect{x} - \frac{\vect{\mu}_1+\vect{\mu}_2}{2}\right).
  \end{align*}
  Esta cantidad es positiva iff se cumple la condición del enunciado.
\end{proof}

\subsubsection{$g$ subpoblaciones con igual $\Sigma$}

\begin{theorem}
  Con $g$ subpoblaciones gaussianas de igual covarianza $\Sigma$, el criterio
  de máxima verosimilitud equivale a la distancia de Mahalanobis:
  \[
    \text{Clasificar en } k = \arg\min_{j=1,\ldots,g}\;
    D^2(\vect{x},\vect{\mu}_j)
    \;:=\; (\vect{x}-\vect{\mu}_j)^t\Sigma^{-1}(\vect{x}-\vect{\mu}_j).
  \]
\end{theorem}

\begin{proof}
  Maximizar $\mathcal{L}(\vect{x}\mid j) = |2\pi\Sigma|^{-1/2}
  \exp\{-\tfrac{1}{2}D^2(\vect{x},\vect{\mu}_j)\}$ sobre $j$ equivale a
  minimizar $D^2(\vect{x},\vect{\mu}_j)$ sobre $j$, dado que el factor
  $|2\pi\Sigma|^{-1/2}$ es constante en $j$.
\end{proof}

Expandiendo $D^2(\vect{x},\vect{\mu}_j)$ y omitiendo el término
$\vect{x}^t\Sigma^{-1}\vect{x}$ (constante en $j$), la regla equivale a maximizar
las \textbf{funciones discriminantes lineales}:
\[
  \delta_j(\vect{x}) = \vect{\mu}_j^t\Sigma^{-1}\vect{x}
                       - \tfrac{1}{2}\vect{\mu}_j^t\Sigma^{-1}\vect{\mu}_j,
  \quad j=1,\ldots,g.
\]

\subsection{Discriminante cuadrático (QDA)}

Cuando las matrices de covarianzas $\Sigma_j$ son distintas entre grupos,
el criterio de máxima verosimilitud ya no produce fronteras lineales.

\begin{theorem}
  Con $\vect{x}\mid j \sim \mathcal{N}_p(\vect{\mu}_j, \Sigma_j)$ y matrices
  $\Sigma_j$ posiblemente distintas, se clasifica $\vect{x}$ en el grupo $k$ donde
  se maximiza la \textbf{función discriminante cuadrática}:
  \[
    q_j(\vect{x}) = -\tfrac{1}{2}\vect{x}^t\Sigma_j^{-1}\vect{x}
                   + \vect{\mu}_j^t\Sigma_j^{-1}\vect{x}
                   - \tfrac{1}{2}\ln|\Sigma_j|
                   - \tfrac{1}{2}\vect{\mu}_j^t\Sigma_j^{-1}\vect{\mu}_j.
  \]
\end{theorem}

\begin{proof}
  Tomando logaritmos en la verosimilitud y descartando la constante $-\tfrac{p}{2}\ln(2\pi)$:
  \[
    \ln\mathcal{L}(\vect{x}\mid j)
    = -\tfrac{1}{2}\ln|\Sigma_j|
      - \tfrac{1}{2}(\vect{x}-\vect{\mu}_j)^t\Sigma_j^{-1}(\vect{x}-\vect{\mu}_j).
  \]
  Expandiendo la forma cuadrática se obtiene directamente $q_j(\vect{x})$.
\end{proof}

\noindent Las fronteras de decisión son ahora superficies cuadráticas (hiperboloides,
elipsoides o paraboloides según los $\Sigma_j$), en contraste con los hiperplanos del
caso lineal.

\subsection{El método bayesiano}

En muchas aplicaciones existe información a priori sobre la frecuencia relativa
de cada grupo en la población.

\begin{definition}
  Sean $\pi_j > 0$, $\sum_j \pi_j = 1$, las \textbf{probabilidades a priori}
  de pertenencia al grupo $j$. El \textbf{método bayesiano} asigna $\vect{x}$
  al grupo $k$ donde se maximiza la probabilidad a posteriori:
  \[
    \max_{j=1,\ldots,g}\; \mathcal{L}(\vect{x}\mid j)\,\pi_j.
  \]
\end{definition}

\begin{remark}
  La maximización de $\mathcal{L}(\vect{x}\mid j)\pi_j$ es equivalente a la
  de $\mathcal{L}(j\mid\vect{x}) = \mathcal{L}(\vect{x}\mid j)\pi_j \,/\, \mathcal{L}(\vect{x})$,
  pues el denominador no depende de $j$.
  Si $\pi_j = 1/g$ para todo $j$, el método bayesiano se reduce al de máxima verosimilitud.
\end{remark}

\subsubsection{LDA bayesiano}

Para subpoblaciones gaussianas con igual $\Sigma$, el método bayesiano
maximiza sobre $j$:
\[
  \delta_j^{\text{B}}(\vect{x}) = \vect{\mu}_j^t\Sigma^{-1}\vect{x}
  - \tfrac{1}{2}\vect{\mu}_j^t\Sigma^{-1}\vect{\mu}_j + \ln\pi_j.
\]

\subsubsection{QDA bayesiano}

Con matrices $\Sigma_j$ distintas, se maximiza:
\[
  q_j^{\text{B}}(\vect{x}) = q_j(\vect{x}) + \ln\pi_j.
\]

% ════════════════════════════════════════════════════════════════════════════
\section{Estimación de parámetros desconocidos}
% ════════════════════════════════════════════════════════════════════════════

En la práctica, los parámetros $\vect{\mu}_j$ y $\Sigma$ (o $\Sigma_j$)
son desconocidos y se sustituyen por sus estimadores de máxima verosimilitud
a partir de las muestras de entrenamiento:
\[
  \hat{\vect{\mu}}_j = \bar{\vect{x}}_j, \qquad
  \hat{\Sigma} = \frac{1}{n}\mat{W} = \frac{1}{n}\sum_{k=1}^g n_k \mat{S}_k
  \quad (\text{caso LDA}),
\]
\[
  \hat{\Sigma}_j = \mat{S}_j \quad (\text{caso QDA}).
\]

Las reglas de clasificación resultantes se denominan, respectivamente,
\textbf{LDA muestral} y \textbf{QDA muestral}.

\begin{remark}
  Cuando $p$ es grande respecto a $n$, la estimación de $\Sigma$ es inestable.
  En esos casos es habitual usar versiones regularizadas:
  $\hat{\Sigma}_\alpha = (1-\alpha)\hat{\Sigma} + \alpha\mat{I}$, con $\alpha \in [0,1]$
  escogido por validación cruzada.
\end{remark}

% ════════════════════════════════════════════════════════════════════════════
\section{Resumen y relación entre métodos}
% ════════════════════════════════════════════════════════════════════════════

\begin{center}
\begin{tabular}{llll}
\toprule
\textbf{Método} & \textbf{Supuesto} & \textbf{Frontera} & \textbf{Criterio} \\
\midrule
LDA & $\Sigma_j = \Sigma$ & Lineal & $\max_j \delta_j(\vect{x})$ \\
LDA bayesiano & $\Sigma_j = \Sigma$, $\pi_j$ conocidas & Lineal & $\max_j \delta_j^{\text{B}}(\vect{x})$ \\
QDA & $\Sigma_j$ distintas & Cuadrática & $\max_j q_j(\vect{x})$ \\
QDA bayesiano & $\Sigma_j$ distintas, $\pi_j$ conocidas & Cuadrática & $\max_j q_j^{\text{B}}(\vect{x})$ \\
Análisis factorial & Descriptivo & --- & Vectores propios de $\mat{W}^{-1}\mat{B}$ \\
\bottomrule
\end{tabular}
\end{center}

\bigskip

La conexión entre los dos grandes enfoques es la siguiente:
el \textbf{análisis factorial discriminante} (aspecto descriptivo) produce las
direcciones $\vect{a}_1,\ldots,\vect{a}_s$ que maximizan progresivamente la
separación entre grupos; el \textbf{análisis discriminante clásico}
(aspecto decisional) usa reglas probabilísticas para asignar nuevos individuos.
Ambos comparten la descomposición $\mat{T} = \mat{W} + \mat{B}$ como
herramienta algebraica fundamental.

\end{document}
