\documentclass[12pt, a4paper]{article}

\usepackage[utf8]{inputenc}
\usepackage[T1]{fontenc}
\usepackage[spanish]{babel}
\usepackage{amsmath, amssymb, amsthm}
\usepackage{mathtools}
\usepackage{geometry}
\usepackage{hyperref}
\usepackage{booktabs}
\usepackage{enumitem}
\usepackage{xcolor}
\usepackage{tcolorbox}
\tcbuselibrary{theorems, skins, breakable}

\geometry{margin=2.5cm}

\hypersetup{
    colorlinks=true,
    linkcolor=blue!60!black,
    citecolor=green!50!black,
    urlcolor=blue!70!black
}

% --- Theorem environments ---
\newtheoremstyle{defnstyle}{8pt}{8pt}{\itshape}{}{\bfseries}{.}{.5em}{}
\theoremstyle{definition}
\newtheorem{definition}{Definición}[section]
\newtheorem{example}{Ejemplo}[section]
\newtheorem{remark}{Observación}[section]

\theoremstyle{plain}
\newtheorem{theorem}{Teorema}[section]
\newtheorem{proposition}{Proposición}[section]
\newtheorem{lemma}{Lema}[section]
\newtheorem{corollary}{Corolario}[section]

% --- Custom boxes ---
\newtcolorbox{modelbox}{
    enhanced, breakable,
    colback=blue!5!white, colframe=blue!50!black,
    title=Modelo Factorial,
    fonttitle=\bfseries,
    boxrule=0.8pt, arc=4pt
}
\newtcolorbox{keyresultbox}{
    enhanced, breakable,
    colback=green!5!white, colframe=green!50!black,
    fonttitle=\bfseries,
    boxrule=0.8pt, arc=4pt
}

% --- Math macros ---
\newcommand{\Cov}{\operatorname{Cov}}
\newcommand{\Var}{\operatorname{Var}}
\newcommand{\E}{\mathbb{E}}
\newcommand{\R}{\mathbb{R}}
\newcommand{\hvec}{\vec{h}}
\newcommand{\xvec}{\vec{x}}
\newcommand{\muvec}{\vec{\mu}}
\newcommand{\fvec}{\vec{f}}
\newcommand{\uvec}{\vec{u}}
\newcommand{\mufvec}{\vec{\mu}_f}
\newcommand{\muvecstar}{\vec{\mu}^*}
\DeclareMathOperator{\rg}{rg}

\title{%
    \textbf{Análisis Factorial}\\[0.5em]
    \large Un estudio teórico con demostraciones completas
}
\author{%
    Basado en los apuntes de Norberto Corral Blanco y Beatriz Sinova Fernández\\
    \small Grado en Matemáticas --- Universidad de Oviedo
}
\date{}

\begin{document}

\maketitle
\tableofcontents
\bigskip

%=============================================================
\section{Introducción}
%=============================================================

El \textbf{análisis factorial} es una técnica estadística multivariante cuyo objetivo es explicar un conjunto de $p$ variables observadas a través de un número reducido $m < p$ de variables latentes, no observadas directamente, denominadas \emph{factores}.

La idea central puede ilustrarse con el siguiente ejemplo motivador.

\begin{example}[Medidas corporales]
Si tomamos muchas medidas físicas del cuerpo humano (estatura, longitud de brazos y piernas, anchura de hombros, peso, etc.), es intuitivo que no son independientes. Conocidas algunas de ellas, es posible prever las restantes con relativa precisión. Una explicación natural es que todas estas dimensiones dependen de ciertos \emph{factores subyacentes} (por ejemplo, la constitución genética, el estado nutricional), que, si fuesen conocidos, permitirían predecir las variables observadas con un error pequeño.
\end{example}

Desde el punto de vista histórico, la técnica nació del interés de Karl Pearson y Charles Spearman en las décadas de 1900--1930 por comprender las dimensiones de la inteligencia humana. Gran parte de sus avances se produjeron en el ámbito de la \emph{psicometría}.

\medskip

\textbf{Objetivo formal:} Explicar por qué una serie de variables observadas están correladas entre sí mediante un número reducido de factores subyacentes, de comportamiento aleatorio y no observable, que están presentes en todas las variables.

\begin{remark}
La diferencia fundamental con las \emph{componentes principales} es que éstas buscan explicar las \textbf{varianzas}, mientras que los factores se construyen para explicar las \textbf{covarianzas o correlaciones} entre las variables.
\end{remark}

%=============================================================
\section{El Modelo Factorial}
%=============================================================

\subsection{Formulación}

\begin{modelbox}
Sea $\xvec$ un vector aleatorio de dimensión $p \times 1$. El \textbf{modelo factorial} con $m$ factores ($m < p$) establece que
\[
\xvec = \muvec + \Lambda \fvec + \uvec,
\]
donde:
\begin{itemize}
    \item $\muvec \in \R^p$: vector de medias de $\xvec$.
    \item $\Lambda \in \R^{p \times m}$: \emph{matriz de pesos (cargas) factoriales}, que describe cómo afectan los factores a cada variable.
    \item $\fvec \in \R^m$: vector de \emph{factores comunes} (variables latentes).
    \item $\uvec \in \R^p$: vector de \emph{factores específicos} (perturbaciones idiosincráticas).
\end{itemize}
\end{modelbox}

Componente a componente, el modelo se escribe como
\[
x_i = \mu_i + \sum_{j=1}^{m} \lambda_{ij} f_j + u_i, \qquad i = 1, \ldots, p.
\]

Los factores $\fvec$ justifican la \emph{asociación} que existe entre las variables $x_i$, mientras que $\uvec$ recoge todo el efecto no compartido.

\subsection{Hipótesis básicas}

Las hipótesis del modelo son las siguientes:

\begin{enumerate}[label=\textbf{H\arabic*.}]
    \item $\E(\fvec) = \vec{0}$ \quad (factores comunes centrados).
    \item $\Cov(\fvec) = I_m$ \quad (factores comunes estandarizados e incorrelados).
    \item $\E(\uvec) = \vec{0}$ \quad (factores específicos centrados).
    \item $\Cov(\uvec) = \Psi = \operatorname{diag}(\psi_{11}, \ldots, \psi_{pp})$ \quad (factores específicos incorrelados entre sí).
    \item $\Cov(\fvec, \uvec) = 0$ \quad (independencia entre factores comunes y específicos).
\end{enumerate}

\begin{remark}
En la bibliografía se añade a veces la hipótesis de normalidad conjunta de $\fvec$ y $\uvec$, pero ésta no es estrictamente necesaria para la formulación del modelo ni para la estimación por el método del factor principal.
\end{remark}

\subsection{Necesidad de las hipótesis básicas}

A continuación justificamos cuáles de las cinco hipótesis son \emph{esenciales} y cuáles pueden relajarse sin pérdida de generalidad.

\begin{proposition}
Las hipótesis \textbf{H1} y \textbf{H3} (centrado de $\fvec$ y $\uvec$) no son restrictivas: si no se verifican, se puede reformular el modelo de manera equivalente que sí las satisfaga.
\end{proposition}

\begin{proof}
\textbf{Respecto a H1.} Supongamos que $\E(\fvec) = \mufvec \neq \vec{0}$. Entonces
\[
\xvec = \muvec + \Lambda \fvec + \uvec
= \muvec + \Lambda(\fvec - \mufvec) + \Lambda \mufvec + \uvec
= \muvecstar + \Lambda \fvec^* + \uvec,
\]
donde $\muvecstar = \muvec + \Lambda \mufvec$ y $\fvec^* = \fvec - \mufvec$. Como $\E(\fvec^*) = \E(\fvec) - \mufvec = \vec{0}$, el nuevo modelo satisface H1.

\medskip
\textbf{Respecto a H3.} El razonamiento es análogo. Si $\E(\uvec) = \mu_u \neq \vec{0}$, definimos $\muvecstar = \muvec + \mu_u$ y $\uvec^* = \uvec - \mu_u$. Entonces $\E(\uvec^*) = \vec{0}$ y el modelo $\xvec = \muvecstar + \Lambda \fvec + \uvec^*$ es equivalente.
\end{proof}

\begin{proposition}
La hipótesis \textbf{H2} ($\Cov(\fvec) = I_m$) no es restrictiva: si los factores tienen covarianzas arbitrarias, siempre existe una parametrización equivalente que satisface H2.
\end{proposition}

\begin{proof}
\textbf{Caso 1: $\Cov(\fvec) = D$ diagonal.} Sea $D = \operatorname{diag}(\sigma^2_{f_1}, \ldots, \sigma^2_{f_m})$ y $D^{1/2} = \operatorname{diag}(\sigma_{f_1}, \ldots, \sigma_{f_m})$. Entonces
\[
\xvec = \muvec + \Lambda \fvec + \uvec
= \muvec + \Lambda D^{1/2} D^{-1/2} \fvec + \uvec
= \muvec + \Lambda^* \fvec^* + \uvec,
\]
con $\Lambda^* = \Lambda D^{1/2}$ y $\fvec^* = D^{-1/2} \fvec$. Calculamos
\[
\Cov(\fvec^*) = D^{-1/2} \Cov(\fvec) D^{-1/2} = D^{-1/2} D D^{-1/2} = I_m.
\]

\textbf{Caso 2: $\Cov(\fvec) = A$ no diagonal con $|A| \neq 0$.}
Como $A$ es simétrica semidefinida positiva, admite la descomposición espectral $A = U D U^t$, donde $U$ es ortogonal y $D$ diagonal. Definimos $A^{1/2} = U D^{1/2} U^t$ (raíz cuadrada simétrica de $A$) y $A^{-1/2} = U D^{-1/2} U^t$. Entonces
\[
\xvec = \muvec + \Lambda A^{1/2} A^{-1/2} \fvec + \uvec = \muvec + \Lambda^* \fvec^* + \uvec,
\]
con $\Lambda^* = \Lambda A^{1/2}$ y $\fvec^* = A^{-1/2} \fvec$. Verificamos que $A^{-1/2}$ es simétrica:
\[
(A^{-1/2})^t = (U D^{-1/2} U^t)^t = U D^{-1/2} U^t = A^{-1/2},
\]
y que la nueva covarianza es la identidad:
\[
\Cov(\fvec^*) = A^{-1/2} \Cov(\fvec) (A^{-1/2})^t = A^{-1/2} A A^{-1/2} = I_m.
\]

\textbf{Caso 3: $|A| = 0$.} En este caso algún factor, digamos $f_m$, es combinación lineal de los demás: $f_m = a_1 f_1 + \cdots + a_{m-1} f_{m-1}$. Sustituyendo en la expresión de $x_i$:
\[
x_i = \mu_i + \sum_{j=1}^{m-1} \lambda_{ij} f_j + \lambda_{im} f_m + u_i
= \mu_i + \sum_{j=1}^{m-1} \left(\lambda_{ij} + \lambda_{im} a_j\right) f_j + u_i,
\]
lo que define un modelo equivalente con $m-1$ factores y cargas $\lambda^*_{ij} = \lambda_{ij} + \lambda_{im} a_j$. Se puede continuar reduciendo factores hasta alcanzar una matriz de covarianzas no singular.
\end{proof}

\begin{remark}
La hipótesis H2 se impone para que la interpretación sea más sencilla y para garantizar la identificabilidad del modelo (sin ella, la misma covarianza observada $\Sigma$ puede generarse con infinitas matrices $\Lambda$ diferentes).
\end{remark}

\begin{proposition}
Las hipótesis \textbf{H4} y \textbf{H5} son genuinamente restrictivas y hacen parte esencial del modelo factorial.
\end{proposition}

\begin{proof}
\textbf{Respecto a H4.} Cada factor específico $u_i$ afecta a una única variable $x_i$ por construcción; es por tanto natural exigir que distintos factores específicos no estén relacionados entre sí. Si existiese correlación entre $u_i$ y $u_k$, ésta podría absorberse en los factores comunes, perdiendo la distinción entre la parte compartida y la parte específica.

\textbf{Respecto a H5.} Si $\Cov(\fvec, \uvec) \neq 0$, los factores específicos influirían en los factores comunes, dejando de ser específicos de una sola variable. Esto haría imposible separar la variabilidad compartida de la idiosincrática.
\end{proof}

%=============================================================
\section{Consecuencias del Modelo: Estructura de Covarianzas}
%=============================================================

\subsection{Descomposición de la matriz de covarianzas}

El resultado fundamental del análisis factorial es la expresión de $\Sigma = \Cov(\xvec)$ en términos de los parámetros del modelo.

\begin{theorem}[Descomposición factorial de $\Sigma$]
\label{thm:decomp}
Bajo las hipótesis \textbf{H1}--\textbf{H5},
\[
\Sigma = \Cov(\xvec) = \Lambda \Lambda^t + \Psi.
\]
\end{theorem}

\begin{proof}
Como $\E(\xvec) = \muvec$, tenemos $\xvec - \muvec = \Lambda \fvec + \uvec$. Por tanto,
\begin{align*}
\Sigma &= \E\!\left[(\xvec - \muvec)(\xvec - \muvec)^t\right]
= \E\!\left[(\Lambda \fvec + \uvec)(\Lambda \fvec + \uvec)^t\right]\\
&= \E\!\left[\Lambda \fvec \fvec^t \Lambda^t\right]
+ \E\!\left[\Lambda \fvec \uvec^t\right]
+ \E\!\left[\uvec \fvec^t \Lambda^t\right]
+ \E\!\left[\uvec \uvec^t\right].
\end{align*}
Analizamos cada término:
\begin{align*}
\E\!\left[\Lambda \fvec \fvec^t \Lambda^t\right] &= \Lambda \Cov(\fvec) \Lambda^t
\stackrel{\text{H2}}{=} \Lambda I_m \Lambda^t = \Lambda \Lambda^t,\\
\E\!\left[\Lambda \fvec \uvec^t\right] &= \Lambda \Cov(\fvec, \uvec)
\stackrel{\text{H5}}{=} \Lambda \cdot 0 = 0,\\
\E\!\left[\uvec \fvec^t \Lambda^t\right] &= \Cov(\uvec, \fvec) \Lambda^t
\stackrel{\text{H5}}{=} 0,\\
\E\!\left[\uvec \uvec^t\right] &= \Cov(\uvec) \stackrel{\text{H4}}{=} \Psi.
\end{align*}
Sumando los cuatro términos obtenemos $\Sigma = \Lambda \Lambda^t + \Psi$.
\end{proof}

\subsection{Comunalidad y especificidad}

Consideramos el elemento diagonal $(i, i)$ de la descomposición anterior.

\begin{definition}[Comunalidad y especificidad]
Para la variable $x_i$, la \textbf{varianza} se descompone como
\[
\sigma_i^2 = \Var(x_i) = \sum_{j=1}^{m} \lambda_{ij}^2 + \psi_{ii} = h_i^2 + \psi_{ii},
\]
donde:
\begin{itemize}
    \item $h_i^2 = \displaystyle\sum_{j=1}^{m} \lambda_{ij}^2$ es la \textbf{comunalidad} de $x_i$: fracción de la varianza de $x_i$ explicada por los factores comunes.
    \item $\psi_{ii}$ es la \textbf{especificidad} (o unicidad) de $x_i$: fracción de la varianza de $x_i$ no compartida con las demás variables.
\end{itemize}
\end{definition}

\begin{proof}
Aplicamos el Teorema~\ref{thm:decomp} al elemento $(i,i)$:
\[
\sigma_i^2 = (\Lambda \Lambda^t + \Psi)_{ii} = (\Lambda \Lambda^t)_{ii} + \psi_{ii}.
\]
Calculamos $(\Lambda \Lambda^t)_{ii}$: la fila $i$ de $\Lambda$ es $(\lambda_{i1}, \ldots, \lambda_{im})$, luego
\[
(\Lambda \Lambda^t)_{ii} = \sum_{j=1}^{m} \lambda_{ij}^2 = h_i^2. \qedhere
\]
\end{proof}

\subsection{Covarianza entre variables y entre variables y factores}

\begin{proposition}[Covarianza entre variables]
Para $i \neq k$,
\[
\Cov(x_i, x_k) = \sum_{j=1}^{m} \lambda_{ij} \lambda_{kj} = (\Lambda \Lambda^t)_{ik}.
\]
En particular, la asociación entre $x_i$ y $x_k$ depende \emph{exclusivamente} de los factores comunes.
\end{proposition}

\begin{proof}
Dado que $x_i - \mu_i = \sum_{j=1}^m \lambda_{ij} f_j + u_i$ y $x_k - \mu_k = \sum_{j=1}^m \lambda_{kj} f_j + u_k$,
\begin{align*}
\Cov(x_i, x_k) &= \E\!\left[\left(\sum_{j=1}^m \lambda_{ij} f_j + u_i\right)\left(\sum_{j=1}^m \lambda_{kj} f_j + u_k\right)\right]\\
&= \sum_{j=1}^m \sum_{l=1}^m \lambda_{ij} \lambda_{kl} \underbrace{\E(f_j f_l)}_{\delta_{jl}}
+ \sum_{j=1}^m \lambda_{ij} \underbrace{\E(f_j u_k)}_{0}
+ \sum_{j=1}^m \lambda_{kj} \underbrace{\E(u_i f_j)}_{0}
+ \underbrace{\E(u_i u_k)}_{0}\\
&= \sum_{j=1}^m \lambda_{ij} \lambda_{kj},
\end{align*}
donde hemos usado H2 ($\E(f_j f_l) = \delta_{jl}$), H5 y H4 ($\E(u_i u_k) = 0$ para $i \neq k$).
\end{proof}

\begin{proposition}[Covarianza entre variables y factores]
\[
\Cov(\xvec, \fvec) = \Lambda.
\]
Es decir, el peso factorial $\lambda_{ij}$ es la covarianza entre la variable $x_i$ y el factor $f_j$.
\end{proposition}

\begin{proof}
\[
\Cov(\xvec, \fvec) = \E\!\left[(\xvec - \muvec) \fvec^t\right]
= \E\!\left[(\Lambda \fvec + \uvec) \fvec^t\right]
= \Lambda \underbrace{\E(\fvec \fvec^t)}_{I_m} + \underbrace{\E(\uvec \fvec^t)}_{0}
= \Lambda. \qedhere
\]
\end{proof}

%=============================================================
\section{Unicidad del Modelo Factorial}
%=============================================================

\subsection{Fuentes de indeterminación}

El modelo factorial no es único. Existen dos tipos de indeterminación:

\begin{enumerate}
    \item \textbf{Indeterminación por correlación entre factores:} ya hemos visto (Proposición~2) que los factores pueden estar correlados o incorrelados sin cambiar la matriz $\Sigma$.
    \item \textbf{Indeterminación por rotación:} si $C$ es cualquier matriz ortogonal $m \times m$, el modelo con $\Lambda^* = \Lambda C^t$ y $\fvec^* = C \fvec$ es indistinguible del original.
\end{enumerate}

\begin{theorem}[Indeterminación por rotación]
Sea $C \in \R^{m \times m}$ cualquier matriz ortogonal ($C C^t = I_m$). Define $\Lambda^* = \Lambda C^t$ y $\fvec^* = C \fvec$. Entonces el modelo $\xvec = \muvec + \Lambda^* \fvec^* + \uvec$ satisface todas las hipótesis \textbf{H1}--\textbf{H5} y produce la misma descomposición de $\Sigma$.
\end{theorem}

\begin{proof}
Verificamos que el nuevo modelo satisface H2:
\[
\Cov(\fvec^*) = C \Cov(\fvec) C^t \stackrel{\text{H2}}{=} C I_m C^t = C C^t = I_m.
\]
Y que la descomposición de $\Sigma$ se preserva:
\[
\Lambda^* (\Lambda^*)^t + \Psi = \Lambda C^t C \Lambda^t + \Psi = \Lambda (C^t C) \Lambda^t + \Psi = \Lambda \Lambda^t + \Psi = \Sigma. \qedhere
\]
\end{proof}

\subsection{Condiciones de unicidad: el criterio $\Lambda^t \Lambda$ diagonal}

Para eliminar la indeterminación por rotación, se imponen restricciones adicionales sobre $\Lambda$.

\begin{definition}[Criterio de unicidad]
Se dice que $\Lambda$ satisface el \textbf{criterio canónico} si $\Lambda^t \Lambda$ es diagonal con entradas decrecientes.
\end{definition}

\begin{theorem}[Existencia y unicidad bajo el criterio canónico]
Si $\Sigma - \Psi = \Lambda \Lambda^t$ y $\Lambda^t \Lambda$ no es diagonal, existe una rotación $C$ ortogonal tal que $\Lambda^* = \Lambda C^t$ satisface $(\Lambda^*)^t \Lambda^* = D$ diagonal. Además, ninguna otra rotación ortogonal no trivial de $\Lambda^*$ produce una matriz diagonal.
\end{theorem}

\begin{proof}
Como $\Lambda^t \Lambda$ es simétrica y semidefinida positiva, admite la descomposición espectral
\[
\Lambda^t \Lambda = U D U^t,
\]
con $U$ ortogonal y $D$ diagonal. Definimos $C = U^t$ (ortogonal). Entonces
\[
(\Lambda^*)^t \Lambda^* = (C^t)^t \Lambda^t \Lambda C^t = U \Lambda^t \Lambda U^t = U U D U^t U^t = D,
\]
que es diagonal. Para la unicidad, supongamos que $\Lambda^{**} = \Lambda^* C'$ para alguna matriz ortogonal $C'$. Entonces
\[
(\Lambda^{**})^t \Lambda^{**} = (C')^t (\Lambda^*)^t \Lambda^* C' = (C')^t D C'.
\]
Esta expresión es diagonal si y solo si $C'$ diagonaliza $D$, lo que, siendo $D$ ya diagonal, ocurre solo cuando $C'$ es una matriz de permutaciones o de signos (matrices de permutación con entradas $\pm 1$), que corresponden a reordenar y cambiar el signo de los factores, ambigüedad irreducible y sin consecuencias interpretativas.
\end{proof}

\begin{remark}
El criterio alternativo $\Lambda^t \Psi^{-1} \Lambda$ diagonal conduce al método de máxima verosimilitud y es el preferido en estimación bajo normalidad.
\end{remark}

%=============================================================
\section{Número Máximo de Factores}
%=============================================================

\begin{theorem}[Cota del número de factores]
El número máximo de factores $m$ admisible en el modelo factorial con $p$ variables es el mayor entero $m$ tal que
\[
p(m+1) - \frac{m(m-1)}{2} \leq \frac{p(p+1)}{2}.
\]
\end{theorem}

\begin{proof}
La matriz de covarianzas $\Sigma$ tiene $\frac{p(p+1)}{2}$ parámetros libres (es simétrica). Por otro lado, el modelo $\Sigma = \Lambda \Lambda^t + \Psi$ tiene:
\begin{itemize}
    \item $pm$ parámetros en $\Lambda$ (matriz $p \times m$),
    \item $p$ parámetros en $\Psi$ (diagonal),
\end{itemize}
es decir, $p(m+1)$ parámetros en total. Sin embargo, la condición $\Lambda^t \Lambda$ diagonal impone que $\frac{m(m-1)}{2}$ elementos fuera de la diagonal sean cero, reduciendo el número efectivo de parámetros a
\[
p(m+1) - \frac{m(m-1)}{2}.
\]
Para que el sistema de ecuaciones $\Sigma = \Lambda \Lambda^t + \Psi$ sea compatible determinado (o sobredeterminado), el número de ecuaciones debe ser al menos igual al de incógnitas:
\[
p(m+1) - \frac{m(m-1)}{2} \leq \frac{p(p+1)}{2}. \qedhere
\]
\end{proof}

\begin{corollary}
La diferencia $\frac{p(p+1)}{2} - \left[p(m+1) - \frac{m(m-1)}{2}\right] = \frac{(p-m)^2 - (p+m)}{2}$ es positiva (sistema sobredeterminado) siempre que $p > m$, lo que es precisamente la hipótesis del modelo.
\end{corollary}

\begin{proof}
\begin{align*}
\frac{p(p+1)}{2} - p(m+1) + \frac{m(m-1)}{2}
&= \frac{p^2 + p - 2pm - 2p + m^2 - m}{2}\\
&= \frac{p^2 - 2pm + m^2 - p - m}{2}\\
&= \frac{(p-m)^2 - (p+m)}{2}.
\end{align*}
Esta cantidad es positiva cuando $(p-m)^2 > p+m$, lo que se verifica para $p$ suficientemente mayor que $m$.
\end{proof}

%=============================================================
\section{Estimación: El Método del Factor Principal}
%=============================================================

\subsection{Planteamiento}

A partir de una muestra de $n$ observaciones del vector $\xvec$, se estima $\Sigma$ mediante la matriz de varianzas-covarianzas muestral:
\[
S = \frac{1}{n} X^t H X,
\]
donde $X$ es la matriz de datos (centrada) y $H = I_n - \frac{1}{n} \mathbf{1}\mathbf{1}^t$ es la matriz de centrado.

El objetivo es estimar $\Lambda$ (y $\Psi$) a partir de $S - \hat{\Psi} = \Lambda \Lambda^t$.

\subsection{Algoritmo iterativo}

\begin{theorem}[Estimador del factor principal]
La solución al sistema $S - \hat{\Psi} = \Lambda \Lambda^t$ bajo el criterio $\Lambda^t \Lambda$ diagonal es
\[
\hat{\Lambda} = U_1 D_1^{1/2},
\]
donde $U_1$ es la matriz $p \times m$ formada por los $m$ vectores propios asociados a los valores propios no nulos de $S - \hat{\Psi}$, y $D_1^{1/2}$ es la raíz cuadrada de la matriz diagonal de dichos valores propios.
\end{theorem}

\begin{proof}
Como $S - \hat{\Psi} = \Lambda \Lambda^t$ es simétrica y de rango $m$ (pues $\Lambda$ tiene dimensión $p \times m$ con $m < p$), admite la descomposición espectral
\[
S - \hat{\Psi} = U D U^t = \begin{pmatrix} U_1 & U_2 \end{pmatrix}
\begin{pmatrix} D_1 & 0 \\ 0 & 0 \end{pmatrix}
\begin{pmatrix} U_1^t \\ U_2^t \end{pmatrix}
= U_1 D_1 U_1^t,
\]
donde $D_1$ contiene los $m$ valores propios no nulos y $U_1$ sus correspondientes vectores propios (ortonormales). Escribiendo $D_1 = D_1^{1/2} D_1^{1/2}$:
\[
S - \hat{\Psi} = U_1 D_1^{1/2} D_1^{1/2} U_1^t = \hat{\Lambda} \hat{\Lambda}^t,
\]
con $\hat{\Lambda} = U_1 D_1^{1/2}$.

Verificamos el criterio de unicidad:
\[
\hat{\Lambda}^t \hat{\Lambda} = D_1^{1/2} U_1^t U_1 D_1^{1/2} = D_1^{1/2} I_m D_1^{1/2} = D_1,
\]
que es diagonal. \qedhere
\end{proof}

\subsection{Algoritmo completo}

El proceso de estimación es iterativo porque $\Psi$ es desconocida:

\begin{enumerate}
    \item \textbf{Inicialización de $\hat{\Psi}$:}
    \begin{itemize}
        \item \textit{Opción A:} $\hat{\psi}_{ii} = 0$ para todo $i$ (equivalente a las componentes principales de $S$; puede introducir mucho sesgo).
        \item \textit{Opción B:} $\hat{\psi}_{ii} = S_{ii}(1 - R_i^2)$, donde $R_i^2$ es el coeficiente de determinación de $x_i$ en la regresión sobre todas las demás variables. Equivalentemente, $\hat{\psi}_{ii} = \frac{1}{(S^{-1})_{ii}}$.\\
        Justificación: Los factores comunes son los únicos que intervienen en todas las variables $x_i$; es razonable estimar la comunalidad $h_i^2 = S_{ii} - \psi_{ii}$ mediante la variación de $x_i$ que puede explicarse con el resto: $\hat{h}_i^2 = S_{ii} R_i^2$.
    \end{itemize}

    \item \textbf{Primera estimación de $\hat{\Lambda}$:} aplicar el Teorema anterior a $S - \hat{\Psi}$, tomando los $m$ mayores valores propios.

    \item \textbf{Actualización de $\hat{\Psi}$:} 
    \[
    \hat{\Psi} = S - \hat{\Lambda} \hat{\Lambda}^t.
    \]

    \item \textbf{Convergencia:} repetir los pasos 2--3 hasta que la diferencia entre iteraciones consecutivas de $\hat{\Psi}$ sea inferior a un umbral prefijado.
\end{enumerate}

%=============================================================
\section{Rotación de Factores}
%=============================================================

\subsection{Motivación}

Dado que el modelo factorial es indeterminado frente a rotaciones ortogonales, la solución obtenida por el algoritmo anterior puede no tener una interpretación clara. La idea es buscar una rotación $C$ tal que la nueva matriz $\Lambda^* = \hat{\Lambda} C^t$ tenga cargas factoriales con valores muy altos para ciertas variables y muy bajos para otras, facilitando la identificación de los factores con grupos de variables.

\subsection{Criterio varimax}

\begin{definition}[Criterio varimax]
El \textbf{criterio varimax} (Kaiser, 1958) busca la matriz ortogonal $C$ que maximiza la varianza de los cuadrados de las cargas factoriales normalizadas por columnas. Formalmente, se maximiza
\[
V = \sum_{j=1}^{m} \Var\!\left(\lambda_{1j}^{*2}, \ldots, \lambda_{pj}^{*2}\right)
= \sum_{j=1}^{m} \left[\frac{1}{p}\sum_{i=1}^p \lambda_{ij}^{*4} - \left(\frac{1}{p}\sum_{i=1}^p \lambda_{ij}^{*2}\right)^2\right],
\]
donde $\lambda_{ij}^* = (\Lambda^*)_{ij}$ son las cargas de $\Lambda^* = \hat{\Lambda} C^t$.
\end{definition}

\begin{remark}
Maximizar la varianza de los cuadrados de las cargas equivale a concentrar los valores altos y bajos: se obtiene una solución donde cada factor tiene cargas próximas a $\pm 1$ para un subconjunto de variables y próximas a $0$ para las restantes, lo que facilita su interpretación temática.
\end{remark}

\begin{remark}
El criterio varimax preserva las comunalidades, pues la rotación es ortogonal:
\[
\sum_{j=1}^m (\lambda_{ij}^*)^2 = \sum_{j=1}^m \lambda_{ij}^2 = h_i^2.
\]
\end{remark}

%=============================================================
\section{Resumen del Procedimiento}
%=============================================================

El procedimiento completo del análisis factorial puede resumirse en los siguientes pasos:

\begin{enumerate}
    \item \textbf{Decidir el número de factores $m$:} por la cota del Teorema 5, o mediante el criterio de Kaiser (retener los factores con valor propio $> 1$), o por el gráfico de sedimentación (\textit{scree plot}).
    \item \textbf{Estimar la matriz de cargas $\hat{\Lambda}$:} mediante el método del factor principal (o máxima verosimilitud).
    \item \textbf{Verificar la bondad del ajuste:} comprobar que $S \approx \hat{\Lambda}\hat{\Lambda}^t + \hat{\Psi}$ y que las comunalidades son razonables.
    \item \textbf{Rotar la solución:} aplicar el criterio varimax (u otro criterio de rotación) para mejorar la interpretabilidad.
    \item \textbf{Interpretar los factores:} asignar un nombre o significado a cada factor en función de las variables con mayor carga en él.
\end{enumerate}

%=============================================================
\appendix
\section{Apéndice: Propiedades de la Raíz Cuadrada de una Matriz}
%=============================================================

\begin{lemma}[Raíz cuadrada simétrica]
Sea $A \in \R^{n \times n}$ simétrica definida positiva con descomposición espectral $A = U D U^t$. Entonces la matriz $A^{1/2} = U D^{1/2} U^t$ (con $D^{1/2}$ la raíz cuadrada diagonal) satisface:
\begin{enumerate}[label=(\alph*)]
    \item $A^{1/2} A^{1/2} = A$.
    \item $A^{1/2}$ es simétrica.
    \item $A^{-1/2} = U D^{-1/2} U^t$ satisface $A^{-1/2} A^{1/2} = I_n$.
\end{enumerate}
\end{lemma}

\begin{proof}
\begin{enumerate}[label=(\alph*)]
    \item $A^{1/2} A^{1/2} = U D^{1/2} U^t \cdot U D^{1/2} U^t = U D^{1/2} I_n D^{1/2} U^t = U D U^t = A$.
    \item $(A^{1/2})^t = (U D^{1/2} U^t)^t = (U^t)^t (D^{1/2})^t U^t = U D^{1/2} U^t = A^{1/2}$, usando que $U^t$ es ortogonal y $D^{1/2}$ es diagonal (por tanto simétrica).
    \item $A^{-1/2} A^{1/2} = U D^{-1/2} U^t \cdot U D^{1/2} U^t = U D^{-1/2} D^{1/2} U^t = U I_m U^t = I_n$. \qedhere
\end{enumerate}
\end{proof}

\end{document}