\documentclass[12pt,a4paper]{article}

% ── Codificación y lengua ──────────────────────────────────────────────────────
\usepackage[utf8]{inputenc}
\usepackage[T1]{fontenc}

% ── Matemáticas ───────────────────────────────────────────────────────────────
\usepackage{amsmath, amsthm, amssymb}
\usepackage{mathtools}

% ── Tipografía y presentación ─────────────────────────────────────────────────
\usepackage[margin=2.5cm]{geometry}
\usepackage{setspace}
\onehalfspacing

% ── Referencias ───────────────────────────────────────────────────────────────
\usepackage[numbers,sort&compress]{natbib}

% ── Hipervínculos ─────────────────────────────────────────────────────────────
\usepackage{xcolor}
\usepackage[colorlinks=true, linkcolor=blue,
            citecolor=blue, urlcolor=blue]{hyperref}

% ── Entornos teoremáticos ─────────────────────────────────────────────────────
\theoremstyle{plain}
\newtheorem{teorema}{Teorema}[section]
\newtheorem{lema}[teorema]{Lema}
\newtheorem{corolario}[teorema]{Corolario}

\theoremstyle{definition}
\newtheorem{definicion}[teorema]{Definición}
\newtheorem{ejemplo}[teorema]{Ejemplo}

\theoremstyle{remark}
\newtheorem{observacion}[teorema]{Observación}

% ── Macros ────────────────────────────────────────────────────────────────────
\newcommand{\prob}{\xrightarrow{\,p\,}}
\newcommand{\dist}{\xrightarrow{\,d\,}}
\newcommand{\R}{\mathbb{R}}
\newcommand{\E}{\mathbb{E}}
\newcommand{\Var}{\operatorname{Var}}
\newcommand{\op}{o_p}
\newcommand{\Op}{O_p}
\newcommand{\tn}{\hat{\theta}_n}
\newcommand{\thetacero}{\theta_0}
\newcommand{\Ical}{\mathcal{I}}

% ── Título ────────────────────────────────────────────────────────────────────
\title{\textbf{Convergencia de funciones evaluadas en estimadores}\\\large
       y su aplicación al estadístico de razón de verosimilitud}
\author{}
\date{}

% ══════════════════════════════════════════════════════════════════════════════
\begin{document}
\maketitle
\tableofcontents
\bigskip

% ══════════════════════════════════════════════════════════════════════════════
\section{Introducción}

Un problema recurrente en estadística asintótica consiste en determinar
el comportamiento límite de una sucesión de la forma $g_n(\tn)$, donde
$\tn$ es un estimador que converge en probabilidad al verdadero parámetro
$\thetacero$, y $g_n$ es una sucesión de funciones que aproxima cierta
función límite $g$.  El caso más elemental, en que $g_n = g$ es fija y
continua, queda resuelto por el \emph{Teorema de la aplicación continua}
(Continuous Mapping Theorem, CMT).  Sin embargo, cuando la función misma
varía con $n$ — como ocurre con la segunda derivada normalizada de la
log-verosimilitud — se necesita un resultado adicional que autorice la
sustitución del argumento fijo $\thetacero$ por el argumento aleatorio
$\tn$.

El objetivo de este documento es doble.  En la Sección~\ref{sec:teorema}
se enuncia y demuestra el teorema general de convergencia para sucesiones
$g_n(\tn)$.  En la Sección~\ref{sec:wilks} se aplica dicho resultado para
derivar la distribución asintótica del estadístico $-2\ln\Lambda$ en el
caso más simple: hipótesis simple $H_0\colon\theta=\thetacero$ frente a
alternativa unidimensional $H_1\colon\theta\neq\thetacero$.  Este resultado
se conoce como \emph{Teorema de Wilks} \citep{wilks1938}.

% ══════════════════════════════════════════════════════════════════════════════
\section{Un teorema de convergencia para sucesiones \texorpdfstring{$g_n(\tn)$}{gn(thetahat)}}
\label{sec:teorema}

\subsection{Antecedentes: el Teorema de la aplicación continua}

Recordamos el resultado clásico del que partimos.

\begin{teorema}[Teorema de la aplicación continua {\citep[Teor.~2.3]{vaart1998}}]
\label{teo:cmt}
Sea $X_n \prob X$ y sea $g\colon\R^k\to\R^m$ continua en $x$ para
casi todo $x$ bajo la distribución de $X$.  Entonces
$g(X_n) \prob g(X)$.
\end{teorema}

El Teorema~\ref{teo:cmt} cubre únicamente el caso de función fija $g$.
Cuando la función también cambia con $n$, la conclusión puede fallar si
$g_n$ no aproxima $g$ con suficiente uniformidad.

\subsection{El resultado principal}

\begin{teorema}[Convergencia de $g_n(\tn)$]
\label{teo:principal}
Sea $\Theta\subseteq\R$ un espacio paramétrico y $\thetacero\in\Theta$.
Supóngase que:
\begin{enumerate}
  \item[\textup{(C1)}] $\tn \prob \thetacero$.
  \item[\textup{(C2)}] Existe un entorno abierto $U\ni\thetacero$ tal que
        \[
          \sup_{t\in U}\lvert g_n(t) - g(t)\rvert \;\xrightarrow{n\to\infty}\; 0.
        \]
  \item[\textup{(C3)}] $g$ es continua en $\thetacero$.
\end{enumerate}
Entonces $g_n(\tn) \prob g(\thetacero)$.
\end{teorema}

\begin{observacion}
La condición (C3) suele ser consecuencia de (C2): si las $g_n$ son
equicontinuas en $\thetacero$ y convergen puntualmente allí, su límite $g$
hereda la continuidad.  En la práctica, (C2) se establece mediante una
\emph{ley uniforme de los grandes números} (LUGN); véase
\citet[Cap.~5]{vaart1998}.
\end{observacion}

\begin{proof}
Descomponemos el error mediante la desigualdad triangular:
\[
  \lvert g_n(\tn) - g(\thetacero)\rvert
  \;\leq\;
  \underbrace{\lvert g_n(\tn) - g(\tn)\rvert}_{\text{(I)}}
  \;+\;
  \underbrace{\lvert g(\tn) - g(\thetacero)\rvert}_{\text{(II)}}.
\]
Sea $\varepsilon>0$ arbitrario.

\medskip
\noindent\textbf{Control del término (II).}
Por (C1), $\tn\prob\thetacero$, y por (C3), $g$ es continua en
$\thetacero$.  El Teorema~\ref{teo:cmt} garantiza que
$g(\tn)\prob g(\thetacero)$, luego para $n$ suficientemente grande
\[
  \Pr\!\left(\lvert g(\tn)-g(\thetacero)\rvert > \tfrac{\varepsilon}{2}\right)
  < \tfrac{\varepsilon}{2}.
\]

\medskip
\noindent\textbf{Control del término (I).}
Por (C2), existe $N_1$ tal que para todo $n\geq N_1$,
$\sup_{t\in U}|g_n(t)-g(t)|<\varepsilon/2$.
Por (C1), existe $N_2$ tal que para todo $n\geq N_2$,
$\Pr(\tn\notin U)<\varepsilon/2$.
En el evento $\{\tn\in U\}$ se tiene
\[
  \lvert g_n(\tn)-g(\tn)\rvert
  \;\leq\; \sup_{t\in U}\lvert g_n(t)-g(t)\rvert
  \;<\; \tfrac{\varepsilon}{2},
\]
de modo que, para $n\geq\max(N_1,N_2)$,
\[
  \Pr\!\left(\lvert g_n(\tn)-g(\tn)\rvert>\tfrac{\varepsilon}{2}\right)
  \;\leq\; \Pr(\tn\notin U) \;<\; \tfrac{\varepsilon}{2}.
\]

\medskip
\noindent\textbf{Conclusión.}
Por la subaditividad de la probabilidad,
\[
  \Pr\!\left(\lvert g_n(\tn)-g(\thetacero)\rvert>\varepsilon\right)
  \;\leq\;
  \Pr\!\left(\lvert g_n(\tn)-g(\tn)\rvert>\tfrac{\varepsilon}{2}\right)
  +
  \Pr\!\left(\lvert g(\tn)-g(\thetacero)\rvert>\tfrac{\varepsilon}{2}\right)
  \;<\; \varepsilon,
\]
para $n$ suficientemente grande.  Como $\varepsilon$ es arbitrario,
$g_n(\tn)\prob g(\thetacero)$.
\end{proof}

% ══════════════════════════════════════════════════════════════════════════════
\section{Distribución asintótica de \texorpdfstring{$-2\ln\Lambda$}{-2 log Lambda}: Teorema de Wilks}
\label{sec:wilks}

\subsection{Marco y notación}

Sean $X_1,\ldots,X_n$ variables aleatorias independientes e idénticamente
distribuidas con densidad $f(\,\cdot\,;\theta)$, donde $\theta\in\Theta
\subseteq\R$.  Definimos la log-verosimilitud
\[
  \ell(\theta)
  \;=\; \sum_{i=1}^n \ln f(X_i;\theta),
\]
y el \emph{estadístico de razón de verosimilitud} para el contraste
$H_0\colon\theta=\thetacero$ frente a $H_1\colon\theta\neq\thetacero$ es
\[
  \Lambda \;=\; \frac{\sup_{\theta\in\Theta_0} L(\theta)}{\sup_{\theta\in\Theta} L(\theta)}
           \;=\; \frac{L(\thetacero)}{L(\tn)},
\]
donde $\tn$ denota el estimador de máxima verosimilitud (EMV) y
$L(\theta)=e^{\ell(\theta)}$.  El estadístico de la prueba es
\[
  W_n \;=\; -2\ln\Lambda \;=\; 2\bigl[\ell(\tn)-\ell(\thetacero)\bigr].
\]

La información de Fisher se define como
\[
  \Ical(\theta) \;=\;
  \E_\theta\!\left[\left(\frac{\partial}{\partial\theta}\ln f(X;\theta)\right)^{\!2}\right]
  \;=\;
  -\,\E_\theta\!\left[\frac{\partial^2}{\partial\theta^2}\ln f(X;\theta)\right].
\]

\subsection{Condiciones de regularidad}

Adoptamos las condiciones de regularidad estándar
\citep[Cap.~9]{lehmann2005}:
\begin{enumerate}
  \item El soporte de $f(\,\cdot\,;\theta)$ no depende de $\theta$.
  \item $\ell(\theta)$ es tres veces diferenciable en un entorno de $\thetacero$.
  \item $\Ical(\thetacero)$ existe, es finita y estrictamente positiva.
  \item Las derivadas hasta tercer orden de $\ln f(X;\theta)$ son
        dominadas por una función integrable uniformemente en un entorno
        de $\thetacero$ (condición de dominación de Cramér).
\end{enumerate}

\subsection{Enunciado}

\begin{teorema}[Wilks, 1938 {\citep{wilks1938}}]
\label{teo:wilks}
Bajo $H_0$ y las condiciones de regularidad anteriores,
\[
  W_n \;=\; -2\ln\Lambda \;\dist\; \chi^2_1.
\]
\end{teorema}

\subsection{Demostración}

La prueba se estructura en cuatro pasos.

\medskip
\noindent\textbf{Paso 1: Expansión de Taylor.}

Expandimos $\ell(\thetacero)$ en torno al EMV $\tn$:
\[
  \ell(\thetacero)
  \;=\; \ell(\tn)
    \;+\; \ell'(\tn)\,(\thetacero-\tn)
    \;+\; \tfrac{1}{2}\,\ell''(\tn)\,(\thetacero-\tn)^2
    \;+\; \tfrac{1}{6}\,\ell'''(\theta_n^*)\,(\thetacero-\tn)^3,
\]
donde $\theta_n^*$ está entre $\thetacero$ y $\tn$.  Como el EMV satisface
la ecuación de puntuación $\ell'(\tn)=0$, obtenemos
\[
  W_n
  \;=\; 2\bigl[\ell(\tn)-\ell(\thetacero)\bigr]
  \;=\; -\ell''(\tn)\,(\tn-\thetacero)^2
    \;-\; \tfrac{1}{3}\,\ell'''(\theta_n^*)\,(\tn-\thetacero)^3.
\]
El tercer sumando es $\op(1)$ bajo las condiciones de dominación
\citep[Lem.~9.14]{lehmann2005}, de modo que
\begin{equation}
  \label{eq:Wn}
  W_n \;=\; -\ell''(\tn)\,(\tn-\thetacero)^2 \;+\; \op(1).
\end{equation}

\medskip
\noindent\textbf{Paso 2: Factorización.}

Multiplicamos y dividimos por $n\,\Ical(\thetacero)$ para aislar límites
conocidos:
\begin{equation}
  \label{eq:factor}
  W_n
  \;=\;
  \underbrace{\frac{-\ell''(\tn)}{n}}_{g_n(\tn)}
  \;\times\;
  \underbrace{n\,(\tn-\thetacero)^2}_{T_n}
  \;+\; \op(1).
\end{equation}

\medskip
\noindent\textbf{Paso 3: Convergencia en probabilidad de $g_n(\tn)$.}

Definimos $g_n(\theta) = -n^{-1}\ell''(\theta) = -n^{-1}\sum_{i=1}^n
\frac{\partial^2}{\partial\theta^2} \ln f(X_i;\theta)$.

\begin{lema}
\label{lema:gn}
$g_n(\tn)\prob\Ical(\thetacero)$.
\end{lema}
\begin{proof}
Verificamos las tres condiciones del Teorema~\ref{teo:principal}:
\begin{description}
  \item[(C1)] $\tn\prob\thetacero$: consistencia estándar del EMV bajo las
              condiciones de regularidad \citep[Teor.~5.1]{vaart1998}.
  \item[(C2)] Por la LUGN de Glivenko–Cantelli \citep[Teor.~19.4]{vaart1998},
              bajo la condición de dominación de Cramér,
              \[
                \sup_{t\in U}\Bigl\lvert g_n(t) - \bigl(-\E_{\thetacero}[\frac{\partial^2}{\partial\theta^2}\ln f(X;t)]\bigr)\Bigr\rvert
                \;\prob\; 0
              \]
              para algún entorno $U$ de $\thetacero$.
  \item[(C3)] La aplicación $\theta\mapsto -\E_{\thetacero}[\frac{\partial^2}{\partial\theta^2}\ln f(X;\theta)]$
              es continua en $\thetacero$ por el teorema de convergencia dominada,
              y su valor en $\thetacero$ es precisamente $\Ical(\thetacero)$ por la
              identidad de la información \citep[Lem.~7.3]{lehmann2005}.
\end{description}
El Teorema~\ref{teo:principal} concluye que $g_n(\tn)\prob\Ical(\thetacero)$.
\end{proof}

Este paso es el que hace \emph{indispensable} el Teorema~\ref{teo:principal}:
no es suficiente aplicar la LUGN en el punto fijo $\thetacero$ y argumentar
por aproximación, ya que $\tn$ es aleatorio y se requiere controlar
$g_n$ en un entorno de $\thetacero$ de forma uniforme.

\medskip
\noindent\textbf{Paso 4: Distribución límite de $T_n$ y conclusión.}

Por el Teorema Central del Límite, la puntuación normalizada satisface
\[
  \frac{1}{\sqrt{n}}\,\ell'(\thetacero)
  \;=\; \frac{1}{\sqrt{n}}\sum_{i=1}^n \partial_\theta\ln f(X_i;\thetacero)
  \;\dist\; N\!\bigl(0,\,\Ical(\thetacero)\bigr).
\]
La expansión de Taylor de la puntuación en torno a $\thetacero$,
junto con la LUGN aplicada a $\ell''$, permite mostrar que
\[
  \sqrt{n}\,(\tn-\thetacero)
  \;\dist\; N\!\bigl(0,\,\Ical(\thetacero)^{-1}\bigr)
  \qquad \text{\citep[Teor.~5.39]{vaart1998}},
\]
de donde
\[
  T_n \;=\; n\,(\tn-\thetacero)^2
  \;\dist\; \Ical(\thetacero)^{-1}\,\chi^2_1.
\]
Combinando el Lema~\ref{lema:gn} con la convergencia de $T_n$ mediante
el \emph{Teorema de Slutsky} \citep[Teor.~2.8]{billingsley1999}:
\[
  W_n \;=\; g_n(\tn)\cdot T_n + \op(1)
  \;\dist\;
  \Ical(\thetacero)\;\cdot\;\Ical(\thetacero)^{-1}\,\chi^2_1
  \;=\; \chi^2_1,
\]
lo que completa la demostración del Teorema~\ref{teo:wilks}.  \qed

\subsection{Generalización}

El Teorema~\ref{teo:wilks} se extiende al caso $d$-dimensional: si
$\theta\in\R^d$ y se contrasta $H_0\colon\theta\in\Theta_0$ (un subespacio
de dimensión $d-k$) frente a $H_1$, entonces $-2\ln\Lambda\dist\chi^2_k$
bajo $H_0$ \citep[Teor.~16.1]{lehmann2005}.  La prueba sigue la misma
estructura pero requiere álgebra matricial y la inversión de la información
de Fisher multidimensional.

% ══════════════════════════════════════════════════════════════════════════════
\section*{Conclusión}

El Teorema~\ref{teo:principal} actúa como el eslabón técnico que hace
posible el Teorema de Wilks.  La dificultad esencial es que la segunda
derivada de la log-verosimilitud debe evaluarse en el EMV, que es
aleatorio; la convergencia uniforme de $g_n$ cerca de $\thetacero$ es lo
que permite trasladar la convergencia puntual en $\thetacero$ (que
proviene de la ley de los grandes números) a una convergencia en el
punto aleatorio $\tn$ (que es lo que efectivamente aparece en el
estadístico).  Sin este argumento el paso queda como una brecha en la
demostración.

% ══════════════════════════════════════════════════════════════════════════════
\bibliographystyle{plainnat}
\begin{thebibliography}{99}

\bibitem[Billingsley(1999)]{billingsley1999}
Billingsley, P. (1999).
\newblock \emph{Convergence of Probability Measures}, 2.ª ed.
\newblock Wiley, Nueva York.

\bibitem[Cramér(1946)]{cramer1946}
Cramér, H. (1946).
\newblock \emph{Mathematical Methods of Statistics}.
\newblock Princeton University Press, Princeton.

\bibitem[Lehmann y Casella(2005)]{lehmann2005}
Lehmann, E.~L. y Romano, J.~P. (2005).
\newblock \emph{Testing Statistical Hypotheses}, 3.ª ed.
\newblock Springer, Nueva York.

\bibitem[van der Vaart(1998)]{vaart1998}
van der Vaart, A.~W. (1998).
\newblock \emph{Asymptotic Statistics}.
\newblock Cambridge University Press, Cambridge.

\bibitem[Wilks(1938)]{wilks1938}
Wilks, S.~S. (1938).
\newblock The large-sample distribution of the likelihood ratio for testing
  composite hypotheses.
\newblock \emph{The Annals of Mathematical Statistics}, 9(1):60--62.

\end{thebibliography}

\end{document}