Suficiencia o exhaustividad

Índice

1. suficiencia o exhaustividad de un estadígrafo

  • \(X\) población, \(X\hookrightarrow F_\theta\), \(\theta\in\Theta\)
  • \(\vec{X}=(X_1,\dots,X_n)\) muestra
  • \(T=T(\vec X)\) estadígrafo
  • en la muestra \(\vec X\) puede haber información irrelevante para estimar \(\theta\)
  • por ejemplo, si \(X\hookrightarrow B(p)\), para estimar \(p\) es irrelevante el orden de éxitos y fracasos; sólo son relevantes sus frecuencias
  • se pretende que un estadígrafo conserve toda la información relevante de \(\vec X\) para estimar \(\theta\)

1.1. ejemplo

  • considerar el lanzamiento de una moneda tres veces, en el que se obtiene la muestra \((\text{cara},\text{cruz},\text{cruz})\)
  • se pretende estimar \(p=\Pr\,(\text{cara})\)
  • ¿es relevante el orden una vez que se sabe el recuento \((\text{cara}\colon1,\text{cruz}\colon2)\)?
  • no, porque entonces la probabilidad de la muestra ya no depende de \(p\): \[\Pr\bigl[\text{cara},\text{cruz},\text{cruz}\mid (\text{cara}\colon1,\text{cruz}\colon2)\bigr] = \frac{\Pr(\text{cara},\text{cruz},\text{cruz})} {\Pr(\text{cara}\colon1,\text{cruz}\colon2)} = \frac{p(1-p)^2}{3p(1-p)^2}=\frac13\]
  • el recuento es suficiente: conserva por completo la información relevante

1.2. definición

  • Un estadígrafo \(T\) es exhaustivo o suficiente para estimar \(\theta\) si la distribución de \(\vec X\) condicionada a \(T=t\) no depende de \(\theta\).

1.3. teorema de factorización

1.3.1. enunciado

  • \(T\) es exhaustivo si y sólo si existen \(g\) y \(h\) tales que \[f(\vec x, \theta) = g(t,\theta)\cdot h(\vec x)\] con \(t=T(\vec x)\).

1.3.2. demostración (caso discreto)

(\(\Rightarrow\))
Por un lado, \( f(\vec x,\theta) = f(\vec x,\theta\mid T=t)\cdot f_T(t,\theta) \). Por otro, si \(T\) es suficiente entonces \(f(\vec x,\theta\mid T=t)\) no depende de \(\theta\) y basta tomar \(g(t,\theta)=f_T(t,\theta)=\sum_{T(\vec x)=t}f(\vec x,\theta)\) y \(h(\vec x)=f\bigl(\vec x,\theta\mid T=T(\vec x)\bigr)\)
(\(\Leftarrow\))

Sea \(f(\vec x,\theta)=g(t,\theta)\cdot h(\vec x)\) con \(t=T(\vec x)\). Sea \(A_t=\{\vec x\mid T(\vec x)=t\}\). Entonces \[f(\vec x,\theta\mid T=t) = \begin{cases} 0&T(\vec x)\neq t\\ \frac{f(\vec x,\theta)}{f(t,\theta)}= \frac{f(\vec x,\theta)}{\sum_{\vec y\in A_t} f(\vec y,\theta)} = \frac{g(T(\vec x),\theta)\cdot h(\vec x)}{\sum_{\vec y\in A_t} g(T(\vec y),\theta)\cdot h(\vec y)} = \frac{g(t,\theta)\cdot h(\vec x)}{\sum_{\vec y\in A_t} g(t,\theta)\cdot h(\vec y)} = \frac{h(\vec x)}{\sum_{\vec y\in A_t}h(\vec y)}&T(\vec x)=t \end{cases}\]

que no depende de \(\theta\), luego \(T\) es suficiente para \(\theta\).

1.3.3. EXTRA caso general

  • véanse
    • ejemplos primero y sexto de condicionamiento como desintegración
    • capítulo 2.6 Characterization of sufficiency de Testing statistical hypotheses, second edition de E.L. Lehmann
    • suplemento IV, pág. 550 de Estadística matemática de A.A. Borovkov, KP 519B 3 en la biblioteca
  • si el soporte de \(X\) depende de \(\theta\),
    • Sufficient statistics and intrinsic accuracy, sección 4
    • sea \(X\) con soporte \((0,\theta)\); si \(T\) no involucra \(\theta\), es obvio que al fijar \(T=t\) la distribución del máximo \(X_{(n)}\) tiene que depender de \(\theta\), a menos que \(T\) sea \(X_{(n)}\) o una función suya; así, si existe un estadígrafo suficiente tiene que ser función sólo de \(X_{(n)}\)

1.4. demostración de no exhaustividad/suficiencia

  • Sean dos muestras \(\vec x=(x_1,\dots,x_n)\) y \(\vec y=(y_1,\dots,y_n)\) tales que \(T(\vec x)=T(\vec y)\).
  • Si \(\frac{f(\vec x,\theta)}{f(\vec y,\theta)}\) depende de \(\theta\), \(T\) no es exhaustivo.
  • Si lo fuera,

    \[\frac{f(\vec x,\theta)}{f(\vec y,\theta)} = \frac{g(T(\vec x),\theta)h(\vec x)}{g(T(\vec y,\theta)h(\vec y)} = \frac{g(t,\theta)h(\vec x)}{g(t,\theta)h(\vec y)} = \frac{h(\vec x)}{h(\vec y)}\]

    no dependería de \(\theta\).

1.5. ejemplos

1.5.1. suficiencia normal

  • \(\vec X\), la propia muestra, es trivialmente un estadígrafo exhaustivo
  • \(\vec X_{(\cdot)}=(X_{(1)},\dots,X_{(n)})\), la muestra ordenada, es exhaustivo en muestreo aleatorio simple
  • \(X\hookrightarrow U(0,\theta]\) \(\implies\) \(X_{(n)}\) es suficiente para \(\theta\)
  • \(X\hookrightarrow N(\mu,\sigma)\), \(\sigma\) conocida \(\implies\) \(T=\bar X=\frac1n\sum_{i=1}^n X_i\) es exhaustivo para \(\mu\)
  • \(X\hookrightarrow N(\mu,\sigma)\), \(\mu\) conocida \(\implies\) \(T=\frac1n\sum_{i=1}^n (X_i-\mu)^2\) es exhaustivo para \(\sigma\)
  • \(X\hookrightarrow N(\mu,\sigma)\), \(\sigma\) conocida \(\implies\) \(\bar X^2\) no es suficiente para \(\mu\)
  • \(X\hookrightarrow N(\mu,\sigma)\), \(\mu\) y \(\sigma\) desconocidas \(\implies\) \(\bar X,S^2\) es exhaustivo para \((\mu,\sigma)\)

1.5.2. EXTRA suficiencia parcial

  • \(X\hookrightarrow N(\mu,\sigma)\), \(\mu\) y \(\sigma\) desconocidas \(\implies\) \(S^2\) no es suficiente para \(\sigma\)
  • \(X\hookrightarrow N(\mu,\sigma)\), \(\mu\) y \(\sigma\) desconocidas \(\implies\) \(\bar X\) ¿es suficiente para \(\mu\)?
    • según la definición de suficiencia:

      f_gaus(x,mu,sigma) := 1/sigma/sqrt(2*%pi)*%e^(-(x-mu)^2/2/sigma^2) $
      f_gaus_muestra(X,mu,sigma) := apply("*", f_gaus(X,mu,sigma)) $
      f_gaus_media(xmedia,mu,sigma,n) := f_gaus(xmedia,mu,sigma/sqrt(n)) $
      media(X) := apply ("+", X) / length(X) $
      f_gaus_cond(X,mu,sigma,t) :=
        f_gaus_muestra(X,mu,sigma) / f_gaus_media(t,mu,sigma,length(X)) $
      n : 10 $
      X : makelist (x[i], i, 1, n) $
      freeof (mu, ratsimp(f_gaus_cond (X, mu, sigma, media(X)))) ; /* true */
      
    • pero \(\bar X\hookrightarrow N\left(\mu,\frac{\sigma}{\sqrt n}\right)\) luego la muestra incluye más información sobre \(\mu\) a través de la dispersión \(S^2\)
    • ejercicio 36 del capítulo 3, pág. 122, de Testing statistical hypotheses, second edition de E.L. Lehmann
      • \(T\) es parcialmente suficiente para \(\mu\) si
        • \(f(\vec x,\mu,\sigma\mid T=t)\) no depende de \(\mu\)
        • la distribución de \(T\) no depende de \(\sigma\)
      • \(\bar X\) no es parcialmente suficiente para \(\mu\)
    • ejemplo 2.1 de https://www.jstor.org/stable/1403095: el estadígrafo (parcialmente) suficiente para \(\mu\) es \((\bar X,S^2)\)

1.6. estadígrafo mínimamente exhaustivo / estadístico suficiente minimal

  • un estadígrafo \(T\) induce una partición \(\phi\) del espacio \(X(\Omega)^n\), de forma que \(\vec x\sim \vec y\iff T(\vec x)=T(\vec y)\)
  • una partición es suficiente si induce un estadígrafo suficiente
  • una partición es suficiente minimal si es suficiente y cualquier otra partición suficiente es un refinamiento suyo
  • un estadígrafo es suficiente minimal si induce una partición suficiente minimal
  • la partición dada por la relación \[ \vec x\sim\vec y\iff\frac{f(\vec x,\theta)}{f(\vec y,\theta)} \text{ no depende de }\theta\] es suficiente minimal;

    demostración para el caso discreto:

    • Sea \(T\) cualquier estadígrafo asociado a dicha partición. Sea \(\vec x'\) tal que \(T(\vec x')=t\). Entonces \[f(\vec x',\theta\mid T=t) = \frac{f(\vec x',\theta)}{f_T(t,\theta)} = \frac{f(\vec x',\theta)}{\sum_{T\vec x=t}f(\vec x,\theta)}= \frac1{\sum_{T\vec x=t}\frac{f(\vec x,\theta)}{f(\vec x',\theta)}}\] no depende de \(\theta\), luego \(T\) es suficiente.
    • Sea \(T'\) otro estadígrafo suficiente y \(T'(\vec x)=T'(\vec x')=t'\), es decir, \(\vec x\) y \(\vec x'\) pertenecen al mismo elemento de la partición asociada a \(T'\). Entonces \[f(\vec x,\theta\mid T'=t') = \frac{f(\vec x,\theta)}{f_{T'}(t',\theta)}\] y \[f(\vec x',\theta\mid T'=t') = \frac{f(\vec x',\theta)}{f_{T'}(t',\theta)}\] son independientes de \(\theta\) y su cociente \[\frac{f(\vec x,\theta\mid T'=t')}{f(\vec x',\theta\mid T'=t')} = \frac{f(\vec x,\theta)}{f(\vec x',\theta)}\] también, luego \(T(\vec x)=T(\vec x')\) y \(\vec x\) y \(\vec x'\) pertenecen al mismo elemento de la partición asociada a \(T\), luego la de \(T'\) es un refinamiento de la de \(T\). Por tanto, \(T\) es mínimamente suficiente.
  • ejemplo
    • \(X\hookrightarrow\text{Exp}(\lambda)\), \(T=\sum_{i=1}^n X_i\)
    • \(f(\vec x,\lambda)=\lambda^n e^{-\lambda\sum x_i}= \lambda^n e^{-\lambda t}=g(t,\lambda)h(\vec x)\) con \(h(\vec x)=1\), luego \(T\) es suficiente
    • \(T\) es minimal suficiente porque \[\frac{f(\vec x,\lambda)}{f(\vec y,\lambda)}= \frac{\lambda^n e^{-\lambda\sum x_i}}{\lambda^n e^{-\lambda\sum y_i}} =e^{-\lambda(\sum x_i-\sum y_i)}=e^{-\lambda[T(\vec x)-T(\vec y_i)]}\] no depende de \(\lambda\) sii \(T(\vec x)=T(\vec y_i)\)

2. la familia exponencial \(k\)-paramétrica

  • incluye a la mayoría de distribuciones habituales

2.1. definición

  • una familia de distribuciones \(\{F_\theta\mid\theta\in\Theta\subset\mathbb R^k\}\) pertenece a la familia exponencial \(k\)-paramétrica si
    • el soporte \(\{\vec x\mid f(\vec x,\theta)\}\) no depende de \(\theta\)
    • existen \(D\), \(Q_1,\dots,Q_k\), \(S\), \(T_1,\dots,T_k\) tales que \[f(\vec x,\vec\theta)=\exp\left[S(\vec x)+D(\vec\theta)+ \sum_{j=1}^kQ_j(\vec\theta)T_j(\vec x)\right]\] \[f(\vec x,\vec\theta)=c(\vec\theta)h(\vec x)e^{\sum Q_j(\theta)T_j(\vec x)}\]

2.2. parametrización natural

  • parametrizando \(\eta_j=Q_j(\theta)\) se tiene la parametrización natural \[f(\vec x,\vec\eta)=c^*(\vec\eta)h(\vec x)e^{\sum \eta_j T_j(\vec x)}\]
  • el espacio paramétrico natural es \[\mathrm H=\left\{\vec\eta\;:\;\int_{\mathbb R^n}h(\vec x) e^{\sum\eta_jT_j(\vec x)}d\vec x<\infty\right\}\]

2.3. ejemplos

2.3.1. \(B(n,p)\) con \(n\) conocido, \(0 < p < 1\)

  • \(f(x,p)\) = \(\binom{n}{x}p^x(1-p)^{n-x}\) = \(\binom nx (1-p)^n\left(\frac{p}{1-p}\right)^{x}\) = \(\binom nx (1-p)^n e^{x\ln\frac{p}{1-p}}\)
  • parámetro natural \(\eta=\ln\frac p{1-p}\)
  • \(f(x,\eta)\) = \(\binom nx \left(\frac1{1+e^{-\eta}}\right)^n e^{x\eta}\)

2.3.2. \(\gamma(p,a)\), \(p,a>0\)

  • \(f(x,p,a)\) = \(\frac{a^p}{\Gamma(p)}e^{-ax}x^{p-1}\) = \(\frac{a^p}{\Gamma(p)}\frac1x e^{-ax+p\ln x}\)
  • \(p\) y \(a\) son parámetros naturales, con \(T_1=-x\) y \(T_2=\ln x\)

2.3.3. Poisson\((\lambda)\), \(\lambda>0\)

  • \(f(x,\lambda)\) = \(e^{-\lambda}\frac{\lambda^x}{x!}\) = \(\frac1{x!}e^{-\lambda}e^{x\ln\lambda}\)
  • \(\eta=\ln\lambda\) es parámetro natural

2.3.4. \(N(\mu,\sigma)\)

  • \(f(x,\mu,\sigma)=\frac1{\sigma\sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\) = \(\frac1{\sigma\sqrt{2\pi}}e^{-\frac{x^2+\mu^2-2\mu x}{2\sigma^2}}\) = \(\frac1{\sigma\sqrt{2\pi}}e^{-\frac{\mu^2}{2\sigma^2}} e^{-\frac{x^2-2\mu x}{2\sigma^2}}\) = \(\frac1{\sigma\sqrt{2\pi}}e^{-\frac{\mu^2}{2\sigma^2}} e^{-\frac{x^2}{2}\frac1{\sigma^2}+2x\frac{\mu}{\sigma^2}}\)
  • parámetros naturales \(\eta_1=\frac1{\sigma^2}\), \(\eta_2=\frac{\mu}{\sigma^2}\)
  • \(T_1=-\frac{x^2}{2}\), \(T_2=2x\)

2.4. teorema

  • sea \(\vec{\vec X}=(\vec X_1,\dots,\vec X_n)\) una muestra obtenida del vector aleatorio \(\vec X\), perteneciente a la familia exponencial \(k\)-paramétrica con densidad \[f(\vec x,\vec\eta) = c(\vec\eta)h(\vec x)e^{\sum_{j=1}^k \eta_j T_j(\vec x)}\] para los \(\vec x\) con \(f(\vec x,\vec\eta) > 0\);
  • supóngase que el espacio paramétrico natural \(\mathrm H\) contiene un abierto de \(\mathbb R^k\)
  • entonces \(\vec W\) = \((W_1,\dots,W_k)\) con \(W_i=\sum_{j=1}^n T_i(\vec x_j)\) es mínimamente exhaustivo
  • demostración
    • \(\vec W\) es exhaustivo por el teorema de factorización: \(f(\vec x_1,\dots,\vec x_n,\vec\eta)\) = \(c(\vec\eta)^n \prod_{i=1}^n h(\vec x_i) e^{\sum_{j=1}^k \eta_j \sum_{i=1}^n T_j(\vec x_i)}\) = \(c(\vec\eta)^n \prod_{i=1}^n h(\vec x_i) e^{\sum_{j=1}^k \eta_j w_j}\) = \(g(\vec w, \vec\eta) H(\vec{\vec x})\) con \(H(\vec{\vec x})\) = \(\prod_{i=1}^n h(\vec x_i)\), \(w_j = \sum_{i=1}^n T_j(\vec x_i)\), \(g(\vec w, \vec\eta)\) = \(c(\vec\eta)^n e^{\sum_{j=1}^k \eta_j w_j}\)
    • \(\vec W\) es minimal suficiente pues \(\vec W\vec{\vec x}=\vec W\vec{\vec y}\) \(\iff\) \(\frac{f(\vec{\vec x},\vec\eta)}{f(\vec{\vec y},\vec\eta)}\) es independiente de \(\vec\eta\):
      (\(\Leftarrow\))
      sean \(\vec{\vec x}\) y \(\vec{\vec y}\) tales que \(\frac{f(\vec{\vec x},\vec\eta)}{f(\vec{\vec y},\vec\eta)}\) es independiente de \(\vec\eta\); entonces \[\frac{f(\vec{\vec x},\vec\eta)}{f(\vec{\vec y},\vec\eta)} = \frac{H(\vec{\vec x})}{H(\vec{\vec y})} e^{\sum\eta_j [W_j(\vec{\vec x})-W_j(\vec{\vec y})]}\] que es independiente de \(\vec\eta\) sii \(\vec W \vec{\vec x} = \vec W \vec{\vec y}\); si no fuera así, supóngase sin pérdida de generalidad que \(W_1\vec{\vec x}\neq W_1\vec{\vec y}\) y \[\forall\,\vec\eta\in\mathrm H,\quad {\sum_{j=1}^k \eta_j [W_j(\vec{\vec x})-W_j(\vec{\vec y})]}=0\] sean ahora \(\vec\eta= (\eta_1,\eta_2,\dots,\eta_k)\) y \(\vec\eta^* = (\eta_1+\epsilon,\eta_2,\dots,\eta_k)\) dentro de un abierto de \(\mathrm H\); entonces \( 0={\sum_{j=1}^k \eta_j^* [W_j(\vec{\vec x})-W_j(\vec{\vec y})]}\) = \(\epsilon[W_1(\vec{\vec x})-W_1(\vec{\vec y})] + \underbrace{\sum_{j=1}^k \eta_j [W_j(\vec{\vec x})-W_j(\vec{\vec y})]}_{\vec\eta\in\mathrm H\implies=0}\) = \(\epsilon[W_1(\vec{\vec x})-W_1(\vec{\vec y})] \neq 0\) y llegaríamos a una contradicción;
      (\(\Rightarrow\))
      sean \(\vec{\vec x}\) y \(\vec{\vec y}\) tales que \(\vec W\vec{\vec x} = \vec W\vec{\vec y}\); entonces \(\frac{f(\vec{\vec x},\vec\eta)}{f(\vec{\vec y},\vec\eta)}\) = \(\frac{H(\vec{\vec x})}{H(\vec{\vec y})} e^{\sum\eta_j [W_j(\vec{\vec x})-W_j(\vec{\vec y})]}\) = \(\frac{H(\vec{\vec x})}{H(\vec{\vec y})}\) que es independiente de \(\vec\eta\)

Autor: Carlos Carleos, Norberto Corral

Created: 2024-10-17 jue 11:53

Validate