estimación intervalar

Índice

1. definición

  • \(X\hookrightarrow F_\theta\), \(\theta\in\Theta\)
  • \(\vec X\) = \(X_1,\dots,X_n\) muestra aleatoria simple de \(X\)
  • \(\alpha \in (0,1)\), \(\alpha\) pequeño; \(1-\alpha\) se llama coeficiente de confianza
  • \(T_1\) y \(T_2\) estadígrafos tales que \(\forall\theta\in\Theta\), \(\Pr_\theta\{\vec x\in X(\Omega)^n\mid T_1(\vec x)\leqslant g(\theta)\leqslant T_2(\vec x)\}\geqslant1-\alpha\)
  • \([T_1(\vec X),T_2(\vec X)]\) es una horquilla o intervalo de confianza (IC) para \(g(\theta)\) a nivel \(1-\alpha\)

2. advertencia

  • dada una realización muestral \(\vec x_0\), en inferencia frecuentista (la nuestra) no se puede afirmar que \(\Pr\{\theta\in[T_1(\vec x_0),T_2(\vec x_0)]\}\geqslant1-\alpha\)
  • se trata de intervalos de confianza, no de probabilidad

3. ejemplo

\(X\hookrightarrow N(\mu,1)\) \(\implies\) \(\frac{\bar X-\mu}{1/\sqrt n}\hookrightarrow N(0,1)\) \(\implies\) IC = \(\bar X\pm z_{1-\frac\alpha2}\frac1{\sqrt n}\) = \(\left[\bar X-z_{1-\frac\alpha2}\frac1{\sqrt n}, \bar X+z_{1-\frac\alpha2}\frac1{\sqrt n}\right]\) con \(\Pr[N(0,1) \leqslant z_{1-\frac\alpha2}]=1-\frac\alpha2\)

4. método pivotal

  • la función \(T(\vec X,\theta)\) es un pivote si su distribución de probabilidad no depende de \(\theta\) (está completamente especificada)
  • algoritmo para construir IC mediante un pivote
    1. elegir \(\alpha_1+\alpha_2=\alpha\) (habitualmente, \(\alpha_1=\alpha_2=\frac\alpha2\))
    2. buscar \(c_1\) y \(c_2\) tales que \(\Pr(T < c_1)\leqslant\alpha_1\) y \(\Pr(T \leqslant c_2)\geqslant1-\alpha_2\)
    3. expresar \(c_1\leqslant T(\vec x,\theta)\leqslant c_2\) como intervalo en torno a \(\theta\) : \( 1-\alpha=\Pr[T_1(\vec x,c_1) \le \theta \le T_2(\vec x,c_2)] \)

4.1. ejemplo

\(X\hookrightarrow N(\mu,\sigma)\) \(\implies\) pivotes:

  • \(\frac{\bar X-\mu}{\hat S/\sqrt n}\hookrightarrow t_{n-1}\) \(\implies\) IC = \(\bar X\pm t_{n-1,1-\frac\alpha2}\frac {\hat S}{\sqrt n}\) = \(\left[\bar X-t_{n-1,1-\frac\alpha2}\frac {\hat S}{\sqrt n}, \bar X+t_{n-1,1-\frac\alpha2}\frac {\hat S}{\sqrt n}\right]\) con \(\Pr[t_{n-1} \leqslant t_{n-1,1-\frac\alpha2}]=1-\frac\alpha2\)
  • \(\frac{(n-1)\hat S^2}{\sigma^2}\hookrightarrow\chi^2_{n-1}\) \(\implies\) IC = \(\left[\frac{(n-1)\hat S^2}{\chi^2_{n-1,1-\frac\alpha2}}, \frac{(n-1)\hat S^2}{\chi^2_{n-1,\frac\alpha2}}\right]\)

4.2. pivote genérico

\(X\hookrightarrow F_\theta\) absolutamente continua \(\implies\) puede usarse el pivote \(-\sum\ln F_\theta(X_i)\hookrightarrow\gamma(n,1)\) pues

  • \(F_X(X)\hookrightarrow U(0,1)\)
  • \(-\ln U(0,1)\hookrightarrow\text{Exp}(1)\)
  • \(\sum_{i=1}^n\text{Exp}(\lambda)\) independientes \(\hookrightarrow\) \(\gamma(n,\lambda)\)

4.3. comparación de intervalos

  • motivo
    • pueden existir varios pivotes
    • con un mismo pivote, pueden escogerse \(\alpha_1\) y \(\alpha_2\) de varias maneras
  • criterio
    • preferir el intervalo de amplitud (esperada) mínima
  • ejemplo: \(X\hookrightarrow U(0,\theta)\); dos procedimientos

    • pivote genérico:
      • \(F(x)=\frac{x}\theta\) \(\implies\) \(-\sum\ln\frac{X_i}{\theta}\hookrightarrow\gamma(n,1)\)
      • \(a=-\sum\ln\frac{X_i}{\theta}=-\ln\prod\frac{X_i}{\theta}\) \(\implies\) \(e^{-a}=\frac{\prod{X_i}}{\theta^n}\) \(\implies\) \(\theta^n=\frac{\prod{X_i}}{e^{-a}}\) \(\implies\) \(\theta=\sqrt[n]{e^{a}\prod{X_i}}\)
      • sean \(a\) y \(b\) tales que \(\Pr[a\leqslant\gamma(n,1)\leqslant b]\) = \(1-\alpha\)
      • \(\Pr[a\leqslant\gamma(n,1)\leqslant b]\) = \(\Pr\left[\sqrt[n]{e^{a}\prod{X_i}}\leqslant\theta\leqslant \sqrt[n]{e^{b}\prod{X_i}}\right]\) \(\implies\) amplitud \(L = \sqrt[n]{e^{b}\prod{X_i}}-\sqrt[n]{e^{a}\prod{X_i}}\) = \( \sqrt[n]{\prod{X_i}}\left(\sqrt[n]{e^{b}}-\sqrt[n]{e^{a}}\right) \)
      • \(E\left[\sqrt[n]{\prod X_i}\right]\) = \(E\left[\prod \sqrt[n]{X_i}\right]\) = \(\prod E\left[\sqrt[n]{X_i}\right]\) = \(E^n\left[\sqrt[n]{X}\right]\)
      • \(E\left(X^{\frac1n}\right)\) = \(\int_0^\theta x^{\frac1n}\frac1\theta dx\) = \(\left|\frac1\theta \frac{x^{\frac1n+1}}{\frac1n+1}\right|_{x=0}^{x=\theta}\) = \(\frac n{n+1}\theta^{\frac1n}\)
      • \(E(L)\) = \(\theta\left(\frac n{n+1}\right)^n \left(e^{\frac bn}-e^{\frac an}\right)\)
    • pivote basado en un estimador, como \(X_{(n)}\)
      • \(U\) = \(\frac{X_{(n)}}\theta\) \(\hookrightarrow\) \(F_{U(0,1)}(u)^n\) = \(u^n\) \(\forall u\in(0,1)\)
      • \(1-\alpha\) = \(\Pr\left[a\leqslant\frac{X_{(n)}}\theta\leqslant b\right]\) \(\implies\) \(a=\sqrt[n]{\alpha_1}\), \(b=\sqrt[n]{1-\alpha_2}\) \(\implies\) \(\Pr\left[\frac{X_{(n)}}{\sqrt[n]{1-\alpha_2}} \leqslant\theta\leqslant\frac{X_{(n)}}{\sqrt[n]{\alpha_1}}\right]\)
      • \(E(L)\) = \(\frac n{n+1}\theta \left(\frac1{\sqrt[n]{\alpha_1}}-\frac1{\sqrt[n]{1-\alpha_2}}\right)\)
      • minimizar la amplitud esperada: \(L(\alpha_1)\) = \(\frac n{n+1}\theta \left(\frac1{\sqrt[n]{\alpha_1}}- \frac1{\sqrt[n]{1-\alpha+\alpha_1}}\right)\)
      • \(\frac{\partial L}{\partial\alpha_1}\) = \(\frac n{n+1}\theta\frac1n \left(-\frac1{\alpha_1^{\frac1n+1}}+ \frac1{(1-\alpha+\alpha_1)^{\frac1n+1}}\right)\) \( < \) \(0\) si \(\alpha_1 < 1-\alpha+\alpha_1\) \(\iff\) \(0<1-\alpha\) \(\implies\) \(L\) decreciente \(\implies\) mínimo con \(\alpha_1=\alpha\) y \(\alpha_2=0\)
    ### X = U(0,zita)
    longitudesEsperadas <- function (n, alfa, zita)
    {
        ## pivote genérico con alfa1=alfa2
        a <- qgamma(alfa/2,n,1)
        b <- qgamma(1-alfa/2,n,1)
        L1 <- zita * (n/(n+1))^n * (exp(b/n)-exp(a/n))
        ## pivote genérico con alfa1 y alfa2 óptimos
        fL2 <- function (alfa1)
        {
            a <- qgamma(alfa1,n,1)
            b <- qgamma(1-alfa+alfa1,n,1)
            zita * (n/(n+1))^n * (exp(b/n)-exp(a/n))
        }
        L2 <- optimize (fL2, c(0,alfa)) $ objective
        ## pivote EMV
        L3 <- n/(n+1) * zita * (1/alfa^(1/n)-1)
        ## genérico Simétrico y Óptimo, y EMV
        c (genéricoS=L1, genéricoÓ=L2, EMV=L3)
    }
    n <- 100
    alfa <- .05
    zita <- 1
    longitudesEsperadas (n, alfa, zita)
    intervalos <- function (x, alfa)
    {
        n <- length (x)
        ## pivote genérico...
        T <- prod (x)
        extremo <- function (a) (exp(a)*T)^(1/n)
        ## ...con alfa1=alfa2
        a <- qgamma (alfa/2, n, 1)
        b <- qgamma (1-alfa/2, n, 1)
        Gs1 <- extremo (a)                  
        Gs2 <- extremo (b)
        L1 <- Gs2 - Gs1
        ## ...con alfa1 y alfa2 óptimos
        fL2 <- function (alfa1)
        {
            a <- qgamma(alfa1,n,1)
            b <- qgamma(1-alfa+alfa1,n,1)
            zita * (n/(n+1))^n * (exp(b/n)-exp(a/n))
        }
        alfa1 <- optimize (fL2, c(0,alfa)) $ minimum
        a <- qgamma (alfa1, n, 1)
        b <- qgamma (1-alfa+alfa1, n, 1)
        Go1 <- extremo (a)                 
        Go2 <- extremo (b)
        L2 <- Go2 - Go1
        ## pivote EMV
        T <- max (x)
        E1 <- T
        E2 <- T / alfa^(1/n)
        L3 <- E2 - E1
        rbind (genéricoS = c(inf=Gs1, sup=Gs2, lon=L1),
               genéricoÓ = c(inf=Go1, sup=Go2, lon=L2),
               EMV       = c(ind=E1,  sup=E2,  lon=L3))
    }
    intervalos (runif(100,0,zita), alfa)
    ## cobertura
    apply (replicate (1e5,
    {
        x <- runif (100, 0, zita)
        intervalos.x <- intervalos (x, alfa)
        cubre <- apply (intervalos.x, 1,
                        function (inf.sup.lon)
                            inf.sup.lon["inf"] <= zita &
                            zita <= inf.sup.lon["sup"])
    }),
    1,
    mean)
    1 - alfa # confianza
    
    ### ejemplo de ejecución
    
    > longitudesEsperadas (n, alfa, zita)
     genéricoS  genéricoÓ        EMV 
    0.39988706 0.39445253 0.03010946 
    
    > intervalos (runif(100,0,zita), alfa) # zita=1
                    inf      sup        lon
    genéricoS 1.0131663 1.498898 0.48573135
    genéricoÓ 0.9963855 1.475516 0.47913018
    EMV       0.9925257 1.022709 0.03018326
    
    genéricoS genéricoÓ       EMV # coberturas
      0.95001   0.95001   0.95082 
    > 1 - alfa # confianza
    [1] 0.95
    

5. método asintótico

5.1. pivote para EMV

\(n\) grande \(\implies\) \((\hat\theta_{\text{MV}} - \theta) \sqrt {nI(\theta)}\) \(\hookrightarrow\) \(N(0,1)\)

5.2. TCL

ejemplo:

  • \(X\) \(\hookrightarrow\) \(B(1,p)\) \(\stackrel{\text{TCL}}{\implies}\) \(\frac{\bar X-p}{\sqrt{\frac{p(1-p)}n}}\) \(\stackrel{\sim}{\hookrightarrow}\) \(N(0,1)\) \(\implies\) \(1-\alpha\) = \(\Pr\left[-z_{1-\frac\alpha2}\leqslant \frac{\bar X-p}{\sqrt{\frac{p(1-p)}n}}\leqslant +z_{1-\frac\alpha2}\right]\) = \(\Pr\left[\left|\frac{\bar X-p}{\sqrt{\frac{p(1-p)}n}}\right| \leqslant z_{1-\frac\alpha2}\right]\) = \(\Pr\left[\frac{(\bar X-p)^2}{{\frac{p(1-p)}n}} \leqslant z_{1-\frac\alpha2}^2\right]\) \(\implies\) IC = \( \left[-{{{z_{1-\frac\alpha2}}\,\sqrt{{z_{1-\frac\alpha2}}^2+\left(4\,{\bar X}-4\,{\bar X}^2\right)\,n}-{z_{1-\frac\alpha2}}^2-2\,{\bar X}\,n }\over{2\,{z_{1-\frac\alpha2}}^2+2\,n}} ,{{{z_{1-\frac\alpha2}}\,\sqrt{{z_{1-\frac\alpha2}}^2+\left(4\,{\bar X}-4\,{\bar X}^2\right)\,n}+ {z_{1-\frac\alpha2}}^2+2\,{\bar X}\,n}\over{2\,{z_{1-\frac\alpha2}}^2+2\,n}} \right] \)
  • si \(n\) es grande, se puede considerar \(\frac{\bar X-p}{\sqrt{\frac{\bar X(1-\bar X)}n}}\) \(\stackrel{\sim}{\hookrightarrow}\) \(N(0,1)\) \(\implies\) IC = \(\bar X\pm z_{1-\frac\alpha2}\sqrt{\frac{\bar X(1-\bar X)}{n}}\)

5.3. método delta

  • cuando se trata de una trasformación de un estadígrafo con distribución asintótica asegurada por el TCL
  • ejemplo

    • \(X\) \(\hookrightarrow\) \(P(\lambda)\) \(\implies\) \(E(X)=\lambda\), \(D(X)=\sqrt\lambda\)
    • TCL \(\implies\) \(\frac{\bar X-\lambda}{\sqrt{\frac\lambda n}}\stackrel{\sim}{\hookrightarrow}N(0,1)\)
      versión primera
      despejando \(\lambda\) : \(\frac{(\bar X-\lambda)^2}{\frac\lambda n}\stackrel{\sim}{\hookrightarrow}\chi^2_1\) \(\implies\) \(\Pr\left[\frac{(\bar X-\lambda)^2}{\frac\lambda n}< a\right] = 1-\alpha\) \(\implies\) \(\Pr\left[\bar X^2+\lambda^2-2\bar X\lambda< \frac an\lambda\right] = 1-\alpha\) \(\implies\) \(\Pr\left[\lambda^2+\left(-2\bar X-\frac an\right)\lambda+\bar X^2<0\right] = 1-\alpha\) \(\implies\) \(\Pr\left[\lambda\in\left(\bar X+\frac a{2n}\pm\sqrt{\frac{a^2}{4n^2}+\frac{a\bar X}n}\right)\right] = 1-\alpha\)
      versión segunda
      sustituyendo \(\lambda\) en el denominador por su estimador : \(\frac{\bar X-\lambda}{\sqrt{\frac{\bar X} n}}\stackrel{\sim}{\hookrightarrow}N(0,1)\) \(\implies\) IC = \(\bar X\pm z\sqrt{\frac{\bar X} n}\)
    • método \(\delta\) \(\implies\) \(\sqrt{\bar X}\) \(\stackrel{\sim}{\hookrightarrow}\) \(N\left(\sqrt\lambda,\frac1{2\sqrt n}\right)\) \(\implies\) IC = \(\left(\sqrt{\bar X}\pm\frac z{2\sqrt n}\right)^2\)
    • nótese que los intervalos TCL2 y \(\delta\) tienen la misma amplitud:
      • IC TCL: \(\left(\bar X+z\sqrt{\frac\lambda n}\right)\) \(-\) \(\left(\bar X-z\sqrt{\frac\lambda n}\right)\) = \(2z\sqrt{\frac\lambda n}\)
      • IC \(\delta\): \(\left(\sqrt{\bar X}+\frac z{2\sqrt n}\right)^2\) \(-\) \(\left(\sqrt{\bar X}-\frac z{2\sqrt n}\right)^2\) = \(\left({\bar X}+\frac{z^2}{4n}\right)+2\sqrt{\bar X}\frac z{2\sqrt n}\) \(-\) \(\left({\bar X}+\frac{z^2}{4n}\right)-2\sqrt{\bar X}\frac z{2\sqrt n}\) = \(2z\sqrt{\frac{\bar X}n}\)
    ## X = P(l) => E(X)=l D(X)=raíz(l)
    n = 30                                  # tamaño muestral
    l = 5                                   # parámetro
    a = 0.05                                # alfa, 1-confianza
    resul = replicate (1e5,
    {
        X = rpois (n, l)
        T = mean(X)
        ## TCL => (T - l) / raiz(l/n) = N(0,1) => (T - l)^2 / (l/n) = (Ji^2)_1
        ## {Pr[(Ji^2)_1 < ji] = 1-a} => IC: (T-l)^2 < ji l/n =>
        ## => T^2 + l^2 - 2 T l - ji l/n < 0 =>
        ## => l^2 + (-2T - ji/n) l + T^2 < 0 =>
        ji = qchisq(1-a,1)
        Itcl1 = T + ji/2/n + c(-1,1)*sqrt(ji^2/n^2/4+ji*T/n)
        ## TCL => T = N(l,raiz(l/n)) => IC = T +/- z raiz(l/n)
        ## => IC = T +/- z raiz(T/n)
        z = qnorm(1-a/2)
        Itcl2 = T + c(-1,1)*z*sqrt(T/n)
        ## delta => raiz(T) = N(raiz(l),1/[2raiz(n)])
        Idelta = (sqrt(T) + c(-1,1)*z/(2*sqrt(n)))^2
        ## longitudes y coberturas:
        c (Ltcl1 = diff(Itcl1), Ltcl2 = diff(Itcl2), Ldelta = diff(Idelta),
           Ctcl1 = Itcl1[1] <= l & l <= Itcl1[2],
           Ctcl2 = Itcl2[1] <= l & l <= Itcl2[2],
           Cdelta = Idelta[1] <= l & l <= Idelta[2])
    })
    apply(resul,1,mean)
    
    ### ejemplo de ejecución:
    
       Ltcl1    Ltcl2   Ldelta    Ctcl1    Ctcl2   Cdelta 
    1.604105 1.598978 1.598978 0.954893 0.952269 0.950206 
    

6. remuestreo autosuficiente o bústrap (bootstrap)

6.1. definición

  • población \(X\) \(\hookrightarrow\) \(F_\theta\), estimador \(\hat\theta=T\), realización muestral \(\vec x_0\) = \((x_{01},\dots,x_{0n})\)
  • objetivo: aproximar la distribución de \(T\)
  • idea: considerar \(\vec x_0\) como una población nueva, con distribución
    bústrap paramétrico
    \(F_{\hat\theta}\) (la ojiva estimada paramétricamente)
    bústrap no paramétrico
    \(F_n\) (la ojiva empírica), es decir, \(\forall i\in\{1,\dots,n\}\), \(\Pr(x_{0i})\) = \(\frac1n\)
  • algoritmo general: iterar \(B\) veces

    • obtener \(\vec x^*\) muestra de tamaño a partir de
      bústrap paramétrico
      \(F_{\hat\theta}\)
      bústrap no paramétrico
      \(F_n\), es decir, obteniendo una muestra de tamaño \(n\) con reposición a partir de \(\vec x_0\)
    • calcular \(t^*\) = \(T(\vec x^*)\)
      Población Muestra Parámetro Estimador
    original \(X\) \(\vec x\) \(\theta\) \(t=T(\vec x)\)
    bústrap \(\vec x_0\) \(\vec x^*\) \(t_0=T(\vec x_0)\) \(t^*=T(\vec x^*)\)
  • étimo: bootstrap es una parte del calzado (identificado a veces con la oreja) y se usa en una expresión inglesa que significa obtener algo en principio imposible; Pedro Gil aludía a la expresión duros a cuatro pesetas (€ a 80 ¢) para ilustrar el método

6.2. hipótesis

se supone que se cumple alguna de las siguientes:

hipótesis A
\(F_n\) es una buena aproximación de \(F_\theta\), luego la distribución de \(T^*\) es similar a la de \(T\)
hipótesis B
\(T^*-t_0\) tiene distribución parecida a \(T-\theta\)
hipótesis C
\(\frac{T^*-t_0}{D(T^*)}\) tiene distribución parecida a \(\frac{T-\theta}{D(T)}\) donde \(D(T)\) = \(\sigma_T\) es el desvío (error) típico de \(T\)

6.3. método gausiano

  • (aunque es habitual estimar la varianza del estimador, este método no suele usarse para intervalos; aquí se presenta para introducir intuitivamente el bústrap percentil)
  • supone \(V(T)\) = \(V(T^*)\) (implicado por hipótesis A ó B) y distribución aproximadamente gausiana de \(T\)
  • estimación bústrap de \(V(T)\)
    • generar \(B\) muestras bústrap \(\vec x^*_1, \dots, \vec x^*_B\)
    • aplicar el estimador a cada muestra: \(\forall i\in\{1,\dots,B\}\), \(t^*_i=T(\vec x^*_i)\)
    • estimar la varianza \(V(T^*)\) a partir de la (cuasi)varianza muestral \(\hat V(T^*)\) = \(\hat S^2_{T^*}\) = \(\frac{\sum_{i=1}^B (t^*_i-\bar t^*)^2}{B-1}\) donde \(\bar t^*=\frac1n\sum t^*_i\)
  • \(T\) \(\stackrel{\sim}{\hookrightarrow}\) \(N(\theta,\sigma_T)\) \(\implies\) IC = \(T \pm z \hat\sigma_T\) = \(T(\vec x_0) \pm z \hat\sigma_T\) = \(t_0 \pm z \hat\sigma_T\)
    • \(\pm z\) son los cuantiles de órdenes \(\frac\alpha2\) y \(1-\frac\alpha2\) de una gausiana típica, \(N(0,1)\)
    • los extremos del IC son los cuantiles de órdenes \(\frac\alpha2\) y \(1-\frac\alpha2\) de una distribución gausiana \(N\left(t_0,\hat\sigma_T\right)\)
  • \(T^*\) \(\stackrel{\sim}{\hookrightarrow}\) \(N(t_0,\sigma_{T^*})\) \(\implies\) \(1-\alpha\) = \(\Pr^*(t_0 - z \hat\sigma_{T^*} \leqslant T^* \leqslant t_0 + z \hat\sigma_{T^*})\) \(\implies\) IC\(^*\) = \(t_0 \pm z \hat\sigma_{T^*}\)
    • \(\Pr_\theta\) indica la probabilidad asociada a \(F_\theta\) y \(\Pr^*\) indica la probabilidad asociada a \(F_n\)
    • los extremos del IC\(^*\) son los cuantiles de órdenes \(\frac\alpha2\) y \(1-\frac\alpha2\) de una distribución gausiana \(N\left(t_0,\sigma_{T^*}\right)\), teóricamente
    • los extremos del IC\(^*\) son los cuantiles de órdenes \(\frac\alpha2\) y \(1-\frac\alpha2\) de la distribución bústrap, en la práctica

6.4. método percentil

  • supone hipótesis A
  • basado en que
    • \(1-\alpha\) = \(\Pr(a\leqslant T\leqslant b)\) \(\approx\) \(\Pr^*(a\leqslant T^*\leqslant b)\)
    • \(T\) aproximadamente insesgado, luego \(a\leqslant\theta\leqslant b\) y
      • \(\hat a = T_1 = \hat T_{\frac\alpha2} = \widehat{\text{cuantil}}\text{ $\frac\alpha2$ de } T\)
      • \(\hat b = T_2 = \hat T_{1-\frac\alpha2} = \widehat{\text{cuantil}}\text{ $1-\frac\alpha2$ de } T\)
    • existe una trasformación \(g\) tal que \(g(T)\) es simétrica centrada en \(g(\theta)\); Efron y Tibshirani, An introduction to the bootstrap, 13.3:
      • en inferencia clásica existe un amplio catálogo de trasformaciones para conseguir acercar la distribución de un estimador a la situación ideal \(T\hookrightarrow N(\theta,\sigma_T)\)
      • el método percentil extiende la utilidad del método gausiano sin necesidad de conocer dicho catálogo
  • los extremos del IC\(^*\) son los cuantiles de órdenes \(\frac\alpha2\) y \(1-\frac\alpha2\) de la distribución bústrap (generalización de la idea del método gausiano)
    • obtener \(a\) y \(b\) como cuantiles de órdenes respectivos \(\frac\alpha2\) y \(1-\frac\alpha2\) de la distribución de \(T^*\)
    • IC\(^*\) = \([a, b]\)
  • el bústrap percentil no funciona bien con estimadores como \(X_{(1)}\) y \(X_{(n)}\)

6.4.1. teorema

  1. enunciado
    • si existe \(g\) creciente tal que \(g(T)-g(\theta)\) tiene la misma distribución \(\Psi\) que \(g(T^*)-g(T)\), simétrica respecto al origen,
    • entonces el intervalo «percentil» [a,b] cumple la cobertura probabilística
  2. demostración
    • por la simetría, \(\Psi(-x)=1-\Psi(x)\)
    • sea \(\psi_\alpha\) el cuantil de orden \(\alpha\) de \(\Psi\), luego \(\psi_\alpha\) \(=\) \(-\psi_{1-\alpha}\)
    • \(1-\alpha\) \(=\) \(\Pr_\theta\left[-\psi_{1-\frac\alpha2}\leqslant g(T)-g(\theta)\leqslant \psi_{1-\frac\alpha2}\right]\) \(\approx\) \(\Pr^*\left[-\psi_{1-\frac\alpha2}\leqslant g(T^*)-g(T)\leqslant \psi_{1-\frac\alpha2}\right]\)
    • extremo inferior del intervalo: \(\frac\alpha2\) = \(\Pr^*[g(T^*)-g(T) < -\psi_{1-\frac\alpha2}]\) = \(\Pr^*[g(T^*) < g(T)-\psi_{1-\frac\alpha2}]\) = \(\Pr^*\bigl[T^* < g^{-1}\bigl(g(T)-\psi_{1-\frac\alpha2}\bigr)\bigr]\) luego \(g^{-1}\bigl(g(T)-\psi_{1-\frac\alpha2}\bigr)\) = \(F^{-1}_{T^*}\left(\frac\alpha2\right)\)
    • análogamente para el extremo superior: \(g^{-1}\bigl(g(T)+\psi_{1-\frac\alpha2}\bigr)\) = \(F^{-1}_{T^*}\left(1-\frac\alpha2\right)\)
    • \(\Pr\left[-\psi_{1-\frac\alpha2}\leqslant g(T)-g(\theta) \leqslant \psi_{1-\frac\alpha2}\right]\) \(=\) \(\Pr\left[-g(T)-\psi_{1-\frac\alpha2}\leqslant -g(\theta) \leqslant -g(T)+\psi_{1-\frac\alpha2}\right]\) \(=\) \(\Pr\left[g(T)+\psi_{1-\frac\alpha2}\geqslant g(\theta) \geqslant g(T)-\psi_{1-\frac\alpha2}\right]\) \(=\) \(\Pr\left[g^{-1}\bigl(g(T)+\psi_{1-\frac\alpha2}\bigr)\geqslant \theta \geqslant g^{-1}\bigl(g(T)-\psi_{1-\frac\alpha2}\bigr)\right]\) \(=\) \(\Pr\left[g^{-1}\bigl(g(T)-\psi_{1-\frac\alpha2}\bigr) \leqslant \theta \leqslant g^{-1}\bigl(g(T)+\psi_{1-\frac\alpha2}\bigr) \right]\) = \(\Pr\left[F^{-1}_{T^*}\left(\frac\alpha2\right) \leqslant g(T)-g(\theta) \leqslant F^{-1}_{T^*}\left(1-\frac\alpha2\right) \right]\) \(\implies\) IC = \(\left[F^{-1}_{T^*}\left(\frac\alpha2\right), F^{-1}_{T^*}\left(1-\frac\alpha2\right)\right]\)
  3. EXTRA necesidad de la simetría
    • sean \(\alpha_1\) y \(\alpha_2\) tales que \(\alpha_1+\alpha_2=\alpha\)
    • sean \(c_1\) y \(c_2\) tales que \(\alpha_1\) \(=\) \(\Psi(c_1)\) ; \(1-\alpha_2\) \(=\) \(\Psi(c_2)\)
    • \(1-\alpha\) \(=\) \(\Pr_\theta\left[c_1\leqslant g(T)-g(\theta)\leqslant c_2\right]\) \(\approx\) \(\Pr^*\left[c_1\leqslant g(T^*)-g(T)\leqslant c_2\right]\)
    • extremo inferior del intervalo: \(\frac\alpha2\) = \(\Pr^*[g(T^*)-g(T) < c_1]\) = \(\Pr^*[g(T^*) < g(T)+c_1]\) = \(\Pr^*\bigl[T^* < g^{-1}\bigl(g(T)+c_1\bigr)\bigr]\) luego \(g^{-1}\bigl(g(T)+c_1\bigr)\) = \(F^{-1}_{T^*}\left(\frac\alpha2\right)\)
    • análogamente para el extremo superior: \(g^{-1}\bigl(g(T)+c_2\bigr)\) = \(F^{-1}_{T^*}\left(1-\frac\alpha2\right)\)
    • \(\Pr\left[c_1\leqslant g(T)-g(\theta) \leqslant c_2\right]\) \(=\) \(\Pr\left[-g(T)+c_1\leqslant -g(\theta) \leqslant -g(T)+c_2\right]\) \(=\) \(\Pr\left[g(T)-c_1\geqslant g(\theta) \geqslant g(T)-c_2\right]\) \(=\) \(\Pr\left[g^{-1}\bigl(g(T)-c_1\bigr)\geqslant \theta \geqslant g^{-1}\bigl(g(T)-c_2\bigr)\right]\) \(=\) \(\Pr\left[g^{-1}\bigl(g(T)-c_2\bigr) \leqslant \theta \leqslant g^{-1}\bigl(g(T)-c_1\bigr) \right]\) \(=\) \(\big\langle\) aquí necesitamos \(c_1\) \(=\) \(-c_2\) \(\big\rangle\) \(=\) \(\Pr\left[F^{-1}_{T^*}\left(\frac\alpha2\right) \leqslant g(T)-g(\theta) \leqslant F^{-1}_{T^*}\left(1-\frac\alpha2\right) \right]\) \(\implies\) IC = \(\left[F^{-1}_{T^*}\left(\frac\alpha2\right), F^{-1}_{T^*}\left(1-\frac\alpha2\right)\right]\)
  4. lo mismo con otra notación, donde \(\theta^*=T\)
    • sea \(g(T)-g(\theta)\) con la misma distribución que \(g(T^*)-g(\theta^*)=g(T^*)-g(T)\)
    • sean \(a\) y \(b\) tales que \(1-\alpha=\Pr[a\le g(T)-g(\theta)\le b]\)
    • por tanto, \(1-\alpha=\Pr[a\le g(T^*)-g(T)\le b]\)
    • vamos a despejar \(\theta\) en la primera expresión (el parámetro) y \(T^*\) en la segunda (la distribución que podemos generar)
    • \(1-\alpha\) = \(\Pr[g(T)-b\le g(\theta)\le g(T)-a]\) = \(\Pr[g^{-1}\bigl(g(T)-b\bigr)\le \theta\le g^{-1}\bigl(g(T)-a\bigr)]\)
    • \(1-\alpha\) = \(\Pr[g(T)+a\le g(T^*)\le g(T)+b]\) = \(\Pr[g^{-1}\bigl(g(T)+a\bigr)\le t^*\le g^{-1}\bigl(g(T)+b\bigr)]\)
    • como tienen distribución simétrica respecto a \(0\), entonces \(a=-b\) y \(\Pr[g^{-1}\bigl(g(T)-b\bigr)\le \theta\le g^{-1}\bigl(g(T)+b\bigr)]\) = \(\Pr[g^{-1}\bigl(g(T)-b\bigr)\le T^*\le g^{-1}\bigl(g(T)+b\bigr)]\)
    • por tanto, los estadísticos extremos del IC coinciden con los cuantiles correspondientes de \(T^*\)

6.4.2. EXTRA corrección de sesgo

  • el método percentil suele suponer \(\Psi\) \(\sim\) \(N(0,\sigma)\)
  • generalización: \(\frac{g(T)-g(\theta)}{\sigma}\) \(\hookrightarrow\) \(N(-z_0,1)\)
  • \(z_0\) y \(\sigma\) desconocidos ; \(z_0\) estimable:
    • \(p\) \(=\) \(\Pr^*\left[T^*\leqslant T\right]\) \(\implies\) estimable mediante bústrap como \(\hat p\) \(=\) \(F_{T^*}^{-1}(T)\)
    • \(p\) \(=\) \(\Pr^*\left[T^*\leqslant T\right]\) \(=\) \(\Pr^*\left[\frac{gT^*-gT}{\sigma}\leqslant0\right]\) \(=\) \(\Phi(z_0)\) \(\implies\) \(\hat z_0\) \(=\) \(\Phi^{-1}\left(\hat p\right)\)
  • \(1-\alpha\) \(=\) \(\Pr\left[z_{\alpha_1}\leqslant\frac{gT-g\theta}{\sigma}+z_0\leqslant z_{1-\alpha_2}\right]\) \(=\) \(\Pr\left[g^{-1}\bigl(gT+\sigma(z_0+z_{\alpha_1})\bigr) \leqslant\theta\leqslant g^{-1}\bigl(gT+\sigma(z_0+z_{1-\alpha_2})\bigr)\right]\) \(\implies\) I.C. \(=\) \(\left[g^{-1}\bigl(gT+\sigma(z_0+z_{\alpha_1})\bigr) \;,\;g^{-1}\bigl(gT+\sigma(z_0+z_{1-\alpha_2})\bigr)\right]\)
  • extremo inferior: \(\Pr^*\left[T^*\leqslant g^{-1}\bigl(gT+\sigma(z_0+z_{\alpha_1})\bigr)\right]\) \(=\) \(\Pr^*\left[\frac{gT^*-gT}{\sigma}+z_0\leqslant2z_0+z_{\alpha_1}\right]\) \(=\) \(\Pr^*\left[N(0,1)\leqslant2z_0+z_{\alpha_1}\right]\) \(=\) \(\Phi(2z_0+z_{\alpha_1})\) \(\implies\) \(g^{-1}\bigl(gT+\sigma(z_0+z_{\alpha_1})\bigr)\) \(=\) \(F_{T^*}^{-1}\bigl(\Phi(2z_0+z_{\alpha_1})\bigr)\)
  • extremo superior, análogamente: \(g^{-1}\bigl(gT+\sigma(z_0+z_{1-\alpha_2})\bigr)\) \(=\) \(F_{T^*}^{-1}\bigl(\Phi(2z_0+z_{1-\alpha_2})\bigr)\)

6.5. método básico

  • supone hipótesis B
  • basado en que \(1-\alpha\) = \(\Pr(a\leqslant T-\theta\leqslant b)\) \(\approx\) \(\Pr^* (a\leqslant T^*-t_0\leqslant b)\)
  • obtener \(a\) y \(b\) como cuantiles de órdenes respectivos \(\frac\alpha2\) y \(1-\frac\alpha2\) de la distribución de \(T^*-t_0\)
  • \(1-\alpha\) = \(\Pr(a\leqslant T-\theta\leqslant b)\) = \(\Pr (a-T\leqslant -\theta\leqslant b-\theta)\) = \(\Pr (T-a\geqslant -\theta\geqslant T-b)\) = \(\Pr (T-b\leqslant \theta\leqslant T-a)\) \(\implies\) IC = \([T-b,T-a]\) = \([t_0-b,t_0-a]\)

6.6. método \(t\) ó estudentizado

  • supone hipótesis C
  • étimo: si \(X\hookrightarrow N(\theta,\sigma)\), \(T=\bar X\) y \(\hat D(T) = \frac{\hat S}{\sqrt n}\), entonces \(\frac{T-\theta}{\hat D(T)}\) \(\hookrightarrow\) \(t_{n-1}\)
    • Efron y Tibshirani, en An introduction to the bootstrap, 12.4, sugieren que sirve de aproximación para distribuciones arbitrarias: en 1908, Gosset el Estudiante derivó la aproximación \(\frac{T-\theta}{\hat D(T)}\) \(\stackrel{\sim}{\hookrightarrow}\) \(t_{n-1}\) para el caso \(T=\bar X\)
  • a menudo \(\frac{T^*-t_0}{\hat D(T^*)}\) es más estable que \(T^*-t_0\)
  • basado en que \(1-\alpha\) = \(\Pr\left(a\leqslant \frac{T-\theta}{\hat D(T)}\leqslant b\right)\) \(\approx\) \(\Pr^* \left(a\leqslant \frac{T^*-t_0}{\hat D(T^*)}\leqslant b\right)\)
  • para calcular \(\hat D(T^*)\) requiere expresión explícita de la varianza de \(T\) (véase ejemplo siguiente) o usar sobre la muestra bústrap \(\vec x^*\)
  • obtener \(a\) y \(b\) como cuantiles de órdenes respectivos \(\frac\alpha2\) y \(1-\frac\alpha2\) de la distribución de \(\frac{T^*-t_0}{\hat D(T^*)}\)
  • \(1-\alpha\) = \(\Pr \left(a\leqslant\frac{T-\theta}{\hat D(T)}\leqslant b\right)\) = \(\Pr\left(T-b\hat D(T)\leqslant\theta\leqslant T-a\hat D(T)\right)\) \(\implies\) IC = \([T-b\hat D(T),T-a\hat D(T)]\) = \([t_0-bd_0,T-ad_0]\)
  • \(d_0\) se puede obtener como desvío típico de \(T^*\) o, si está disponible, a través de la expresión explícita de la varianza de \(T\)

6.7. método paramétrico

  • los métodos anteriores son no paramétricos ; el remuestreo se realiza a partir de la distribución empírica \(F_n\)
  • en el bústrap paramétrico se sustituye el remuestreo \(F_n\) por el remuestreo a partir de \(F_{\hat\theta}\), la supuesta distribución de \(X\) con los parámetros sustituidos por estimaciones
  • el resto de pasos son los mismos que en bústrap no paramétrico
  • ventajas
    • no paramétrico: evita establecer una familia paramétrica de distribuciones para \(X\)
    • paramétrico:
      • produce resultados más precisos que las fórmulas clásicas asintóticas y puede usarse en problemas para los que no existe fórmula (Efron y Tibshirani, An introduction to the bootstrap, 6.5)
      • funciona también cuando el estimador es \(X_{(1)}\) y \(X_{(n)}\) (en tales casos, un remuestreo no paramétrico produciría una mayoría de remuestras con el mismo valor del estimador)

6.8. ejemplo

  • \(X\) \(\hookrightarrow\) \(N(\mu,\sigma)\)
  • se busca IC para \(\sigma^2\)
  • \(\frac{(n-1)\hat S^2}{\sigma^2}\) \(\hookrightarrow\) \(\chi^2_{n-1}\) \(\implies\) \(V\left[\frac{(n-1)\hat S^2}{\sigma^2}\right]\) = \(2(n-1)\) \(\implies\) \(V(\hat S^2)\) = \(\frac{2 \sigma^4}{n-1}\) \(\implies\) \(D(\hat S^2)\) = \(\sigma^2\sqrt{\frac2{n-1}}\)
a = 0.05 # alfa, 1 - confianza
n = 30 # tamaño muestral
mu = 0
sigma2 = 100 # parámetro de interés
sigma = sqrt(sigma2)
longitudesYcoberturas = function (x0)
{
  T = var # estimador = cuasivarianza = S^2
  t0 = T(x0)
  B = 1e3 # número de muestras bústrap
  distri = replicate (B, # distribuciones bústrap
  {
    xB = sample (x0, replace=TRUE) # muestra bústrap x*
    tB = T(xB)                     # t*
    c (percentil = tB,
       básico = tB - t0,
       t = (tB - t0) / (tB*sqrt(2/(n-1))))
  })
  cuantiles = apply (distri, 1, function (x) quantile(x,c(a/2,1-a/2)))
  Ipercentil = cuantiles[,"percentil"]
  Ibásico = t0 - rev(cuantiles[,"básico"])
  It = t0 - rev(cuantiles[,"t"]) * (t0*sqrt(2/(n-1)))
  intervalos = rbind (Iteórico = (n-1)*t0/qchisq(c(1-a/2,a/2),n-1),
                      Ipercentil, Ibásico, It)
  longitudes = apply (intervalos, 1, diff)
  coberturas = apply (intervalos, 1, function (x) x[1]<=sigma2&sigma2<=x[2])
  cbind (intervalos, longitudes, coberturas)
}
x0 = rnorm (n, mu, sigma)
longitudesYcoberturas(x0)
resul = replicate (1e4,
{
  x0 = rnorm (n, mu, sigma)
  lYc = longitudesYcoberturas(x0)
  list (longitudes = lYc[,"longitudes"],
        coberturas = lYc[,"coberturas"])
})
apply(do.call(rbind,resul["longitudes",]),2,mean)
apply(do.call(rbind,resul["coberturas",]),2,mean)

### ejemplo de ejecución

## > x0 = rnorm (n, mu, sigma)
## > longitudesYcoberturas(x0)
##                2.5%    97.5% longitudes coberturas
## Iteórico   65.36465 186.2409  120.87627          1
## Ipercentil 58.29280 148.3789   90.08614          1
## Ibásico    57.73288 147.8190   90.08614          1
## It         71.57701 182.1941  110.61711          1

## > apply(do.call(rbind,resul["longitudes",]),2,mean)
##   Iteórico Ipercentil    Ibásico         It 
##   117.4148    92.0845    92.0845   117.5555 
## > apply(do.call(rbind,resul["coberturas",]),2,mean)
##   Iteórico Ipercentil    Ibásico         It 
##     0.9475     0.8811     0.8785     0.9130 

mismo ejemplo con bústrap paramétrico:

a = 0.05 # alfa, 1 - confianza
n = 30 # tamaño muestral
mu = 0
sigma2 = 100 # parámetro de interés
sigma = sqrt(sigma2)
longitudesYcoberturas = function (x0)
{
  T = var # estimador = cuasivarianza = S^2
  t0 = T(x0)
  B = 1e3 # número de muestras bústrap
  muE = mean(x0) ; sigmaE = sd(x0) # PARÁMETROS ESTIMADOS para remuestreo
  distri = replicate (B,           # distribuciones bústrap
  {
    xB = rnorm (n, muE, sigmaE) # muestra bústrap x* PARAMÉTRICA
    tB = T(xB)                  # t*
    c (percentil = tB,
       básico = tB - t0,
       t = (tB - t0) / (tB*sqrt(2/(n-1))))
  })
  cuantiles = apply (distri, 1, function (x) quantile(x,c(a/2,1-a/2)))
  Ipercentil = cuantiles[,"percentil"]
  Ibásico = t0 - rev(cuantiles[,"básico"])
  It = t0 - rev(cuantiles[,"t"]) * (t0*sqrt(2/(n-1)))
  intervalos = rbind (Iteórico = (n-1)*t0/qchisq(c(1-a/2,a/2),n-1),
                      Ipercentil, Ibásico, It)
  longitudes = apply (intervalos, 1, diff)
  coberturas = apply (intervalos, 1, function (x) x[1]<=sigma2&sigma2<=x[2])
  cbind (intervalos, longitudes, coberturas)
}
x0 = rnorm (n, mu, sigma)
longitudesYcoberturas(x0)
resul = replicate (1e4,
{
  x0 = rnorm (n, mu, sigma)
  lYc = longitudesYcoberturas(x0)
  list (longitudes = lYc[,"longitudes"],
        coberturas = lYc[,"coberturas"])
})
apply(do.call(rbind,resul["longitudes",]),2,mean)
apply(do.call(rbind,resul["coberturas",]),2,mean)

### ejemplo de ejecución

## > x0 = rnorm (n, mu, sigma)
## > longitudesYcoberturas(x0)
##                2.5%     97.5% longitudes coberturas
## Iteórico   40.24300 114.66280   74.41979          1
## Ipercentil 35.33351 100.31189   64.97838          1
## Ibásico    26.58481  91.56319   64.97838          0
## It         40.13180 113.93423   73.80243          1

## > apply(do.call(rbind,resul["longitudes",]),2,mean)
##   Iteórico Ipercentil    Ibásico         It 
##   116.7928   101.3657   101.3657   116.1387 
## > apply(do.call(rbind,resul["coberturas",]),2,mean)
##   Iteórico Ipercentil    Ibásico         It 
##     0.9538     0.9287     0.8893     0.9510 

7. determinar tamaño muestral

  • error \(\epsilon\) de un intervalo
    • semiamplitud de un intervalo
    • si IC = \(T\pm z\sigma_T\), entonces \(\epsilon = z\sigma_T\)
  • objetivo: hallar mínimo tamaño muestral \(n\) necesario para
    • obtener un error menor que \(\epsilon\)
    • dada cierta confianza \(1-\alpha\)
  • \(\Pr[\theta\in T\pm z\sigma_T]\) \(\geqslant\) \(1-\alpha\) \(\implies\) ¿\(n\)?

7.1. \(\sigma\) conocida

7.1.1. caso gausiano

  • \(X\hookrightarrow N(\mu,\sigma)\)
  • \(\theta\) = \(\mu\) = \(E(X)\)
  • \(T\) = \(\bar X\) \(\implies\) IC = \(\bar X\pm z_{1-\frac\alpha2}\frac\sigma{\sqrt n}\)
  • \(z_{1-\frac\alpha2}\sigma{\sqrt n}\) \(\leqslant\) \(\epsilon\) \(\implies\) \(n \geqslant \frac{z_{1-\frac\alpha2}^2 \sigma^2}{\epsilon^2}\)

7.1.2. caso general

  1. TCL
    • como caso gausiano, pero asegurando \(n\) \(>\) 30, 50, 100… según la asimetría de la población
  2. desigualdad de Chebichev
    • \(\Pr\left[\left|X-\mu\right| > k\sigma\right] \leqslant \frac1{k^2}\)
    • \(\Pr\left[\left|T-\mu_T\right| \leqslant \epsilon\right]\) \(\geqslant\) \(\frac{\sigma_T^2}{\epsilon^2}\) \(\geqslant\) \(1-\alpha\)
    • \(\Pr\left[\left|\bar X-\mu\right| \leqslant\epsilon\right]\) \(\geqslant\) \(\frac{\frac{\sigma^2}n}{\epsilon^2}\) \(\geqslant\) \(1-\alpha\) \(\implies\) \(n \geqslant \frac{\sigma^2}{\alpha\epsilon^2}\)

7.2. \(\sigma\) desconocida

  • estimar \(\sigma\) a partir de una muestra piloto
  • acotar \(\sigma\)
    • caso gausiano: si \(\sigma\leqslant\sigma_0\) entonces \(n \geqslant \frac{z_{1-\frac\alpha2}^2 \sigma_0^2}{\epsilon^2}\)
    • caso bernuli:

      • \(X\hookrightarrow B(1,p)\), \(n\) grande \(\implies\) \(\bar X\) \(\stackrel{\sim}{\hookrightarrow}\) \(N\left(p,\sqrt{\frac{p(1-p)}n}\right)\) \(\implies\) IC = \(\bar X \pm z_{1-\frac\alpha2}\sqrt{\frac{p(1-p)}n}\) \(\implies\) \(z_{1-\frac\alpha2}\sqrt{\frac{p(1-p)}n}\leqslant\epsilon\) \(\implies\) \(z_{1-\frac\alpha2}^2{\frac{p(1-p)}n}\leqslant\epsilon^2\) \(\implies\) \(n\geqslant z_{1-\frac\alpha2}^2{\frac{p(1-p)}{\epsilon^2}}\)
      • \(\forall p\in(0,1)\), \(p(1-p)\leqslant\frac14\) \(\implies\) tomar \(n\geqslant z_{1-\frac\alpha2}^2{\frac1{4\epsilon^2}}\)
      unoMenosAlfas <- c (.9, .95, .99)       #confianzas
      epsilones <- c (.05, .02, .01, 0.001)   #errores
      tabla <- outer (unoMenosAlfas, epsilones,
                      function (alfa1, eps)
                      {
                          alfa <- 1 - alfa1
                          z <- qnorm (1-alfa/2)
                          ceiling (z^2 / (4 * eps^2))
                      })
      dimnames(tabla) <- list (conf=unoMenosAlfas, err=epsilones)
      tabla
      
            err
      conf   0.05 0.02  0.01   0.001
        0.9   271 1691  6764  676386
        0.95  385 2401  9604  960365
        0.99  664 4147 16588 1658725
      

7.3. consecuencias

\(n\) crece si

  • aumenta la confianza \(1-\alpha\)
  • disminuye el error \(\epsilon\)
  • aumenta la dispersión \(\sigma\)

Autor: Carlos Carleos, Norberto Corral, Teresa López

Created: 2024-11-23 sáb 09:33

Validate