Inferencia - Repaso
1 Estadística
- descriptiva: resumir \((x_1,\dots,x_n)\)
- probabilidad: \(X,\mathcal A, P\)
- inferencia: ¿qué se puede decir sobre \(X\) a partir de \(P\) y \((x_1,\dots,x_n)\)?
2 Descriptiva
2.1 univariante
2.1.1 variables estadísticas cualitativas, categóricas, dicótomas, polítomas, atributos
2.2 bivariante
2.2.1 cualitativa frente a cualitativa
- frecuencias relativas condicionadas
- mosaicplot
2.2.2 cuantitativa frente a cualitativa
- descriptivos condicionados
- diagramas de cajas (boxplot)
2.2.3 cuantitativa frente a cuantitativa
- coeficiente de correlación
- diagrama de dispersión (nube de puntos)
3 Probabilidad
3.1 definición
- \(\mathcal A\) es \(\sigma\)-álgebra sobre \(\Omega\)
\[\begin{array}{cccc} \Pr : & \mathcal A & \rightarrow & \mathbb R \\ & A & \mapsto & \Pr A \end{array}\]
- axiomas de Kolmogórov
- \(0\le\Pr A\le1\)
- \(\Pr\Omega=1\)
- si \(A_1,A_2,\dots\) incompatibles (disjuntos), entonces \(\Pr A_1\cup A_2\cup\dots = \Pr A_1+\Pr A_2+\dots\)
- propiedades
- \(\Pr \emptyset = 0\)
- \(A\subset B\quad\Longrightarrow\quad\Pr A\le\Pr B\)
- \(\Pr A\le1\)
- \(\Pr A^c=1-\Pr A\)
- \(\Pr A\cup B=\Pr A+\Pr B-\Pr A\cap B\)
- condicionada
- \(\Pr A\mid B = \frac{\Pr A\cap B}{\Pr B}\)
- \(A\) y \(B\) independientes \(\iff\) \(\Pr A\mid B = \Pr A\) \(\iff\) \(\Pr A\cap B = \Pr A \cdot \Pr B\)
- probabilidad total
- \(A_1,\dots,A_n\) partición
- \(A_i\) incompatible con \(A_j\)
- \(A_1\cup\dots\cup A_n=\Omega\)
- \(\Pr B = \sum_{i=1}^n \Pr A_i\cdot\Pr B\mid A_i\)
- \(A_1,\dots,A_n\) partición
- Bayes
- \(\Pr A_i\mid B\) = \(\frac{\Pr A_i\cap B}{\Pr B}\) = \(\frac{\Pr B\mid A_i\cdot\Pr A_i}{\Pr B}\) = \(\frac{\Pr B\mid A_i\cdot\Pr A_i} {\sum_{i=j}^n \Pr A_j\cdot\Pr B\mid A_j}\) \(\propto \Pr B\mid A_i\cdot\Pr A_i\)
3.2 variable aleatoria
- cuantificación de los resultados de un experimento aleatorio \[\begin{array}{cccc} X : & \Omega & \rightarrow & \mathbb R \\ & \omega & \mapsto & X(\omega) \end{array}\]
- permite trabajar con modelos probabilísticos sobre \(\mathbb R\)
- ojiva / función de distribución / función de distribución acumulada
- \( F(x)\) = \(F_X(x)\) = \(\Pr\{\omega : X(\omega)\le x\}\) = \(\Pr[X\le x] \)
- \(F(-\infty)=0\)
- \(F(+\infty)=1\)
- \(F\) continua por la derecha
- \(F\) no decreciente
- \(\Pr(X=x) = F(x) - F(x^-)\)
- discreta
- toma valores \(x_1,x_2,\dots\)
- \(F(x) = \sum\{\Pr x_i : \forall i, x_i\le x\}\)
- \(E[g(X)] = \sum_{i=1} g(x_i)\cdot\Pr x_i\)
- continua
- tiene función de densidad \(f\)
- \(f\ge0\)
- \(\int_{-\infty}^{+\infty} f = 1\)
- \(F(x) = \int_{-\infty}^x f\)
- \(E[g(X)] = \int_{-\infty}^{\infty} t\cdot f(t)\cdot dt\)
- tiene función de densidad \(f\)
3.3 distribuciones habituales
3.3.1 discretas
nombre | símbolo | esperanza \(\mu\) | varianza \(\sigma^2\) |
---|---|---|---|
Bernoulli | \(B(p)\) | \(p\) | \(p\cdot(1-p)\) |
binomial | \(B(n,p)\) | \(n\cdot p\) | \(n\cdot p\cdot(1-p)\) |
geométrica (\(X=1,2,\dots\)) | \(G(p)\) | \(\frac1p\) | \(\frac{1-p}{p^2}\) |
hipergeométrica | \(H(N,D,n)\) | \(n\frac DN\) | \(n\frac DN\frac{N-D}N\frac{N-n}{N-1}\) |
Poisson | \(P(\lambda)\) | \(\lambda\) | \(\lambda\) |
3.3.2 continuas
nombre | símbolo | esperanza \(\mu\) | varianza \(\sigma^2\) |
---|---|---|---|
uniforme | \(U(a,b)\) | \(\frac{a+b}2\) | \(\frac{(b-a)^2}{12}\) |
exponencial | \(\text{Exp}(\lambda)\) | \(\frac1\lambda\) | \(\frac1{\lambda^2}\) |
gama | \(\gamma(p,a)\) | \(\frac p a\) | \(\frac p {a^2}\) |
gausiana | \(N(\mu,\sigma)\) | \(\mu\) | \(\sigma^2\) |
beta | \(B(p,q)\) | \(\frac{p}{p+q}\) | \(\frac{p\cdot q}{(p+q)^2\cdot(p+q+1)}\) |
- asociadas al muestreo en poblaciones gausianas
- ji cuadrado \(\chi^2_n = \gamma\left(\frac n2, \frac12\right) = \sum_{i=1}^n N(0,1)\) [\(N(0,1)\) independientes]
- t de Student \(t_n=\frac{N(0,1)}{\sqrt{\frac{\chi^2_n}n}}\) [\(N(0,1)\) y \(\chi^2_n\) independientes]
- F de Snedecor \(F_{n,m}=\frac{\frac{\chi^2_n}n}{\frac{\chi^2_m}m}\) [\(\chi^2\) independientes]
4 Inferencia
- población \(X\)
- muestra aleatoria \(\vec X = (X_1,\dots,X_n)\)
- realización muestral \(\vec x = (x_1,\dots,x_n)\)
\[ X \stackrel{\text{muestreo}}{\longrightarrow} \vec x \]
\[ X \stackrel{\text{inferencia}}{\longleftarrow} \vec x \]
4.1 enfoques
4.1.1 frecuentista
- \(X\) depende de un parámetro \(\theta\) desconocido
- objetivo
- estimar \(\theta\)
- contrastar una afirmación sobre \(\theta\)
- usado en esta asignatura
4.1.2 bayesiano
- el parámetro \(\theta\) es una variable aleatoria con distribución a priori \(f(\theta)\)
- objetivo: calcular la distribución a posteriori \(f(\theta\mid\vec x)\) a partir de \(f(\vec x\mid\theta)\) y \(f(\theta)\)
4.2 muestra aleatoria simple
- observaciones independientes
- discretas: \(\Pr(\vec x)=\Pr(x_1,\dots,x_n)=\prod_{i=1}^n\Pr(x_i)\)
- continuas: \(f(\vec x)=f(x_1,\dots,x_n)=\prod_{i=1}^n f(x_i)\)
4.3 estadígrafo o estadístico
- función de la muestra
\[\begin{array}{cccc} T : & [X(\Omega)]^n & \rightarrow & \mathbb R \\ & \vec x & \mapsto & T(\vec x) \end{array}\]
- ejemplos
- \(\bar X = \frac{\sum_{i=1}^n X_i}n\)
- \(S^2 = \frac{\sum_{i=1}^n (X_i-\bar X)^2}n\)
- \(\hat S^2 = \frac{\sum_{i=1}^n (X_i-\bar X)^2}{n-1}\)
4.4 cambio de variable
- sea \(X\) de distribución conocida y \(Y=g(X)\)
- si \(g\) es creciente en el soporte de \(X\),
entonces
- \(F_Y(y)\) = \(\Pr(Y\le y)\) = \(\Pr[g(X)\le y]\) = \(\Pr[X\le g^{-1}(y)]\) = \(F_X[g^{-1}(y)]\)
- \(f_Y(y) = f_X[g^{-1}(y)]\cdot\frac{dg^{-1}}{dy}(y)\)
- en general, con \(g\) inyectiva:
- \(f_Y(y) = f_X[g^{-1}(y)]\cdot\left|\frac{dg^{-1}}{dy}(y)\right|\)
- si \(X(\Omega) = \bigcup_{i} A_i\) disjunta y \(g\) inyectiva en cada \(A_i\)
- \(f_Y(y) = \sum_i f_X[g_i^{-1}(y)]\cdot\left|\frac{dg_i^{-1}}{dy}(y)\right|\) con \(g^{-1}_i\) inversa de \(g\) en \(A_i\)
- ejemplos
- \(X\hookrightarrow U(0,1)\) \(\Longrightarrow\) \(-\ln X\hookrightarrow\text{Exp}(1)\)
- \(X\hookrightarrow N(0,1)\) \(\Longrightarrow\) \(X^2\hookrightarrow\gamma\left(\frac12,\frac12\right)=\chi^2_1\)
- tipificación
- sea \(X\) tal que \(E(X)=\mu\) y \(V(X)=\sigma^2\)
- \(Z=\frac{X-\mu}{\sigma}\) es adimensional
- \(X\) continua \(\Longrightarrow\) \(F_X(X)\hookrightarrow U(0,1)\)
4.5 momento muestral de orden \(r\)
- absoluto o respecto al origen
- \(\overline{X^r} = \frac{\sum_{i=1}^n X_i^r}n\)
- centrado o respecto a la media
- \(\overline{(X-\bar X)^r} = \frac{\sum_{i=1}^n (X_i-\bar X)^r}n\)
4.5.1 media muestral
- momento absoluto de orden \(1\)
- \(\bar X = \frac{\sum_{i=1}^n X_i}n\)
- \(E(\bar X) = E(X) = \mu\) y \(V(\bar X) = \frac{V(X)}n = \frac{\sigma^2}n\)
- \(X\hookrightarrow N(\mu,\sigma)\) \(\Longrightarrow\) \(\bar X \hookrightarrow N\left(\mu,\frac{\sigma}{\sqrt n}\right)\)
- TCL (teorema central del límite):
- \(\frac{\bar X-\mu}{\frac{\sigma}{\sqrt n}}\) \(\stackrel{\mathcal L}{\longrightarrow}\) \(N(0,1)\)
- equivalentemente, \(n\text{ grande}\) \(\Longrightarrow\) \(\bar X \stackrel{\sim}{\hookrightarrow} N\left(\mu,\frac{\sigma}{\sqrt n}\right)\)
- \(\bar X \stackrel {\text{c.s.}} {\longrightarrow} \mu\) (ley fuerte de los grandes números)
4.5.2 cuasivarianza muestral
- varianza = momento centrado de orden \(2\)
- \(\hat S^2 = \frac{\sum_{i=1}^n (X_i-\bar X)^2}{n-1}\)
- \(E(\hat S^2) = \sigma^2\)
- si \(X\hookrightarrow N(\mu,\sigma)\) entonces
- \(\frac{(n-1)\cdot\hat S^2}{\sigma^2} \hookrightarrow \chi^2_{n-1}\)
- \(\bar X\) y \(\hat S^2\) son independientes
4.5.3 asimetría
- \(A\) = \(\frac{\text{momento centrado de orden 3}}{S^3}\) = \(\frac{\sum(X_i-\bar X)^3}{S^3}\)
- \(A<0\) \(\Rightarrow\) asimetría a la izquierda
- \(A>0\) \(\Rightarrow\) asimetría a la derecha
4.5.4 apuntamiento o curtosis
- \(K\) = \(\frac{\text{momento centrado de orden 4}}{S^4}\) \(-\) \(\text{ídem de la gausiana}\) = \(\frac{\sum(X_i-\bar X)^4}{S^4}-3\)
- \(K<0\) \(\Rightarrow\) platicúrtica o aplanada
- \(K>0\) \(\Rightarrow\) leptocúrtica o apuntada