Intervalos de Confiança I

Em algumas situações, desejamos criar um intervalo pequeno tal que seja bastante plausível que o parâmetro esteja dentro dele. A seguir, veremos formalmente como operacionalizar este objetivo. Estaremos interessados em construir um intervalo de confiança para μ.

O primeiro passo consiste em observar que um intervalo é constituído por um limite inferior, l1(X), e um limite superior l2(X). Assim, construir o intervalos consiste em escolher l1(X) e l2(X) baseados na amostra. Para cumprir nossos objetivos, gostaríamos que l2(X)l1(X) fosse pequeno, ou seja, o comprimento do intervalo fosse pequeno e, antes de a amostra ser observada, P(l1(X)<μ<l2(X)) seja grande. Em particular, fixaremos um α pequeno e construíremos o intervalo de tal forma que P(l1(X)<μ<l2(X))=1α. Após obtida a amostra, dizemos que [l1(x),l2(x)] é um intervalo de confiança 1α para μ.

A seguir, veremos alguns exemplos de intervalo de confiança.

Normal com variância conhecida

Considere que X1,,Xn são observações independentes e tais que XiN(μ,σ02), onde σ02 é o desvio padrão conhecido das observações. Gostaríamos de utilizar estas observações para determinar l1(X) e l2(X) de tal forma que

P(l1(X)μl2(X))=1α Para tal, note que X¯N(μ,σ02n) e, portanto, decorre da padronização da distribuição normal que n(X¯μ)σ0=X¯μσ02nN(0,1) Como Z=n(X¯μ)σ0 tem distribuição normal padrão, podemos determinar c1 e c2 de tal forma que P(Z<c1)=0.5α e P(Z>c2)=0.5α. Neste caso, temos que:

P(c1<X¯μσ02n<c2)=1α

No R, o comando qnorm(α) determina o valor z, tal que P(Z<z)=α. Assim, as constantes c1 e c2 podem ser obtidas no R por meio do comando qnorm: P(qnorm(0.5α)n(X¯μ)σ0qnorm(10.5α))=1αP(σ0nqnorm(0.5α)(X¯μ)σ0nqnorm(10.5α))=1αP(X¯σ0nqnorm(10.5α)μX¯σ0nqnorm(0.5α))=1α Portanto, se tomarmos l1(X)=X¯σ0nqnorm(10.5α) e l2(X)=X¯σ0nqnorm(0.5α), então [l1(X),l2(X)] é um intervalo de confiança 1α para μ.

Aplicação numérica

Considere que X1,,X9 são independentes e XiN(μ,1), Considere que observamos que X¯=8 e desejamos construir um intervalo de confiança 95% para μ. Neste caso, temos que α=0.05, assim podemos obter as quantidades apropriadas da distribuição normal e o intervalo de confiança para μ da seguinte forma.

 n = 9
 media = 8
 alpha = 0.05
 sigma = 1
 print(qnorm(1-0.5*alpha))
## [1] 1.959964
 l_1 = media - sigma/sqrt(n) * qnorm(1-0.5*alpha)
 l_2 = media - sigma/sqrt(n) * qnorm(0.5*alpha)
 c(l_1, l_2)
## [1] 7.346679 8.653321

Isto é, [7.34,8.65] é um intervalo de confiança 95% para μ.

Interpretação

Intervalos de confiança são interpretados incorretamente com frequência. Por exemplo, considere que, antes que a amostra seja observada temos P(l1(X)<μ<l2(X))=95%, e com base na amostra calculamos l1(x)=0.5 e l2(x)=0.7. Dizemos que [0.5,0.7] tem confiança 95% para μ. Também é comum que se interprete que, com probabilidade 95%, μ está em [0.5,0.7]. Contudo, está interpretação está errada!

Note que a probabilidade de 95% no exemplo é calculada antes de a amostra ter sido coletada. Em outras palavras, podemos interpretar que, se gerarmos vários bancos de dados independentes da mesma população, então μ pertencerá a cerca de 95% dos intervalos gerados por meio destes bancos de dados. Contudo, após um particular banco de dados ser coletado, ou μ está dentro do intervalo calculado ou não está. A confiança de um particular intervalo gerado não é a probabilidade de que o parâmetro pertença a ele.

Estudo de simulação

Podemos utilizar um estudo de simulação para afiar nossa intuição sobre esta interpretação. A vantagem de um estudo de simulação é que ele é uma dos raros casos em que sabemos quais são os parâmetros populacionais que geram a amostra. Assim, podemos verificar empiricamente se nossos métodos estão funcionando adequadamente. Neste exemplo, geraremos uma amostra em que μ=10, σ=1 e fixaremos α=0.05.

mu = 10
sigma = 1
n = 36
alpha = 0.05
x = rnorm(n, mu, sigma)

Para gerar um intervalo de confiança, podemos usar o código abaixo:

ic = function(x, alpha)
{
  l = mean(x) - qnorm(1-alpha/2)*sigma/sqrt(n)
  u = mean(x) - qnorm(alpha/2)*sigma/sqrt(n)
  c(l, u)
}

Suscintamente, a função ic nos retorna dois valores: o limite inferior e o limite superior do intervalo de confiança. Usando estes esclarecimentos, a função ic nos retorna exatamente o intervalo de confiança que vimos em aula. Para esta simulação, temos o intervalo:

library(tidyverse)
ic_obs = ic(x, alpha) 
ic_obs %>% round(2)
## [1]  9.92 10.58

Como neste estudo de simulação sabemos que μ=10, podemos verificar empiricamente se, para esta amostra, μ pertence ao intervalo de confiança. Isto é, se μ é inferior ao limite superior do intervalo e superior ao limite inferior do intervalo.

(mu <= ic_obs[2]) && (mu >= ic_obs[1])
## [1] TRUE

É por isso que neste curso que dizemos que, após a amostra ser observada, é falso que a probabilidade de o intervalo obtido conter o parâmetro é 1α. De fato, após a amostra ser observada, podemos a princípio verificar se μ está ou não no intervalo, então a probabilidade é 0 ou 1. A única dificuldade prática é que, fora de um estudo de simulação, raramente sabemos o valor de μ. Então não é possível realizar diretamente essa verificação.

Então o que significa termos confiança de 1α sobre o intervalo? Como vimos, esta garantia deve ser interpretada realizando um experimento mental em que coletamos os mesmos dados inúmeras vezes e independentemente. Se para conjunto de dados coletado construirmos um intervalo de confiança, 1α destes intervalos vão conter o valor de μ.

Como estamos realizando um estudo de simulação, podemos concretizar este experimento mental:

B = 10^5
sucesso = rep(NA, B)
for(ii in 1:B)
{
  x = rnorm(n, mu, sigma)
  ic_obs = ic(x , alpha)
  sucesso[ii] = (mu <= ic_obs[2]) && (mu >= ic_obs[1])
}
mean(sucesso) %>% round(2)
## [1] 0.95

Neste código, coletamos 100.000 vezes uma amostra de 36 observações e, para cada amostra obtida, calculamos o intervalo de confiança. Ao final do código, observamos que aproximadamente 95% dos intervalos contém o valor de μ. Isto é, a confiança de um IC é um critério de replicabilidade e não uma garantia sobre o intervalo construído para uma particular amostra observada.

Exercícios

  1. Defina e interprete intervalo de confiança em suas próprias palavras.

  2. Um experimentalista experiente realizou 9 medições da largura de um objeto usando um paquímetro. A média destas observações foi de 1.2mm. O desvio padrão do experimentalista com o paquímetro é de 0.2mm. Usando estas informações, construa intervalo com confiança 90%, 95% e 99% para a largura do objeto.

  3. No exemplo da normal com variância conhecida, obtemos que o comprimento do intervalo de confiança é 2σ0qnorm(10.5α)n. Isto ocorre pois qnorm(0.5α)=1qnorm(10.5α). Interprete σ0, α e n e como estas quantidades inluenciam no tamanho do intervalo de confiança.

  4. O caso da normal com variância populacional conhecida é um caso especial do caso da normal com variância populacional desconhecida. Em particular, o intervalo de confiança obtido para a variância populacional desconhecida é válido mesmo quando ela é conhecida. Apesar disso, é indesejável usar este intervalo neste caso. Por quê?

  5. Obtenha a linha de raciocínio completa para obter o intervalo de confiança no caso da normal com variância desconhecida.