Parâmetros e Intervalos de Confiança

Inferência estatística e parâmetros

A inferência estatística consiste em fazer afirmações sobre características de uma população a partir de amostras desta. A partir deste ponto, estudaremos diversos métodos de inferência estatística.

Para que seja possível fazer inferência estatística, a probabilidade descreve como a amostra se relaciona com a população. Por exemplo, podemos considerar 10 medições de um objeto com 15 cm de comprimento usando uma régua cujo desvio padrão é 0.5 cm. Neste caso, podemos denotar as 10 observações por X1,,X10. Antes de realizá-las, é razoável supor que sejam independentes e tais que XiN(15,0.25). A distribuição N(15,0.25) indica o comportamento de uma hipotética população de infinitas medições do objeto. Quando dizemos que XiN(15,0.25), indicamos que a i-ésima observação é um membro desta população.

Contudo, ao contrário do exemplo acima, em geral não sabemos descrever perfeitamente a população que temos interesse. Por exemplo, se estamos medindo um objeto, em geral não sabemos qual é o seu comprimento. Assim, se Xi é uma observação do objeto usando uma régua cujo desvio padrão é 0.5 cm, gostaríamos de dizer que Xi segue uma distribuição normal com desvio padrão de 0.5 cm e média igual ao comprimento do objeto. Contudo, como o comprimento do objeto é desconhecido, não é possível fazer diretamente esta afirmação.

Para solucionar este problema, utilizamos parâmetros. Um parâmetro é uma quantidade desconhecida da população. Por exemplo, no parágrafo anterior, o comprimento do objeto medido seria um parâmetro, que poderíamos denotar por μ. Assim, as 10 observações usando a régua, X1,,X10 seriam tais que XiN(μ,0.5).

Intervalos de Confiança

Em algumas situações, desejamos criar um intervalo pequeno tal que seja bastante plausível que o parâmetro esteja dentro dele. A seguir, veremos formalmente como operacionalizar este objetivo. Estaremos interessados em construir um intervalo de confiança para μ.

O primeiro passo consiste em observar que um intervalo é constituído por um limite inferior, l1(X), e um limite superior l2(X). Assim, construir o intervalos consiste em escolher l1(X) e l2(X) baseados na amostra. Para cumprir nossos objetivos, gostaríamos que l2(X)l1(X) fosse pequeno, ou seja, o comprimento do intervalo fosse pequeno e, antes de a amostra ser observada, P(l1(X)<μ<l2(X)) seja grande. Em particular, fixaremos um α pequeno e construíremos o intervalo de tal forma que P(l1(X)<μ<l2(X))=1α. Após obtida a amostra, dizemos que [l1(x),l2(x)] é um intervalo de confiança 1α para μ.

A seguir, veremos alguns exemplos de intervalo de confiança.

Normal com variância conhecida

Considere que X1,,Xn são observações independentes e tais que XiN(μ,σ02), onde σ02 é o desvio padrão conhecido das observações. Gostaríamos de utilizar estas observações para determinar l1(X) e l2(X) de tal forma que

P(l1(X)μl2(X))=1α Para tal, note que X¯N(μ,σ02n) e, portanto, decorre da padronização da distribuição normal que n(X¯μ)σ0=X¯μσ02nN(0,1) Como Z=n(X¯μ)σ0 tem distribuição normal padrão, podemos determinar c1 e c2 de tal forma que P(Z<c1)=0.5α e P(Z>c2)=0.5α. No R, o comando qnorm(α) determina o valor z, tal que P(Z<z)=α. Assim, as constantes c1 e c2 podem ser obtidas no R por meio dos comandos qnorm(0.5α) e qnorm(10.5α). Concluímos que P(qnorm(0.5α)n(X¯μ)σ0qnorm(10.5α))=1αP(σ0nqnorm(0.5α)(X¯μ)σ0nqnorm(10.5α))=1αP(X¯σ0nqnorm(10.5α)μX¯σ0nqnorm(0.5α))=1α Portanto, se tomarmos l1(X)=X¯σ0nqnorm(10.5α) e l2(X)=X¯σ0nqnorm(0.5α), então [l1(X),l2(X)] é um intervalo de confiança 1α para μ.

Aplicação numérica

Considere que X1,,X9 são independentes e XiN(μ,1), Considere que observamos que X¯=8 e desejamos construir um intervalo de confiança 95% para μ. Neste caso, temos que α=0.05, assim podemos obter as quantidades apropriadas da distribuição normal e o intervalo de confiança para μ da seguinte forma.

 n = 9
 media = 8
 alpha = 0.05
 sigma = 1
 print(qnorm(1-0.5*alpha))
## [1] 1.959964
 l_1 = media - sigma/sqrt(n) * qnorm(1-0.5*alpha)
 print(l_1)
## [1] 7.346679
 print(qnorm(0.5*alpha))
## [1] -1.959964
 l_2 = media - sigma/sqrt(n) * qnorm(0.5*alpha)
 print(l_2)
## [1] 8.653321

Isto é, [7.34,8.65] é um intervalo de confiança 95% para μ.

Normal com variância desconhecida

Quando X1,,Xn são independentes e XiN(μ,σ2), sendo tanto μ quanto σ desconhecidos, não é possível construir o intervalo de confiança da mesma forma que na seção anterior.

Neste caso, usamos o fato de que n1(X¯μ)STn1 onde Tn1 designa uma distribuição Tn1 de Student com n1 graus de liberdade. Notando que P(Tn1<qt(α,n1))=α, podemos obter por raciocínio análogo ao desenvolvido na normal com variância conhecida que P(X¯Sn1qt(10.5α,n1)μX¯Sn1qt(0.5α,n1))=1 Assim, se l1(X)=X¯Sn1qt(10.5α,n1) e l2(X)=X¯Sn1qt(0.5α,n1), então [l1(X),l2(X)] é um intervalo de confiança 1α para μ.

Interpretação

Intervalos de confiança são interpretados incorretamente com frequência. Por exemplo, considere que, antes que a amostra seja observada temos P(l1(X)<μ<l2(X))=95%, e com base na amostra calculamos l1(x)=0.5 e l2(x)=0.7. Dizemos que [0.5,0.7] tem confiança 95% para μ. Também é comum que se interprete que, com probabilidade 95%, μ está em [0.5,0.7]. Contudo, está interpretação está errada!

Note que a probabilidade de 95% no exemplo é calculada antes de a amostra ter sido coletada. Em outras palavras, podemos interpretar que, se gerarmos vários bancos de dados independentes da mesma população, então μ pertencerá a cerca de 95% dos intervalos gerados por meio destes bancos de dados. Contudo, após um particular banco de dados ser coletado, ou μ está dentro do intervalo calculado ou não está. A confiança de um particular intervalo gerado não é a probabilidade de que o parâmetro pertença a ele. Para corrobar a interpretação correta, o código abaixo gera 10000 bancos de dados com 100 observações normais de média μ=2 e desvio padrão σ=4 e calcula a proporção de bancos de dados em que μ pertence ao intervalo com confiança de 95% obtido.

mu = 2
sigma = 4
n = 100
num_experimentos = 10000
sucessos = 0
for(ii in 1:num_experimentos)
{
  dados = rnorm(n, mu, sigma)
  l1 = mean(dados) - sigma/sqrt(n) * qnorm(1-0.5*alpha)
  l2 = mean(dados) - sigma/sqrt(n) * qnorm(0.5*alpha)
  sucessos = sucessos + (mu > l1 & mu < l2)
}
sucessos/num_experimentos
## [1] 0.952

Exercícios

  1. Defina e interprete intervalo de confiança em suas próprias palavras.

  2. Um experimentalista experiente realizou 9 medições da largura de um objeto usando um paquímetro. A média destas observações foi de 1.2mm. O desvio padrão do experimentalista com o paquímetro é de 0.2mm. Usando estas informações, construa intervalo com confiança 90%, 95% e 99% para a largura do objeto.

  3. No exemplo da normal com variância conhecida, obtemos que o comprimento do intervalo de confiança é 2σ0qnorm(10.5α)n. Isto ocorre pois qnorm(0.5α)=1qnorm(10.5α). Interprete σ0, α e n e como estas quantidades inluenciam no tamanho do intervalo de confiança.

  4. O caso da normal com variância populacional conhecida é um caso especial do caso da normal com variância populacional desconhecida. Em particular, o intervalo de confiança obtido para a variância populacional desconhecida é válido mesmo quando ela é conhecida. Apesar disso, é indesejável usar este intervalo neste caso. Por quê?

  5. Obtenha a linha de raciocínio completa para obter o intervalo de confiança no caso da normal com variância desconhecida.

Previous
Next