Intervalos de Confiança
Inferência estatística e parâmetros
A inferência estatística consiste em fazer afirmações sobre características de uma população a partir de amostras desta. Estudaremos diversos métodos de inferência estatística.
Para que seja possível fazer inferência estatística, a probabilidade descreve como a amostra se relaciona com a população. Por exemplo, considere uma população de processos similares em que a frequência de procedência da ação é uma quantidade desconhecida,
Existem duas abordagens distintas para a Inferência Estatística. Elas variam de acordo com a interpretação de probabilidade usada. Segundo a interpretação frequentista,
Intervalos de Confiança
Em algumas situações, desejamos criar um intervalo pequeno tal que seja bastante plausível que o parâmetro esteja dentro dele. Por exemplo, considere que estamos estudando a frequência da procedência da ação em uma população de processos,
O primeiro passo consiste em observar que um intervalo é constituído por um limite inferior,
Atenção: A probabilidade de
Amostra Bernoulli
Considere que
onde
Frequência de assunto processual
O código abaixo apresenta um intervalo de confiança 95% para a frequência de processos com o assunto “Práticas Abusivas”:
library(tidyverse)
library(readxl)
data = read_xlsx("./dados_civeis.xlsx") %>%
select(-processo_por_dependencia)
X = data %>%
mutate(assunto_escolhido = assunto_info == "Práticas Abusivas") %>%
select(assunto_escolhido) %>%
unlist()
n = length(X)
media = mean(X)
margem = qnorm(0.975)/(2*sqrt(n))
intervalo = c(mean(X)-margem, mean(X)+margem)
print("Intervalo de Confiança:")
## [1] "Intervalo de Confiança:"
print(round(intervalo, 3))
## [1] 0.103 0.126
A frequência amostral deste assunto é 0.115 e o tamanho da amostra é 6888. Aplicando a expressão apresentada acima, obtemos que a margem de erro é 0.012 e, assim, os limites inferior e superior do intervalo de confiança são 0.103 e 0.126. Note que é incorreto interpretar que há probabilidade de 95% de a frequência populacional estar entre 0.103 e 0.126. Podemos interpretar que, se gerarmos vários bancos de dados independentes da mesma população, então
Taxa de reforma em câmaras criminais
Intervalos de confiança são comumente utilizados para comparar se grupos distintos apresentam o mesmo comportamento em relação a uma determinada variável. Para ilustrar este conceito, considere a taxa de reforma de sentenças criminais em recursos ajuizados pelo réu. O gráfico a seguir apresenta um intervalo de confiança para a taxa de reforma cada Câmara Criminal em São Paulo:
alpha = 0.05
camaras = read_csv('./camaras.csv')
aux = camaras %>%
filter(polo_mp == "Passivo") %>%
mutate(reforma = decisao %in% c("Provido", "Parcialmente")) %>%
group_by(camara) %>%
summarise(taxa_reforma = mean(reforma), n_dados = n()) %>%
ungroup() %>%
filter(n_dados >= 100) %>%
mutate(
se = sqrt(taxa_reforma * (1 - taxa_reforma) / n_dados),
lower = taxa_reforma - qnorm(1-0.5*alpha) * se,
upper = taxa_reforma + qnorm(1-0.5*alpha) * se
) %>%
mutate(camara = gsub("de Direito Criminal", "", camara))
aux %>%
ggplot(aes(x = camara, y = taxa_reforma)) +
geom_point(size = 3, color = "blue") + # Mean points
geom_errorbar(aes(ymin = lower, ymax = upper), width = 0.2, color = "red") +
theme_minimal() +
theme(axis.text.x = element_text(angle = 30, hjust = 1)) +
ylab("Taxa de Reforma") +
xlab("Câmara de Direito Penal")

Os pontos azuis indicam a taxa de reforma empírica que foi observada para cada Câmara. Existem duas possíveis explicações quando uma taxa de reforma é maior do que outra: ou uma Câmara sistematicamente reforma sentenças mais frequentemente do que outra, ou este padrão é observado na amostra por mera flutuação aleatória dos dados. Podemos utilizar os intervalos de confiança para diferenciar entre estes casos.
Por um lado, podemos comparar as taxas de reforma da
Por outro lado, podemos comparar as taxas de reforma da
Amostra Normal
Considere que
onde
O gráfico a seguir apresenta intervalos de confiança para o valor da causa para os
library(readxl)
data_civeis = read_xlsx("./dados_civeis.xlsx") %>%
select(-processo_por_dependencia)
assuntos_freq = names(sort(table(data_civeis$assunto_info), decreasing = TRUE)[1:10])
aux = data_civeis %>%
filter(valor_numerico < 10^5) %>%
mutate(
assunto_novo = ifelse(assunto_info %in% assuntos_freq,
assunto_info,
"outros")
) %>%
group_by(assunto_novo) %>%
summarise(
media_vcausa = mean(valor_numerico),
var_vcausa = var(valor_numerico),
n_dados = n()
) %>%
ungroup() %>%
mutate(
se = sqrt(var_vcausa / n_dados),
lower = media_vcausa - qnorm(1-0.5*alpha) * se,
upper = media_vcausa + qnorm(1-0.5*alpha) * se
)
aux %>%
filter(assunto_novo != "outros") %>%
ggplot(aes(x = assunto_novo, y = media_vcausa)) +
geom_point(size = 3, color = "blue") + # Mean points
geom_errorbar(aes(ymin = lower, ymax = upper), width = 0.2, color = "red") +
theme_minimal() +
theme(axis.text.x = element_text(angle = 30, hjust = 1)) +
ylab("Valor da Causa") +
xlab("Assunto")

Estes intervalos podem ser interpretados similarmente àqueles obtidos para taxas de reforma em Câmaras Criminais. Quais conclusões você consegue tirar deste gráfico?
A Interpretação de Intervalos de Confiança
Para interpretar corretamente intervalos de confiança, um experimento mental pode ser útil. Considere cada um de
alpha = 0.05
mu = 20000
sigma = 150
n = 100
num_experimentos = 10000
sucessos = 0
for(ii in 1:num_experimentos)
{
dados = rnorm(n, mu, sigma)
l1 = mean(dados) - sigma/sqrt(n) * qnorm(1-0.5*alpha)
l2 = mean(dados) - sigma/sqrt(n) * qnorm(0.5*alpha)
sucessos = sucessos + (mu > l1 & mu < l2)
}
sucessos/num_experimentos
## [1] 0.9472
Exercícios
Defina e interprete intervalo de confiança em suas próprias palavras.
Um experimentalista experiente realizou
medições da largura de um objeto usando um paquímetro. A média destas observações foi de . O desvio padrão do experimentalista com o paquímetro é de . Usando estas informações, construa intervalo com confiança 90%, 95% e 99% para a largura do objeto.No exemplo da normal com variância conhecida, obtemos que o comprimento do intervalo de confiança é
. Isto ocorre pois . Interprete , e e como estas quantidades inluenciam no tamanho do intervalo de confiança.O caso da normal com variância populacional conhecida é um caso especial do caso da normal com variância populacional desconhecida. Em particular, o intervalo de confiança obtido para a variância populacional desconhecida é válido mesmo quando ela é conhecida. Apesar disso, é indesejável usar este intervalo neste caso. Por quê?
Obtenha a linha de raciocínio completa para obter o intervalo de confiança no caso da normal com variância desconhecida.