Distribuições normal, chi-quadrado e F
Propriedades de variáveis aleatórias
Uma forma de descrever a incerteza em relação
a uma variável aleatória é por meio de sua
função de densidade.
Se
library(tidyverse)
ggplot(data.frame(x = c(0, 1)), aes(x)) +
stat_function(fun = dunif, colour = "red", n = 100)
Uma propriedade importante de uma função de densidade é que
podemos obter a probabilidade de que
ggplot(data.frame(x = c(0, 1)), aes(x)) +
stat_function(fun = dunif, colour = "red", n = 100) +
stat_function(fun = dunif, xlim = c(0.25, 0.5), geom = "area", alpha = 0.5)
De forma geral, a área debaixo de uma curva é
dada por uma integral.
Neste curso não usaremos esta relação,
mas é útil saber que,
se
Também note que a área entre
A função de densidade descreve toda a incerteza sobre uma variável aleatória. Contudo, pode ser difícil descrever e analisar uma função. Assim, é comum que certos aspectos de uma variável aleatória sejam resumidos em números. A seguir, estudamos algumas destas medidas resumo.
Esperança (média populacional): A esperança de uma varíavel aleatória,
é denotada por e descreve uma medida de centralidade desta. Se imaginarmos que, para cada possível valor, , existe um peso de na posição , então descreve o centro de massa desse sistema. Também, a média amostral e a esperança resumem a mesma característica. Enquanto que a primeira descreve a centralidade para uma variável em um banco de dados, uma variável aleatória já observada, a segunda descreve a centralidade para uma variável aleatória, isto é, descreve a incerteza sobre uma observação antes que esta ocorra. De forma técnica, a esperança de uma variável aleatória contínua é calculada da seguinte forma:Variância (populacional): A variância de uma variável aleatória,
, é denotada por e indica um resumo da variabilidade desta. Assim como a variância amostral descreve a variabilidade de uma variável em um banco de dados (já observado), a variância populacional descreve a variabilidade de uma variável aleatória (ainda não observada). De forma técnica, a variância de uma variável aleatória contínua é calculada da seguinte forma: Semelhantemente ao caso da variância amostral, a variância populacional não é medida na mesma escala da variável aleatória que ela representa. Para obter esta escala, é comum tomar a raiz quadrada da variância populacional. Esta medida é chamada de desvio padrão (populacional). Também é comum designarmos a variância de por . Esta notação é conveniente pois permite designarmos o desvio padrão de por .
A seguir, estudaremos algumas funções de densidade essenciais para este curso.
Distribuição normal
Uma das distribuições mais usadas é a Normal.
Formalmente, dizemos que
ggplot(data.frame(x = c(-3, 3)), aes(x)) +
stat_function(fun = dnorm, colour="red", n = 100)
Note que a densidade tem um formato de sino com
simetria ao redor do
ggplot(data.frame(x = c(-4,4)), aes(x)) +
stat_function(fun = dnorm, colour = "red", n = 100) +
stat_function(fun = function(x) dnorm(x, mean = -1),
colour = "blue", n = 100) +
stat_function(fun = function(x) dnorm(x, mean = 1),
colour = "green", n = 100) +
ylab("densidade")
Semelhantemente, a figura abaixo apresenta
nas curvas verde, vermelha e azul, respectivamente,
as distribuições
ggplot(data.frame(x = c(-6,6)), aes(x)) +
stat_function(fun = dnorm, colour = "red", n = 100) +
stat_function(fun = function(x) dnorm(x, sd = 2),
colour = "blue", n = 100) +
stat_function(fun = function(x) dnorm(x, sd = 0.5),
colour = "green", n = 100) +
ylab("densidade")
Uma relação útil é que aproximadamente 95% da
densidade de uma
Se
pnorm(4, mean = 2, sd = 3)
## [1] 0.7475075
Também a probabilidade de que
uma
pnorm(4, mean = 2, sd = 3) - pnorm(1, mean = 2, sd = 3)
## [1] 0.3780661
É possível transformar qualquer distribuição normal
em uma normal padrão por meio de transformações lineares.
Especificamente, se
Teorema Central do Limite
O Teorema Central do Limite é
um dos resultados mais importantes em Estatística e
também uma das razões pelas quais
a distribuição é tão importante neste curso.
De forma suscinta, ele dita que, se
medias = rep(NA, 1000)
for(ii in 1:1000)
{
medias[ii] = mean(runif(100, 0, 1))
}
ggplot(aes(x = medias), data = data.frame(medias)) +
geom_histogram(aes(y = ..density..)) +
geom_density(colour="red")
Distribuição chi-quadrado
Se
tem distribuição chi-quadrado com graus de liberdade, escrevemos . Neste caso, e .Se
, então .Se
são variáveis independentes e cada qual tem distribuição , então .Se
são variáveis independentes e tais que , então , ou seja, .No R, podemos obter a densidade e
para a chi-quadrado por meio dos comandos dchisq e pchisq.
Distribui??o T de Student
Designamos a distribui??o
de Student com graus de liberdade por .Se
e s?o vari?veis independentes, ent?o .No R, podemos obter a densidade e
para a T de Student por meio dos comandos dt e pt.
Distribuição F de Snedcor
Se
tem distribuição com parâmetros e , então escrevemos . , e e são independentes, então
- No R, podemos obter
a densidade e
para a distribuição F por meio dos comandos df e pf.
Exercícios
Se
tem densidade entre uniforme entre e e , calcule .Se
tem densidade uniforme entre e , qual é o valor da densidade de neste intervalo?Calcule a esperança e a variância de uma variável aleatória com distribuição uniforme entre
e .Ache um intervalo tal que uma
e steja dentro deste com probabilidade aproximadamente .Se
, utilize o R para calcular .Se
, indique uma transformação linear de que tem distribuição normal padrão.Se
são variáveis independentes de mesma distribuição e tais que e , indique valores para e tal que .Um pesquisador utilizou uma mesma medida resumo em diversas variáveis de seu banco de dados. Para visualizar estas medidas, construiu um histograma delas. Este histograma se encontra abaixo. Com base no histograma, argumente se a medida resumo poderia ou não ser a média amostral.