Notas de Aula | Rafael B. Stern

Construção de bancos de dados

Mon, 01 Jan 0001 00:00:00 +0000

Software para análise de dados.

Neste curso, usarei o software R para realizar a análise de dados.
O R pode ser baixado por exemplo, neste site. Atenção: No Windows, para instalar o R é necessário rodar o instalador em modo administrador.
O software Rstudio torna o uso do R ainda mais simples. O Rstudio pode ser baixado gratuitamente neste site. Atenção: Para instalar o RStudio, é necessário ter instalado antes o R.
Mais informação sobre a instalação destes softwares pode ser obtida neste site.
Dúvidas sobre o R poderão ser tiradas em classe. Contudo, os primeiros passos para usar o R podem ser encontrados aqui e aqui. Referências mais avançadas estão aqui e aqui.

Elementos da análise estatística

A população é um conjunto de elementos sobre os quais temos interesse. Por exemplo, se considerarmos as eleições presidencias brasileiras, a população é o conjunto de brasileiros com título de eleitor.
Para aprendermos sobre a população, é comum que observemos as características de um subconjunto de seus elementos. Este subconjunto é chamado de amostra. Cada elemento da amostra é chamado de unidade amostral. No exemplo da eleição, podemos entrevistar indivíduos a respeito da sua intenção de voto. Neste caso, a amostra é o conjunto de indivíduos entrevistados e cada indivíduo entrevistado é uma unidade amostral.
Em estudos, observamos características de cada unidade amostral. Chamamos estas características de variáveis. No exemplo da eleição, possíveis características seriam a intenção de voto e o estado de domicílio de cada eleitor.
Um banco de dados é uma estrutura em que guardamos as observações das características de cada unidade amostral.
Um banco de dados Tidy (arrumado) (Wickham 2014) é um banco de dados em formato de matriz em que cada linha corresponde a uma unidade amostral, cada coluna corresponde a uma variável, e a posição na intersecção entre a linha “i” e a coluna “j” corresponde à observação da variável “j” para a unidade amostral “i”. Como regra geral, anote todas as variáveis que foram observadas para cada unidade amostral. Em geral, é mais fácil remover uma variável inútil do banco de dados do que adicionar uma nova variável que foi esquecida.
Um dicionário é um conjunto de verbetes e descrições que indicam o significado de cada variável em um banco de dados e os possíveis valores que esta variável pode assumir. Como o experimentalista que coleta os dados e os analista de dados podem ser pessoas diferentes, o dicionário é uma ferramenta essencial para facilitar a comunicação entre eles.

Atenção: Para que um banco de dados seja útil, aquele que o compila deve especificar de antemão os possíveis valores que cada variável pode assumir e se ater a estes valores. Por exemplo, digamos que uma variável seja o “número de bactérias observados na urina”. Observações como “2”, “4” e “7” são números e estão dentro das especificações. Por outro lado, seria prejudicial anotar no banco de dados “5, mas também observei uma estrutura que pode ou não ser uma bactéria adicional”. A inserção de texto em uma variável que deveria ser um número quebra padrões e torna muito mais difícil a análise do banco de dados.

Exemplo de elementos da análise estatística

Em 1936, Edgar Anderson coletou informações sobre flores pertencentes a três espécies do gênero Iris (Iris setosa, Iris virginica e Iris versicolor). Os dados estão disponíveis em (Anderson 1936). Neste caso, consideramos como população o conjunto de todas as flores de cada uma das três espécies. A amostra é o conjunto de flores que foram observadas e registradas por Anderson. As variáveis anotadas foram o tamanho em centímetro das sépalas e das pétalas das flores. Observe, a seguir, uma representação Tidy das primeiras 10 unidades amostrais no banco de dados obtido por Anderson:

require(tidyverse)
data(iris)
iris = as_tibble(iris)
print(iris)

## # A tibble: 150 × 5
##    Sepal.Length Sepal.Width Petal.Length Petal.Width Species
##           <dbl>       <dbl>        <dbl>       <dbl> <fct>  
##  1          5.1         3.5          1.4         0.2 setosa 
##  2          4.9         3            1.4         0.2 setosa 
##  3          4.7         3.2          1.3         0.2 setosa 
##  4          4.6         3.1          1.5         0.2 setosa 
##  5          5           3.6          1.4         0.2 setosa 
##  6          5.4         3.9          1.7         0.4 setosa 
##  7          4.6         3.4          1.4         0.3 setosa 
##  8          5           3.4          1.5         0.2 setosa 
##  9          4.4         2.9          1.4         0.2 setosa 
## 10          4.9         3.1          1.5         0.1 setosa 
## # … with 140 more rows

Para complementar este banco dados, podemos escrever um dicionário como:

Sepal.length: Comprimento em centímetros da sépala.
Sepal.width: Largura em centímetro da sépala.
Petal.length: Comprimento em centímetros da pétala.
Sepal.width: Largura em centímetro da pétala.
Species: Espécie da unidade amostral. Pode assumir os valores “setosa”, “versicolor” ou “virginica”.

Tipos de variáveis

É comum dividirmos as variáveis em 4 categorias. Estas categorias são úteis para entendermos que tipos de análise podemos fazer em cada variável. Para construir estas categorias, primeiramente dividimos as variáveis em qualitativas ou quantitativas. Enquanto variáveis quantitativas são números, variáveis qualitativas não o são. Por exemplo, peso é uma variável quantitativa e fruta favorita é uma variável qualitativa.

Por sua vez, as variáveis qualitativas e quantitativas podem ser divididas em categorias mais finas. Variáveis qualitativas podem ser nominais ou ordinais.

Variáveis nominais: Assumem como valores nomes próprios, não havendo estrutura entre os possíveis valores assumidos por elas. Por exemplo, fruta favorita entre “manga”, “goiaba” e “pera” é uma variável nominal.
Variáveis ordinais: Existe uma ordem entre os possíveis valores assumidos por estas variáveis. Por exemplo, em uma pesquisa de satisfação, clientes podem escolher entre as categorias: “insatisfeito”, “satisfeito” e “muito satisfeito”. Existe uma ordem entre estes valores, dado que “insatisfeito” é menos satisfeito que “satisfeito” que, por sua vez, é menos satisfeito que “muito satisfeito”.

Variáveis quantitativas podem ser dividas em discretas ou contínuas:

Variáveis contínuas: Assumem como valores números tal que, entre dois possíveis valores, sempre é possível observar um outro. Um típico exemplo é o “peso”. Por exemplo, é possível observar um peso de 1kg e de 2kg. Entre esses dois valores, há o valor de 1.5kg. Por sua vez, entre 1kg e 1.5kg há 1.25kg, e assim por diante.
Variáveis discretas: São variáveis que não são contínuas. Por exemplo, o número de bactérias em uma substância pode assumir os valores “0”, “1”, “2”, etc. Não há nenhum possível valor entre “0” e “1” ou entre “1” e “2”. Assim, esta variável é discreta.

Estas categorias nem sempre são óbvias e podem depender do uso que é dado para cada variável. Por exemplo, ainda que seja comum considerarmos peso como uma variável contínua, o instrumento de medição pode observar apenas um número finito de algarismos. Assim, pode fazer sentido considerar o peso como variável discreta. Mesmo assim, é mais comum considerarmos o peso como variável contínua, pois esta abstração é útil.

Exercícios

No banco de dados de flores de Anderson, classifique o tipo de cada uma das variáveis.
Dentre uma população de alunos, observamos as seguintes variáveis: intenção de voto nas eleições de 2018, altura, peso, número de matrícula, filme favorito, endereço de residência, coordenadas GPS do endereço de residência, média final nas matéria do semestre passado, data de nascimento e grau de satisfação com cursos realizados. Classifique cada uma das variáveis de acordo com seu tipo.
O banco de dados a seguir está “Tidy”? Por quê?

db = tibble(pais = c("Brasil", "Brasil", "Canada", "Canada"),
            tipo = c("populacao", "territorio", "populacao", "territorio"),
            valor = c(207.7, 8.514, 36.2, 9.984))
print(db)

## # A tibble: 4 × 3
##   pais   tipo        valor
##   <chr>  <chr>       <dbl>
## 1 Brasil populacao  208.  
## 2 Brasil territorio   8.51
## 3 Canada populacao   36.2 
## 4 Canada territorio   9.98

Referências

Anderson, Edgar. 1936. “The Species Problem in Iris.” Annals of the Missouri Botanical Garden 23 (3): 457–509.

Wickham, Hadley. 2014. “Tidy Data.” Journal of Statistical Software 59 (10): 1–23.

Medidas Resumo

Mon, 01 Jan 0001 00:00:00 +0000

Medidas resumo

Os resultados de um experimento geralmente apresentam variabilidade. Esta variabilidade pode acontecer, por exemplo, por falta de controle nas condições experimentais ou por erros de medição. Assim, se obtivermos um número elevado de observações, pode ser difícil obter informações relevantes meramente olhando para o banco de dados. Por exemplo, os números a seguir são os comprimento das pétalas nas 150 observações do banco de dados Iris (Anderson 1936). O que você consegue observar?

 data(iris)
 print(iris$Petal.Length)

##   [1] 1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 1.5 1.6 1.4 1.1 1.2 1.5 1.3 1.4
##  [19] 1.7 1.5 1.7 1.5 1.0 1.7 1.9 1.6 1.6 1.5 1.4 1.6 1.6 1.5 1.5 1.4 1.5 1.2
##  [37] 1.3 1.4 1.3 1.5 1.3 1.3 1.3 1.6 1.9 1.4 1.6 1.4 1.5 1.4 4.7 4.5 4.9 4.0
##  [55] 4.6 4.5 4.7 3.3 4.6 3.9 3.5 4.2 4.0 4.7 3.6 4.4 4.5 4.1 4.5 3.9 4.8 4.0
##  [73] 4.9 4.7 4.3 4.4 4.8 5.0 4.5 3.5 3.8 3.7 3.9 5.1 4.5 4.5 4.7 4.4 4.1 4.0
##  [91] 4.4 4.6 4.0 3.3 4.2 4.2 4.2 4.3 3.0 4.1 6.0 5.1 5.9 5.6 5.8 6.6 4.5 6.3
## [109] 5.8 6.1 5.1 5.3 5.5 5.0 5.1 5.3 5.5 6.7 6.9 5.0 5.7 4.9 6.7 4.9 5.7 6.0
## [127] 4.8 4.9 5.6 5.8 6.1 6.4 5.6 5.1 5.6 6.1 5.6 5.5 4.8 5.4 5.6 5.1 5.1 5.9
## [145] 5.7 5.2 5.0 5.2 5.4 5.1

Ao invés da inspeção direta de uma variável, podemos resumí-la em números que expressam algumas de suas características. A seguir, estudaremos algumas destas medidas de resumo.

Medidas de centralidade

Uma medida de centralidade descreve um número ao redor dos quais as observações se concentram. Ela expressa um valor ``típico’’ nas observações para uma determinada variável. Existem várias possíveis medidas de centralidade, algumas das quais veremos a seguir.

Média

A média de uma variável, comumente designada por $\bar{X}$, é obtida somando todas as observações desta e dividindo o resultado pelo número total de observações. Este procedimento é sintetizado da seguinte forma:

\[ \bar{X} = \frac{\sum_{i=1}^{n}{X_i}}{n} = \frac{X_1 + \ldots + X_n}{n} \] Nesta expressão, o termo $\sum_{i=1}^{n}{X_i}$ é traduzido como “em $X_i$ substituta $i$ por todos os números entre $1$ e $n$ e some os valores encontrados”. Em particular, o símbolo “$\sum$” é chamado de somatória.

No R, a média pode ser calculada usando o comando mean(). Por exemplo, a média do comprimento de pétalas para a amostra de flores do gênero iris pode ser calculada da seguinte forma:

mean(iris$Petal.Length)

## [1] 3.758

Mediana

A mediana de uma variável é um número tal que há o mesmo número de observações maiores e menores do que ele. No R, a mediana é calculada pela função median().

median(iris$Petal.Length)

## [1] 4.35

A mediana é menos afetada por valores extremos do que a média. Por isso, é comum dizer que a mediana é uma medida robusta. Este conceito é ilustrado a seguir.

 dados = c(0, 0.1, 0.1, 0.2, 0.25, 0.5, 0.7, 0.9, 1.1, 10000)
 c(mean(dados), median(dados))

## [1] 1000.385    0.375

Observamos que, dos 10 dados, 9 estão concentrados próximo a 0 e 1 tem o valor 10.000. Enquanto que a média de aproximadamente 1.000 é afetada pelo valor extremo, a mediana de 0.375 não o é. É comum chamarmos observações atípicas, como o valor 10.000 neste caso, de outliers.

Observação: Note que como no exemplo acima existe um número par de dados, a mediana foi tomada como a média entre 0.25 e 0.5, as observações 5 e 6 em ordem crescente.

Moda

A moda é o valor mais frequente observado nos dados. Como em variáveis contínuas tipicamente não observamos valores repetidos, a moda não é usado nestes casos. Por outro lado, dentre média, mediana e moda, a moda é a única medida resumo que pode ser aplicada a variáveis nominais. Considere que observamos os dados: azul, azul, azul, vermelho, verde, verde. Observamos as cores azul, vermelho e verde respectivamente, 3, 1 e 2 vezes. Portanto, a cor azul é a mais frequente, sendo a moda desta variável.

Medidas de variabilidade

Medidas de variabilidade indicam o quanto as observações variam ao redor da medida de centralidade. Em outras palavras, indicam o quão longe podemos esperar que uma observação esteja do valor típico para aquela variável. Existem diversas medidas de variabilidade, algumas das quais apresentamos a seguir.

Amplitude

A amplitude é a diferença entre o maior e o menor valor observado. Esta medida de variabilidade é fortemente influenciada por valores extremos nas observações, como outliers. O exemplo a seguir calcula a amplitude do comprimento das sépalas no banco de dados iris.

 max(iris$Sepal.Length) - min(iris$Sepal.Length)

## [1] 3.6

Variância e desvio padrão

Intuitivamente, podemos imaginar uma medida de variabilidade que calcule a média do quanto os dados desviam do centro. Se tomarmos como centro das observações a média, então podemos pensar no desvio da i-ésima observação como $D_i = X_i-\bar{X}$. Contudo, esta medida de desvio apresenta um problema. Por exemplo, considere os dados: 0, 10, 20. A média das observações é 10 e os desvios são: -10, 0, 10. Assim, se tomarmos a média dos desvios obteremos o valor 0. O problema é que, ainda que o desvio de 0 e 20 sejam -10 e 10, estas observações estão igualmente distantes da média. Para corrigir este problema, podemos tomar a média dos desvios ao quadrado, isto é, a média de $D_i^2 = (X_i-\bar{X})^2$. No exemplo apresentado, os desvios ao quadrado são 100, 0 e 100 e a média destes valores é $\frac{200}{3}$. Neste caso, as observações -10 e 10 contribuem igualmente para a variabilidade dos dados em relação à média. Formalmente a variância, $S^2$, é definida como:

\[ S^2 = \frac{\sum_{i=1}^{n}{(X_i-\bar{X})^2}}{n} \]

Note que a variância não está na mesma escala das observações. Quando os desvios são elevados ao quadrado, a unidade de medida é alterada para o quadrado da unidade de medida original. Assim, para obter uma medida mais interpretável de varibilidade, é comum tomar a raiz quadrada da variância. Esta medida é chamada de desvio padrão, $S$, e é definida como:

\[ S = \sqrt{S^2} \]

A variância e o desvio padrão para o comprimento das sépalas é calculado no R da seguinte forma:

c(var(iris$Sepal.Length), sd(iris$Sepal.Length))

## [1] 0.6856935 0.8280661

Para muitos tipos de dado, é comum que as observações se concentrem num intervalo de 2 desvios padrão para cada lado da média. Isto é, é comum que a maior parte das observações esteja no intervalo $[\bar{X}-2S,\bar{X}+2S]$. Neste sentido, este intervalo indica a faixa de observações tipicamente observadas. A formalização deste raciocínio será estudada em aulas futuras. No exemplo do comprimento das sépalas, obtemos o intervalo $[2.7,6.0]$.

Intervalo interquartílico

O percentil de ordem $p$ de uma variável é um número tal que a quantidade de observações menores e maiores do que este número segue a proporção $p$ e $1-p$. Por exemplo, a mediana é o percentil de ordem $0.5$. Dada a sua importância, os percentis de ordem 0.25, 0.5 e 0.75 também são chamados de $1^o$, $2^o$ e $3^o$ quartis. No R, é possível obter o percentil de ordem $p$ usando o comando quantile(dados, p). Este comando para os percentis de ordem 0.25, 0.5 e 0.75 para o comprimento de sépalas é ilustrado a seguir:

quantile(iris$Sepal.Length, c(0.25, 0.5, 0.75))

## 25% 50% 75% 
## 5.1 5.8 6.4

Por construção, aproximadamente metade dos dados estão entre o $1^o$ e o $3^o$ quartil, isto é, este também pode ser interpretado como um intervalo de valores tipicamente assumidos pelas observações. Por exemplo, no caso do comprimento das sépalas, obtemos o intervalo $[5.1, 6.4]$.

Alternativamente, podemos construir um intervalo mais conservador exigindo que, por exemplo, $95%$ das observações estejam dentro dele. Este intervalo é obtido tomando os valores entre o percentil $0.025$ e $0.975$. No caso do comprimento das sépalas, obtemos o intervalo:

quantile(iris$Sepal.Length, c(0.025, 0.975))

##   2.5%  97.5% 
## 4.4725 7.7000

O tamanho da região em que as observações tipicamente caem é uma medida alternativa de variabilidade. Especificamente, a subtraindo o $1^o$ quartil do $3^o$ quartil obtém-se a medida chamada de intervalo interquartílico. No caso do comprimento das sépalas, o intervalo interquartílico é $6.4-5.1=1.3$.

Resumo de observações no R

No R, é possível obter diversas medidas resumo usando a função summary(). Por exemplo, no caso do comprimento de sépalas, obtemos:

summary(iris$Sepal.Length)

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   4.300   5.100   5.800   5.843   6.400   7.900

Exercícios

No banco de dados iris, calcule medidas resumo para o comprimento e largura das pétalas e para a largura das sépalas.
Na definição da variância, usamos a média dos desvios quadrado. Esta é uma possível maneira de fazer com que desvios negativos e positivos fossem tratados como iguais. Você consegue pensar em outra forma de eliminar o sinal do desvio que não elevando-o ao quadrado?
Para cada espécie no banco de dados iris, obtenha uma medida de centralidade e uma de variabilidade para o comprimento das sépalas.
O comprimento das sépalas da espécie Iris setosa é consideravelmente menor que o da espécie Iris versicolor que, por sua vez, é menor do que o da espécie Iris virginica. Considere que em um banco de dados temos $150$ flores da espécie Iris setosa e, em outro, temos 50 exemplares de cada espécie. Qual banco de dados terá maior variabilidade em relação ao comprimento das sépalas?

Referências

Anderson, Edgar. 1936. “The Species Problem in Iris.” Annals of the Missouri Botanical Garden 23 (3): 457–509.

Visualização de Dados

Mon, 01 Jan 0001 00:00:00 +0000

Visualização de dados

Além da apresentação de medidas resumo, também é possível resumir a informação nos dados por meio de gráficos. A seguir, discutimos alguns dos principais gráficos usados. Para ilustrar estes gráficos, usaremos o banco de dados iris e o banco de dados adubo.

library(tidyverse)
data(iris)
adubo = read.csv("./data/adubo.csv")

iris = as.tibble(iris)
adubo = as.tibble(adubo)
adubo$nitrato = as.factor(adubo$nitrato)
adubo$fosfato = as.factor(adubo$fosfato)

Observação: No R, em geral existem muitas opções para gerar o mesmo gráfico. A seguir, mostraremos como gerar gráficos simples usando as funções de base do R e, também, gráficos mais elegantes, usando o pacote ggplot2. Mais informações sobre este pacote estão disponíveis aqui.

Visualizando uma variável

Strip chart

O strip chart é um gráfico para uma variável que é representado em um único eixo e é tal que, cada ponto corresponde ao valor de uma observação. Ainda que para poucas observações este gráfico possa ser informativo, quando há muitas observações ele é de difícil interpretação.

No R, o strip chart pode ser obtido pelo comando stripchart(). Por exemplo, no banco de dados de adubos, obtemos:

stripchart(adubo$efeito, xlab="efeito")

Por exemplo, note que enquanto que 7 das 20 observações, estão concentradas próximo a 1.5, as outras 13 estão dispersas ao redor de 5. O gráfico levanta uma pergunta: O que nestas 7 observações faz com que o efeito da adubação nelas seja tão menor do que o nas demais observações?

A utilidade do strip chart diminui muito quando existem muitos observações, uma vez que é difícil extrair informação quando há muitos pontos agrupados. A seguir, note como é difícil interpretar um strip chart produzido com 10.000 observações:

normais = rnorm(10000)
stripchart(normais)

Em casos como o acima, é necessário resumir as observações para obter informação.

Bar plot e histograma

O bar plot e o histograma são gráficos que resumem uma variável mais do que o strip chart. Ao invés de apresentarem um ponto para cada observação, estes gráficos indicam a frequência com que cada valor ocorre para uma variável.

O bar plot é usado para variáveis qualitativas e quantitativas discretas. Ele indica a contagem com que cada valor ocorre para esta variável. Para criar um barplot no R, utilizamos primeiramente o comando table(), que conta o número de ocorrências para cada observação. A seguir, a saída do comando table é usada no comando barplot(), que exibe o gráfico. Esta sequência é ilustrada para as espécies do banco de dados iris, a seguir:

contagens = table(iris$Species)
contagens

## 
##     setosa versicolor  virginica 
##         50         50         50

barplot(contagens, xlab = "espécie", ylab = "contagem")

Por sua vez, o histograma é usado para variáveis quantitativas contínuas. Nestas variáveis, não esperamos encontrar duas observações que assumem o mesmo valor. Assim, o bar plot é pouco informativo. Uma alternativa é dividir os possíveis valores em faixas e contar a quantidade de observações em cada uma destas faixas. O gráfico que indica estas faixas se chama histograma. Este gráfico pode ser obtido no R pelo comando hist(), conforme ilustrado a seguir:

hist(normais, xlab="valores", ylab="contagem")

Lembre que as 10.000 observações acima foram usadas para ilustrar as limitações do strip chart. Ao contrário do strip chart, o histograma evidencia que as observações estão concentradas em torno de 0.

Às vezes o formato de ``degraus’’ presente no histograma pode ser indesejável. Neste caso, podemos exibir um gráfico de densidade, que cria uma curva continua que suaviza os degraus do histograma. Uma das vantegens desta curva é eliminar do histograma os vãos que são gerados por faixas sem observações. A curva de densidade para 10.000 observações é apresentada em vermelha e sobreposta ao histograma para estas observações na figura a seguir:

dados = data.frame(var1 = normais)
ggplot(aes(x = var1), 
       data = dados) + 
geom_histogram(aes(y=..density..)) +
geom_density(color="red") +
xlab("valores") + ylab("densidade")

Às vezes, o histograma também não resume suficientemente as observações. Por exemplo, a figura abaixo apresenta histogramas de efeito para adubos com e sem nitrato. Como existe muita justaposição entre os histogramas é difícil comparar o efeito de cada adubo.

ggplot(aes(x =  efeito, color = nitrato),
       data = adubo) +
geom_histogram()

Para resolver este problema, veremos a seguir um gráfico que resume as observações ainda mais que o histograma.

Box plot

Um box plot (Tukey 1977) é um gráfico para visualizar uma única variável que consiste em apresentar visualmente 5 medidas resumo. Antes de descrever estas medidas, é útil visualizar um boxplot. A seguir, obtemos no R um box plot para o comprimento das sépalas no banco de dados iris:

boxplot(iris$Sepal.Length, ylab = "Comprimento da sépala")

O box plot contém 5 traços principais. O traço em negrito dentro do retângulo indicam a mediana (Q2) das observações. Os traços nos limites do retângulo indicam o primeiro (Q1) e o terceiro (Q3) quartis. Assim, observamos que cerca de 50% das observações estão dentro do retângulo e que um valor típico para as observações é representado pelo traço em negrito. A seguir, lembre que o intervalo interquartílico (IQR) é definido como $Q3-Q1$. Definimos o limite superior (LS) e inferior (LI) como, respectivamente, $LS=Q3+1.5*IQR$ e $LI=Q1-1.5*IQR$. Os limites das linhas superior e inferior no boxplot são, respectivamente, a maior observação menor que LS e a menor observação maior que LI. Esta é uma faixa de valores tal que seria improvável obter uma observação fora dela. Observações fora destes limites são representadas no boxplot por asteriscos e são comumente chamadas de “outliers”.

Muitas vezes, é útil separar as observações em grupos e construir boxplots para cada um destes. O exemplo a seguir, constrói boxplots para o efeito do adubo quando separamos as observações em 2 grupos: sem ou com nitrato.

ggplot(aes(y = efeito, 
           x = nitrato, 
           color = nitrato), 
       data = adubo) + 
geom_boxplot()

Note que, ainda que a mediana no grupo com nitrato seja ligeiramente superior à mediana do grupo sem nitrato, a diferença entre estes valores é insignificante em relação à variabilidade dos dados. Esta conclusão é obtida visualmente vendo que os retângulos vermelho e azul estão praticamente sobrepostos. Este é um cenário em que esperamos que não exista diferença nos efeitos dos dois tipos de adubo.

Por outro lado, podemos separar as observações nos grupos: sem e com fosfato. Neste caso, obtemos as figuras:

ggplot(aes(y = efeito, 
           x = fosfato,
           color = fosfato), 
       data = adubo) + geom_boxplot()

Neste caso, observe que a diferença entre as medianas de cada grupo é grande em relação à variabilidade dos dados. Por exemplo, verificamos que os boxplots não tem sobreposição. Neste caso, é razoável esperar que os adubos com fosfato tenham um efeito maior do que os adubos sem fosfato.

Visualizando duas variáveis

Scatter plot

Por vezes, estamos interessados em visualizar a relação entre duas variáveis contínuas. Neste caso, podemos designar um eixo para cada variável e desenhar um ponto para cada observação. Este tipo de gráfico é chamado de scatter plot.

No R é possível obter o scatter plot usando o comando plot(). A seguir, ilustramos este comando no banco de dados iris usando como variáveis o comprimento e largura das pétalas.

plot(iris$Petal.Length, iris$Petal.Width,
     xlab="Comprimento da petala",
     ylab="Largura da petala")

Note que, em média, quanto maior o comprimento da pétala, maior será a sua largura. Mais do que isso, parece haver uma relação linear entre estas quantidades. É possível ajustar uma reta que aproxima esta relação linear entre as observações usando o seguinte comando no R:

ggplot(aes(x = Petal.Length , y = Petal.Width),
       data = iris) +
geom_point(color='blue') +
geom_smooth(method='lm', color = "red") +
xlab("Comprimento da petala") +
ylab("Largura da petala")

## `geom_smooth()` using formula 'y ~ x'

Exercícios

Construa um boxplot para os dados: 2.3, 2000, 0.1, 1.5, 0.3, 0.7, 0.2, 1.7 e 1.2.
Parece haver uma relação linear entre o comprimento e largura das sépalas no banco de dados iris?
No banco de dados iris, parece haver diferença entre o comprimento das sépalas entre as 3 espécies observadas?
Uma pesquisadora mediu as alturas de $9$ indivíduos, apresentadas a seguir:

## [1] 149 163 168 169 172 173 175 180 181

Calcule a média e a variância das alturas.
Verifique se há algum outlier neste banco de dados e descreva o significado deste termo.

Um pesquisador está interessado em estudar como varia o percentual de aproveitamento do petróleo em função da temperatura de alimentação do destilador. Foram consideradas duas diferentes temperaturas (150 ou 300 graus Celsius) e uma amostra de tamanho $9$ para cada uma destas.

Indique uma medida de centralidade e uma medida de dispersão para cada uma das temperaturas testadas e interprete-as.
Esboce um boxplot para o aproveitamento de petróleo para cada temperatura testada. Interprete os boxplots e compare a diferença entre os aproveitamentos para cada temperatura.

O boxplot indica a mediana e o intervalo interquartílico de uma variável. Quais são possíveis vantagens destas medidas de centralidade e variabilidade em relação à média e ao desvio padrão?

Referências

Tukey, John W. 1977. Exploratory Data Analysis. Addison-Wesley.

Variáveis aleatórias e Probabilidade

Mon, 01 Jan 0001 00:00:00 +0000

Variáveis aleatórias

É comum que desejemos generalizar as conclusões que obtemos de um banco de dados para uma população. Por exemplo, no banco de dados de adubos, amostras de adubo com fosfato em geral tem um efeito maior que amostras de adubo sem fosfato. Será verdade, fora de nossa amostra, que adubos com fosfato tem efeito superior a adubos sem fosfato?

Para responder a questões como essa, é preciso desenvolver uma ferramenta que ligue as observações realizadas na amostra a observações futuras. Para realizar esta conexão descrevemos o nosso conhecimento antes de coletar o banco de dados. Neste contexto, havia incerteza sobre quais dados seriam observados. Por exemplo, considere que um experimento consiste em medir um objeto 10 vezes com um paquímetro. Devido aos erros de medição diversos valores serão observados. Cada medição tem um resultado incerto, com vários possíveis valores.

Para designar observações incertas, usamos variáveis aleatórias. Em particular, lembre-se que um banco de dados é uma matriz em que as linhas são unidades amostrais e as colunas são variáveis. Designamos por $X_{i,j}$ o valor observado para a $j$-ésima variável da $i$-ésima unidade amostral. Como descrevemos nossa incerteza em um momento anterior à coleta do banco de dados, o valor de $X_{i,j}$ é incerto.

Proposições

Utilizando variáveis aleatórias, é possível definir proposições de interesse. Proposições simples envolvem uma única variável e são, por exemplo, “$X_{1,3} = 5.2$”, “$X_{4,2} \geq 4$” ou “$X_{1,1} \leq 1$”. Também é possível obter proposições complexas unindo proposições simples por meio de conjunções. Por exemplo, “$X_{1,1} = 2$ e $X_{2,1} = 2$” e “$X_{1,3} = 5$ ou $X_{1,3} = 4$”. Se $A$ e $B$ são duas proposições, dizemos que a proposição $A$ e $B$ é observada se e somente se tanto $A$ quanto $B$ são observadas. Por exemplo, “choveu hoje e choveu ontem” é observado se e somente se “choveu hoje” é observado e também “choveu ontem” é observado. Similarmente, se $A$ e $B$ são duas proposições, dizemos que a proposição $A$ ou $B$ é observada se e somente se somente $A$ é obsevada, somente $B$ é observada ou tanto $A$ quanto $B$ são observadas. Por exemplo, “choveu hoje ou choveu ontem” somente não é observado se tanto “choveu hoje” não é observado quanto “choveu hoje” não é observado. A seguir, desenvolvemos uma medida de plausibilidade para proposições.

Probabilidade

A probabilidade de uma proposição é uma medida de quão plausível esta proposição é. Seja $A$ uma proposição, designamos sua probabilidade por $P(A)$. Por exemplo, seja $X_{1,1}$ o peso em kg do primeiro boi em um amostra. $P(X_{1,1} > 500)$ designa a probabilidade de que o peso desse boi seja maior do que 500 kg.

A probabilidade tem certas propriedades que ela deve satisfazer. Primeiramente, para toda proposição a sua probabilidade deve estar entre 0 e 1. Se $P(A) = 0$, $A$ é impossível e se $P(A) = 1$, $A$ é certo. Para todo outro valor de $P(A)$, $A$ é incerto, sendo que, quanto maior o valor de $P(A)$, mais plausível é $A$. A seguir, estudaremos algumas propriedades adicionais da probabilidade.

Relações entre proposições

Dizemos que duas proposições são mutuamente exclusivas se é impossível que ambas ocorram simultaneamente. Isto é, $A$ e $B$ são mutuamente exclusivas se “$A$ e $B$” é impossível. Por exemplo, se $X$ é uma variável aleatória que designa o resultado de uma moeda, então “$X$ = cara” e “$X$ = coroa” são mutuamente exclusivas. É uma propriedade da probabilidade que, se $A$ e $B$ são proposições mutuamente exclusivas, então: \[P(A \textbf{ ou } B) = P(A) + P(B).\]
Dizemos que duas proposições são independentes se aprender uma proposição não traz informação sobre a outra. Por exemplo, considere que $X_{1}$ e $X_{2}$ designam o resultado de dois lançamentos separados de um dado. Usualmente, não acreditamos que um lançamento de um dado traz informação sobre o outro. Assim, por exemplo, $X_{1}=1$ é independente de $X_{2}=3$. se $A$ e $B$ são proposições independentes, então: \[P(A \textbf{ e } B) = P(A) \cdot P(B).\]
Dizemos que duas variáveis aleatórias, $X$ e $Y$, são independentes se qualquer par de proposições sobre $X$ e $Y$ são independentes. Por exemplo, se $X$ e $Y$ são independentes, então $X = 2$ e $Y > 3$ são independentes. Para muitos bancos de dados que estudaremos neste curso, será comum supormos que, para toda variável, $j$, as observações desta variável são independentes para cada unidade amostral. Isto é, $X_{1,j}, X_{2,j}, \ldots, X_{n,j}$ são independentes.
Atenção: Exceto em casos extremos, um par de proposições nunca é simultaneamente “mutuamente exclusivo” e “independente”. De fato, se $A$ e $B$ são mutuamente exclusivos e aprendemos que $A$ ocorreu, então sabemos com certeza que $B$ não ocorreu. Isto é, $A$ traz informação sobre $B$. Estes conceitos sejam frequentemente confundidos! Tome cuidado!

Interpretações da probabilidade.

Simetria

Os conceitos de probabilidade iniciaram seu desenvolvimento com o estudo de jogos de azar. Isto ocorreu provavelmente porque nestes jogos lidamos com incertezas em um ambiente controlado. O funcionamento de um dado é relativamente simples em relação ao objeto de pesquisas científicas modernas.

Por exemplo, os possíveis resultados do lançamento de um dado (1, 2, 3, 4, 5 e 6) são simétricos e, assim, todos são igualmente plausíveis. Neste caso, obtemos que a probabilidade de cada possibilidade é $1$ sobre o número total de possibilidades. Por exemplo, se $X$ é uma variável aleatória que designa o resultado do dado, então $P(X=1) = \frac{1}{6}$. Semelhantemente,

\[P(X=1 \textbf{ ou } X=3) = P(X=1) + P(X=3) = \frac{1}{6} + \frac{1}{6} = \frac{2}{6}\]

Frequência

Na maior parte de pesquisas científicas modernas, nãoé possível usar diretamente o juízo de simetria apresentado anteriormente. Por exemplo, quando realizamos uma reação química, esta pode produzir o efeito desejado ou não. Em geral, estas possibilidades não são igualmente plausíveis. Assim, é necessário desenvolver um conceito mais abrangente de probabilidade.

Para tal, imaginamos uma sequência de experimentos independentes em que realizamos a reação química estudada. Podemos calcular a proporção de experimentos tais que a reação química produziu o efeito desejado. Ainda que, para um número finito de experimentos, esta proporção apresente variabilidade, quando o número o número de experimentos torna-se grande, a proporção concentra-se em um valor. Segundo a interpretação baseada em frequências, este valor designa a probabilidade de a reação química produzir o resultado satisfatório. Isto é, a probabilidade de que a reação química produza um resultado satisfatório é a proporção de experimentos independentes em que obtemos este resultado, quando realizamos um número muito grande de experimentos.

Por exemplo, a figura abaixo apresenta a proporção de vezes que um evento ocorre para vários possíveis números de realizações de experimentos independentes. Qual a probabilidade de ocorrência do evento?

Apostas

Existem experimentos tais que não conseguimos imaginar repetições independentes. Por exemplo, imagine as eleições presidenciais de 2018 como experimento. Existirá uma única eleição presidencial de 2018 e, assim, não conseguimos imaginar uma sequência de repetições independentes deste experimento. Assim, a interpretação frequentista não consegue responder a questões como: “Qual a probabilidade de o candidato $A$ vencer as eleições presidenciais de 2018?”

Neste sentido, existe uma interpretação alternativa de probabilidade baseada em apostas. Considere uma aposta em que você ganha R$1 se uma proposição, $A$, ocorrer e R$0, caso contrário. Note que, caso você pague $p$ para participar desta aposta, então ganhará R$(1-p) caso $A$ ocorra e perderá R$p caso $A$ não ocorra. Segundo a interpretação baseada em apostas, a probabilidade de $A$ é o maior valor que você estaria disposto a pagar para participar desta aposta.

Possíveis vantagens da interpretação baseada em apoastas é que ela enfatiza que o juízo de probabilidade é subjetivo e que ela pode ser aplicada a experimentos que não podem ser repetidos.

Exercícios

Descreva em suas próprias palavras o significado de “mutuamente exclusivos” e “independentes”. Apresente um exemplo de um par de proposições para cada expressão.
Considere as proposições: A = “Choverá hoje” e B = “Não choverá hoje”. Elas são mutuamente exclusivas? São independentes?
Considere as proposições: A = “Choverá hoje” e B = “Choverá amanhã”. Elas são mutuamente exclusivas? São independentes?
Um dado de 6 faces é arremessado. Qual é a probabilidade de que, $A$, um número par seja sorteado? Qual é a probabilidade de que, $B$, o número 3 ou 6 seja sorteado? As duas proposições acima são independentes? Verifique se $P(A \textbf{ e } B) = P(A) \cdot P(B)$.
Dividam-se em grupos e arremessem uma moeda várias vezes. Construam um banco de dados juntando todos os seus lançamentos. Para este banco de dados, esbocem como a proporção de caras varia de acordo com o número de lançamentos.
Uma moeda de duas faces simétricas é arremessada duas vezes. Seja $A$ a proposição de que o resultado do primeiro lançamento foi cara e $B$ a proposição de que em ambos os lançamentos ocorreu o mesmo resultado.

Determine $P(A)$, $P(B)$, $P(A \textbf{ ou } B)$ e $P(A \textbf{ e } B)$.
$A$ e $B$ são independentes? São mutuamente exclusivos?

Referências

Distribuições normal, chi-quadrado e F

Mon, 01 Jan 0001 00:00:00 +0000

Propriedades de variáveis aleatórias

Uma forma de descrever a incerteza em relação a uma variável aleatória é por meio de sua função de densidade. Se $X$ é uma variável aleatória, geralmente designamos a função de densidade de $X$ por $f_{X}(x)$. O valor de $f_{X}(x)$ indica o quão plausível é que a variável aleatória $X$ assuma o valor $x$. Por exemplo, a figura abaixo indica uma variável aleatória contínua tal que todos os valores entre 0 e 1 são igualmente plausíveis. Por isso, é comum dizer que esta variável aleatória tem densidade uniforme entre 0 e 1.

library(tidyverse)
ggplot(data.frame(x = c(0, 1)), aes(x)) + 
stat_function(fun = dunif, colour = "red", n = 100)

Uma propriedade importante de uma função de densidade é que podemos obter a probabilidade de que $X$ esteja entre dois valores, $x_1$ e $x_2$, calculando a área debaixo da densidade. Note que de corre desta propriedade que a área total debaixo da densidade é $1$. Por exemplo, a figura abaixo ilustra como obter $P(0.25 < X < 0.5)$ quando $X$ tem densidade uniforme entre $0$ e $1$. Note que, neste caso, a figura abaixo da curva é um retângulo de base $0.25$ e altura $1$ e, portanto, de área $0.25$. Assim, obtemos que $P(0.25 < X < 0.5) = 0.25$. Também, a área total debaixo da densidade é dada por um quadrado de lado $1$, isto é, $1$. Portanto, como esperávamos, $P(0 < X < 1) = 1$.

ggplot(data.frame(x = c(0, 1)), aes(x)) + 
stat_function(fun = dunif, colour = "red", n = 100) +
stat_function(fun = dunif, xlim = c(0.25, 0.5), geom = "area", alpha = 0.5)

De forma geral, a área debaixo de uma curva é dada por uma integral. Neste curso não usaremos esta relação, mas é útil saber que, se $X$ é uma variável contínua, então obtemos que \[P(x_1 \leq X \leq x_2) = \int_{x_1}^{x_2} f_{X}(x)dx\]

Também note que a área entre $x_1$ e $x_2$ pode ser descrita como a área à esquerda de $x_2$ subtraída da área à esquerda de $x_1$. Assim, se $X$ é uma variável contínua, também vale a seguinte relação \[P(x_1 \leq X \leq x_2) = P(X \leq x_2) - P(X \leq x_1)\]

A função de densidade descreve toda a incerteza sobre uma variável aleatória. Contudo, pode ser difícil descrever e analisar uma função. Assim, é comum que certos aspectos de uma variável aleatória sejam resumidos em números. A seguir, estudamos algumas destas medidas resumo.

Esperança (média populacional): A esperança de uma varíavel aleatória, $X$ é denotada por $E[X]$ e descreve uma medida de centralidade desta. Se imaginarmos que, para cada possível valor, $x$, existe um peso de $f_{X}(x)$ na posição $x$, então $E[X]$ descreve o centro de massa desse sistema. Também, a média amostral e a esperança resumem a mesma característica. Enquanto que a primeira descreve a centralidade para uma variável em um banco de dados, uma variável aleatória já observada, a segunda descreve a centralidade para uma variável aleatória, isto é, descreve a incerteza sobre uma observação antes que esta ocorra. De forma técnica, a esperança de uma variável aleatória contínua é calculada da seguinte forma: \[E[X] = \int_{-\infty}^{\infty}{x f_{X}(x)dx}\]
Variância (populacional): A variância de uma variável aleatória, $X$, é denotada por $V[X]$ e indica um resumo da variabilidade desta. Assim como a variância amostral descreve a variabilidade de uma variável em um banco de dados (já observado), a variância populacional descreve a variabilidade de uma variável aleatória (ainda não observada). De forma técnica, a variância de uma variável aleatória contínua é calculada da seguinte forma: \[V[X] = \int_{-\infty}^{\infty}{(x-E[X])^2 f_{X}(x)}dx\] Semelhantemente ao caso da variância amostral, a variância populacional não é medida na mesma escala da variável aleatória que ela representa. Para obter esta escala, é comum tomar a raiz quadrada da variância populacional. Esta medida é chamada de desvio padrão (populacional). Também é comum designarmos a variância de $X$ por $\sigma^2_X$. Esta notação é conveniente pois permite designarmos o desvio padrão de $X$ por $\sigma_X$.

A seguir, estudaremos algumas funções de densidade essenciais para este curso.

Distribuição normal

Uma das distribuições mais usadas é a Normal. Formalmente, dizemos que $X$ tem distribuição normal com média $\mu$ e variância $\sigma^2$ se $X$ pode assumir qualquer número real e sua densidade, $f_{X}(x)$, tem a forma \[ f_{X}(x) = \frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right) \] Como diremos muitas vezes neste curso que “$X$ tem distribuição Normal com média $\mu$ e variância $\sigma^2$”, abreviaremos esta expressão por $X \sim N(\mu,\sigma^2)$. Se $X \sim N(\mu,\sigma^2)$, então obtem-se que $E[X] = \mu$ e $Var[X] = \sigma^2$. A figura abaixo exibe a densidade da $N(0,1)$, também conhecida por “normal padrão”.

ggplot(data.frame(x = c(-3, 3)), aes(x)) + 
stat_function(fun = dnorm, colour="red", n = 100)

Note que a densidade tem um formato de sino com simetria ao redor do $0$. Decorre que a normal padrão tem média $0$. A densidade de uma normal com média $\mu$ e variância $1$ terá o mesmo formato, só que transladado por $\mu$. Este fato é ilustrado na figura a seguir, em que as curvas azul e verdem indicam, respectivamente, as densidades da $N(-1,1)$ e da $N(1,1)$.

ggplot(data.frame(x = c(-4,4)), aes(x)) + 
stat_function(fun = dnorm, colour = "red", n = 100) +
stat_function(fun = function(x) dnorm(x, mean = -1), 
              colour = "blue", n = 100) +
stat_function(fun = function(x) dnorm(x, mean = 1), 
              colour = "green", n = 100) +
ylab("densidade")

Semelhantemente, a figura abaixo apresenta nas curvas verde, vermelha e azul, respectivamente, as distribuições $N(0, 0.25)$, $N(0, 1)$ e $N(0, 4)$. Note que a variância, $\sigma^2$, altera a escala da densidade da normal. Quanto menor o valor de $\sigma^2$, mais a densidade está concentrada ao redor da média.

ggplot(data.frame(x = c(-6,6)), aes(x)) + 
stat_function(fun = dnorm, colour = "red", n = 100) +
stat_function(fun = function(x) dnorm(x, sd = 2), 
              colour = "blue", n = 100) +
stat_function(fun = function(x) dnorm(x, sd = 0.5), 
              colour = "green", n = 100) +
ylab("densidade")

Uma relação útil é que aproximadamente 95% da densidade de uma $N(\mu,\sigma^2)$ está concentrada entre $\mu-2\sigma$ e $\mu+2\sigma$. Na figura acima, temos que $\mu=0$. Assim, aproximadamente 95% da área das curvas verde, vermelha e azul está concentrada, respectivamente, em $[-1,1]$, $[-2,2]$ e $[-4,4]$. De forma mais formal, se $X \sim N(\mu,\sigma^2)$ e $\approx$ significa aproximadamente, então \[ P(\mu-2\sigma \leq X \leq \mu+2\sigma) \approx 0.95 \]

Se $X \sim N(\mu,\sigma^2)$, não é possível descrever $P(X \leq x)$ de forma analítica. Contudo, é possível obter uma aproximação analítica para esta quantidade no R usando a função pnorm. Por exemplo, o código abaixo calcula $P(X \leq 4)$ para uma $N(2,9)$.

pnorm(4, mean = 2, sd = 3)

## [1] 0.7475075

Também a probabilidade de que uma $N(2,9)$ esteja entre $1$ e $4$ é obtida da seguinte forma:

pnorm(4, mean = 2, sd = 3) - pnorm(1, mean = 2, sd = 3)

## [1] 0.3780661

É possível transformar qualquer distribuição normal em uma normal padrão por meio de transformações lineares. Especificamente, se $X \sim N(\mu,\sigma^2)$, então $\frac{X-\mu}{\sigma} \sim N(0,1)$. Por isso, podemos imaginar que obtemos uma $N(\mu,\sigma^2)$, ao multiplicar uma normal padrão por $\sigma$ e somar $\mu$ ao resultado. O processo de calcular $\frac{X-\mu}{\sigma}$ é frequentemente chamado de padronização.

Teorema Central do Limite

O Teorema Central do Limite é um dos resultados mais importantes em Estatística e também uma das razões pelas quais a distribuição é tão importante neste curso. De forma suscinta, ele dita que, se $X_1, \ldots, X_n$ são variáveis aleatórias independentes que tem a mesma distribuição e tais que $E[X_i] = \mu$ e $V[X_i] = \sigma^2$, então a média amostral é aproximadamente normal. Mais especificamente, \[\bar{X} \approx N\left(\mu,\frac{\sigma^2}{n}\right)\] Note que esta aproximação vale não importa qual seja a distribuição de cada observação. Assim, com pouquíssimas suposições é possível aproximar a distribuição da média amostral pela normal. Se padronizarmos a média amostral, obtemos a versão mais usual do Teorema do Limite Central: \[\frac{\bar{X}-\mu}{\sqrt{\frac{\sigma^2}{n}}} \approx N(0,1)\] A figura a seguir é um histograma de observações obtidas tomando a média de $100$ variáveis aleatórias uniformes entre $0$ e $1$. Note que cada uniforme tem média $0.5$ e as médias amostrais estão dispersas em torno deste valor. Também, a distribuição uniforme entre $0$ e $1$ tem variância $\frac{1}{12}$. Assim, o Teorema Central do Limite dita que a média de 100 destas distribuições uniformes tem desvio padrão $\sqrt{\frac{1}{12 \cdot 100}}$. Isto é, neste caso $\bar{X} \approx N(0.5, 0.03)$. De fato, observamos na figura que a maior parte das observações estão dispersas a menos de dois desvios padrões, $0.06$, da média populacional, $0.5$.

medias = rep(NA, 1000)
for(ii in 1:1000) 
{
  medias[ii] = mean(runif(100, 0, 1))
}
ggplot(aes(x = medias), data = data.frame(medias)) +
geom_histogram(aes(y = ..density..)) +
geom_density(colour="red")

Distribuição chi-quadrado

Se $X$ tem distribuição chi-quadrado com $n$ graus de liberdade, escrevemos $X \sim \chi^2_n$. Neste caso, \[f_{X}(x) = \frac{x^{0.5n-1}\exp(-0.5x)}{2^{0.5n}\Gamma(0.5n)},\] $E[X]=n$ e $V[X]=2n$.
Se $X \sim N(0,1)$, então $X^2 \sim \chi^2_1$.
Se $X_1, \ldots, X_n$ são variáveis independentes e cada qual tem distribuição $\chi^2_1$, então $\sum_{i=1}^n X_i \sim \chi^2_n$.
Se $X_1, \ldots, X_n$ são variáveis independentes e tais que $X_{i} \sim N(\mu, \sigma^2)$, então $\frac{\sum_{i1=}^{n}(X_i-\bar{X})^2}{\sigma^2} \sim \chi^2_{n-1}$, ou seja, $\frac{S^2}{\sigma^2} \sim \chi^2_{n-1}$.
No R, podemos obter a densidade e $P(X \leq x)$ para a chi-quadrado por meio dos comandos dchisq e pchisq.

Distribui??o T de Student

Designamos a distribui??o $T$ de Student com $n$ graus de liberdade por $T_{n}$.
Se $Z \sim N(0,1)$ e $S^2 \sim \chi^2_n$ s?o vari?veis independentes, ent?o $\frac{Z}{\sqrt{\frac{S^2}{n}}} \sim T_{n}$.
No R, podemos obter a densidade e $P(X \leq x)$ para a T de Student por meio dos comandos dt e pt.

Distribuição F de Snedcor

Se $X$ tem distribuição $F$ com parâmetros $d_1$ e $d_2$, então escrevemos $X \sim F_{d_1,d_2}$.
$X_1 \sim \chi^2_{d_1}$, $X_2 \sim \chi^2_{d_2}$ e $X_1$ e $X_2$ são independentes, então

\[ \frac{\frac{X_1}{d_1}}{\frac{X_2}{d_2}} \sim F_{d_1,d_2} \]

No R, podemos obter a densidade e $P(X \leq x)$ para a distribuição F por meio dos comandos df e pf.

Exercícios

Se $X$ tem densidade entre uniforme entre $0$ e $1$ e $0 \leq x_1, x_2 \leq 1$, calcule $P(x_1 \leq X \leq x_2)$.
Se $X$ tem densidade uniforme entre $1$ e $3$, qual é o valor da densidade de $X$ neste intervalo?
Calcule a esperança e a variância de uma variável aleatória com distribuição uniforme entre $0$ e $1$.
Ache um intervalo tal que uma $N(4,9)$ e steja dentro deste com probabilidade aproximadamente $95\%$.
Se $X \sim N(4,9)$, utilize o R para calcular $P(-1 \leq X \leq 1)$.
Se $X \sim N(10, 100)$, indique uma transformação linear de $X$ que tem distribuição normal padrão.
Se $X_1, \ldots, X_n$ são variáveis independentes de mesma distribuição e tais que $E[X_i] = 9$ e $V[X_i] = 16$, indique valores para $a$ e $b$ tal que $P(a \leq \bar{X} \leq b) \approx 95\%$.
Um pesquisador utilizou uma mesma medida resumo em diversas variáveis de seu banco de dados. Para visualizar estas medidas, construiu um histograma delas. Este histograma se encontra abaixo. Com base no histograma, argumente se a medida resumo poderia ou não ser a média amostral.

Referências

Parâmetros e Intervalos de Confiança

Mon, 01 Jan 0001 00:00:00 +0000

Inferência estatística e parâmetros

A inferência estatística consiste em fazer afirmações sobre características de uma população a partir de amostras desta. A partir deste ponto, estudaremos diversos métodos de inferência estatística.

Para que seja possível fazer inferência estatística, a probabilidade descreve como a amostra se relaciona com a população. Por exemplo, podemos considerar $10$ medições de um objeto com $15$ cm de comprimento usando uma régua cujo desvio padrão é $0.5$ cm. Neste caso, podemos denotar as $10$ observações por $X_{1},\ldots,X_{10}$. Antes de realizá-las, é razoável supor que sejam independentes e tais que $X_{i} \sim N(15, 0.25)$. A distribuição $N(15, 0.25)$ indica o comportamento de uma hipotética população de infinitas medições do objeto. Quando dizemos que $X_{i} \sim N(15, 0.25)$, indicamos que a $i$-ésima observação é um membro desta população.

Contudo, ao contrário do exemplo acima, em geral não sabemos descrever perfeitamente a população que temos interesse. Por exemplo, se estamos medindo um objeto, em geral não sabemos qual é o seu comprimento. Assim, se $X_{i}$ é uma observação do objeto usando uma régua cujo desvio padrão é $0.5$ cm, gostaríamos de dizer que $X_i$ segue uma distribuição normal com desvio padrão de $0.5$ cm e média igual ao comprimento do objeto. Contudo, como o comprimento do objeto é desconhecido, não é possível fazer diretamente esta afirmação.

Para solucionar este problema, utilizamos parâmetros. Um parâmetro é uma quantidade desconhecida da população. Por exemplo, no parágrafo anterior, o comprimento do objeto medido seria um parâmetro, que poderíamos denotar por $\mu$. Assim, as $10$ observações usando a régua, $X_{1}, \ldots, X_{10}$ seriam tais que $X_{i} \sim N(\mu, 0.5)$.

Intervalos de Confiança

Em algumas situações, desejamos criar um intervalo pequeno tal que seja bastante plausível que o parâmetro esteja dentro dele. A seguir, veremos formalmente como operacionalizar este objetivo. Estaremos interessados em construir um intervalo de confiança para $\mu$.

O primeiro passo consiste em observar que um intervalo é constituído por um limite inferior, $l_1(X)$, e um limite superior $l_2(X)$. Assim, construir o intervalos consiste em escolher $l_1(X)$ e $l_2(X)$ baseados na amostra. Para cumprir nossos objetivos, gostaríamos que $l2(X)-l_1(X)$ fosse pequeno, ou seja, o comprimento do intervalo fosse pequeno e, antes de a amostra ser observada, $P(l_1(X) < \mu < l_2(X))$ seja grande. Em particular, fixaremos um $\alpha$ pequeno e construíremos o intervalo de tal forma que $P(l_1(X) < \mu < l_2(X)) = 1-\alpha$. Após obtida a amostra, dizemos que $[l_1(x),l_2(x)]$ é um intervalo de confiança $1-\alpha$ para $\mu$.

A seguir, veremos alguns exemplos de intervalo de confiança.

Normal com variância conhecida

Considere que $X_{1},\ldots,X_{n}$ são observações independentes e tais que $X_{i} \sim N(\mu,\sigma_0^2)$, onde $\sigma_0^2$ é o desvio padrão conhecido das observações. Gostaríamos de utilizar estas observações para determinar $l_1(X)$ e $l_2(X)$ de tal forma que

\[ P(l_1(X) \leq \mu \leq l_2(X)) = 1-\alpha \] Para tal, note que $\bar{X} \sim N\left(\mu,\frac{\sigma_0^2}{n}\right)$ e, portanto, decorre da padronização da distribuição normal que \[ \frac{\sqrt{n}(\bar{X}-\mu)}{\sigma_0} = \frac{\bar{X}-\mu}{\sqrt{\frac{\sigma_0^2}{n}}} \sim N(0,1) \] Como $Z = \frac{\sqrt{n}(\bar{X}-\mu)}{\sigma_0}$ tem distribuição normal padrão, podemos determinar $c_1$ e $c_2$ de tal forma que $P(Z < c_1) = 0.5\alpha$ e $P(Z > c_2)=0.5\alpha$. No R, o comando qnorm($\alpha$) determina o valor $z$, tal que $P(Z < z) = \alpha$. Assim, as constantes $c_1$ e $c_2$ podem ser obtidas no R por meio dos comandos qnorm($0.5\alpha$) e qnorm($1-0.5\alpha$). Concluímos que \[ \begin{align*} P\left(qnorm(0.5\alpha) \leq \frac{\sqrt{n}(\bar{X}-\mu)}{\sigma_0} \leq qnorm(1-0.5\alpha)\right) &= 1-\alpha \\ P\left(\frac{\sigma_0}{\sqrt{n}} qnorm(0.5\alpha) \leq (\bar{X}-\mu) \leq \frac{\sigma_0}{\sqrt{n}} qnorm(1-0.5\alpha)\right) &= 1 - \alpha \\ P\left(\bar{X} - \frac{\sigma_0}{\sqrt{n}} qnorm(1-0.5\alpha) \leq \mu \leq \bar{X} - \frac{\sigma_0}{\sqrt{n}} qnorm(0.5\alpha) \right) &= 1 - \alpha \end{align*} \] Portanto, se tomarmos $l_1(X) = \bar{X} - \frac{\sigma_0}{\sqrt{n}} qnorm(1-0.5\alpha)$ e $l_2(X) = \bar{X} - \frac{\sigma_0}{\sqrt{n}} qnorm(0.5\alpha)$, então $[l_1(X),l_2(X)]$ é um intervalo de confiança $1-\alpha$ para $\mu$.

Aplicação numérica

Considere que $X_{1},\ldots,X_{9}$ são independentes e $X_i \sim N(\mu,1)$, Considere que observamos que $\bar{X} = 8$ e desejamos construir um intervalo de confiança $95\%$ para $\mu$. Neste caso, temos que $\alpha = 0.05$, assim podemos obter as quantidades apropriadas da distribuição normal e o intervalo de confiança para $\mu$ da seguinte forma.

 n = 9
 media = 8
 alpha = 0.05
 sigma = 1
 print(qnorm(1-0.5*alpha))

## [1] 1.959964

 l_1 = media - sigma/sqrt(n) * qnorm(1-0.5*alpha)
 print(l_1)

## [1] 7.346679

 print(qnorm(0.5*alpha))

## [1] -1.959964

 l_2 = media - sigma/sqrt(n) * qnorm(0.5*alpha)
 print(l_2)

## [1] 8.653321

Isto é, $[7.34, 8.65]$ é um intervalo de confiança $95\%$ para $\mu$.

Normal com variância desconhecida

Quando $X_1,\ldots,X_n$ são independentes e $X_i \sim N(\mu, \sigma^2)$, sendo tanto $\mu$ quanto $\sigma$ desconhecidos, não é possível construir o intervalo de confiança da mesma forma que na seção anterior.

Neste caso, usamos o fato de que \[ \frac{\sqrt{n-1}(\bar{X}-\mu)}{S} \sim T_{n-1} \] onde $T_{n-1}$ designa uma distribuição $T_{n-1}$ de Student com $n-1$ graus de liberdade. Notando que $P(T_{n-1} < qt(\alpha,n-1)) = \alpha$, podemos obter por raciocínio análogo ao desenvolvido na normal com variância conhecida que \[ P\left(\bar{X}-\frac{S}{\sqrt{n-1}}qt(1-0.5\alpha,n-1) \leq \mu \leq \bar{X}-\frac{S}{\sqrt{n-1}}qt(0.5\alpha,n-1) \right) = 1 \] Assim, se $l_1(X) = \bar{X}-\frac{S}{\sqrt{n-1}}qt(1-0.5\alpha,n-1)$ e $l_2(X) = \bar{X}-\frac{S}{\sqrt{n-1}}qt(0.5\alpha,n-1)$, então $[l_1(X),l_2(X)]$ é um intervalo de confiança $1-\alpha$ para $\mu$.

Interpretação

Intervalos de confiança são interpretados incorretamente com frequência. Por exemplo, considere que, antes que a amostra seja observada temos $P(l_1(X) < \mu < l_2(X)) = 95\%$, e com base na amostra calculamos $l_1(x) = 0.5$ e $l_2(x)=0.7$. Dizemos que $[0.5, 0.7]$ tem confiança 95% para $\mu$. Também é comum que se interprete que, com probabilidade 95%, $\mu$ está em $[0.5,0.7]$. Contudo, está interpretação está errada!

Note que a probabilidade de 95% no exemplo é calculada antes de a amostra ter sido coletada. Em outras palavras, podemos interpretar que, se gerarmos vários bancos de dados independentes da mesma população, então $\mu$ pertencerá a cerca de 95% dos intervalos gerados por meio destes bancos de dados. Contudo, após um particular banco de dados ser coletado, ou $\mu$ está dentro do intervalo calculado ou não está. A confiança de um particular intervalo gerado não é a probabilidade de que o parâmetro pertença a ele. Para corrobar a interpretação correta, o código abaixo gera $10000$ bancos de dados com $100$ observações normais de média $\mu=2$ e desvio padrão $\sigma=4$ e calcula a proporção de bancos de dados em que $\mu$ pertence ao intervalo com confiança de $95\%$ obtido.

mu = 2
sigma = 4
n = 100
num_experimentos = 10000
sucessos = 0
for(ii in 1:num_experimentos)
{
  dados = rnorm(n, mu, sigma)
  l1 = mean(dados) - sigma/sqrt(n) * qnorm(1-0.5*alpha)
  l2 = mean(dados) - sigma/sqrt(n) * qnorm(0.5*alpha)
  sucessos = sucessos + (mu > l1 & mu < l2)
}
sucessos/num_experimentos

## [1] 0.952

Exercícios

Defina e interprete intervalo de confiança em suas próprias palavras.
Um experimentalista experiente realizou $9$ medições da largura de um objeto usando um paquímetro. A média destas observações foi de $1.2 mm$. O desvio padrão do experimentalista com o paquímetro é de $0.2 mm$. Usando estas informações, construa intervalo com confiança 90%, 95% e 99% para a largura do objeto.
No exemplo da normal com variância conhecida, obtemos que o comprimento do intervalo de confiança é $\frac{2\sigma_0 qnorm(1-0.5\alpha)}{\sqrt{n}}$. Isto ocorre pois $qnorm(0.5\alpha)=1-qnorm(1-0.5\alpha)$. Interprete $\sigma_0$, $\alpha$ e $n$ e como estas quantidades inluenciam no tamanho do intervalo de confiança.
O caso da normal com variância populacional conhecida é um caso especial do caso da normal com variância populacional desconhecida. Em particular, o intervalo de confiança obtido para a variância populacional desconhecida é válido mesmo quando ela é conhecida. Apesar disso, é indesejável usar este intervalo neste caso. Por quê?
Obtenha a linha de raciocínio completa para obter o intervalo de confiança no caso da normal com variância desconhecida.

Conceitos de testes de hipótese

Mon, 01 Jan 0001 00:00:00 +0000

Testes de hipótese

É comum que queiramos saber o quanto uma amostra corrobora uma hipótese científica. Neste caso, podemos aplicar um teste de hipótese, isto é, um procedimento que decidirá se a hipótese é ou não rejeitada diante da amostra obtida.

Por exemplo, considere que $X_{1}, \ldots, X_{n}$ são observações independentes realizadas com uma régua ao medir um determinado objeto. Suponha que $X_{i} \sim N(\mu, \sigma_0^2)$, onde $\sigma_0^2$ é conhecido e indica precisão das medidas feitas com a régua. Uma pessoa poderia estar interessada na hipótese de que o objeto tem $15$ cm. Formalmente, chamamos esta hipótese de hipótese nula e a representamos por $H_0: \mu = 15$. Gostaríamos de saber se é possível rejeitar $H_0$ com base nos dados.

Tipos de erro

Existem $4$ possíveis resultados que podem decorrer de um teste de hipótese. Note que o teste de hipótese pode rejeitar ou não rejeitar a hipótese nula e, também, esta hipótese pode ser verdadeira ou falsa. Assim, existem $4$ combinações de resultados possíveis:

(Acerto) A hipótese nula é verdadeira e não é rejeitada.
(Acerto) A hipótese nula é falsa e é rejeitada.
(Erro tipo I) A hipótese nula é verdadeira e é rejeitada.
(Erro tipo II) A hipótese nula é falsa e não é rejeitada.

Estas combinações podem ser representadas na seguinte tabela:

Note que existe um balanço entre os erros tipo I e II. Por exemplo, se quiséssemos que a probabilidade de cometer um erro tipo I fosse 0, então poderíamos nunca rejeitar H. Contudo, neste caso, a probabilidade de cometer um erro tipo II seria 1. Analogamente, se sempre rejeitarmos H, então as probabilidades de erro tipo I e II serão, respectivamente, 1 e 0. Na prática, rejeitamos $H_0$ quando os dados oferecem evidência contrária a este hipótese. Assim, buscamos que as probabilidades de cometer um erro tipo I ou um erro tipo II sejam baixas.

Uma outra observação importante é que, em geral, não sabemos se cometemos um erro em um teste de hipótese. Para saber se $H_0$ é verdadeiro ou não, seria necessária observar a população. Como apenas somos capazes de observar a amostra, não somos capazes de determinar se $H_0$ é verdadeiro ou não. Assim, não sabemos se o resultado do teste de hipótese foi um acerto ou um erro.

Apesar da limitação acima, podemos controlar as probabilidades de erro tipo I e II de um teste. Isto é, podemos desenvolver testes que, antes de observar o banco de dados, tenham uma baixa probabilidade de cometer um erro.

Convecionou-se que a hipótese nula deve ser escolhida de tal forma que o erro tipo I seja mais grave que o erro tipo II. Por exemplo, é mais grave concluir que um rio não está poluído quando ele está poluído do que concluir que ele está poluído quando de fato não está. Assim, neste caso, tomaríamos a hipótese nula como aquela de que o rio está poluído, pois assim o erro tipo I seria o de rejeitar que o rio está poluído quando ele de fato está.

Como o erro tipo I é o mais grave, construímos testes de hipótese que diretamente controlam a probabilidade de erro tipo I. Formalmente, determinaremos testes de hipótese tais que o erro tipo I seja menor que um valor pré-determinado, $\alpha$. É comum que $\alpha$ seja chamado de nível de significância do teste.

Exemplo: normal com variância conhecida

Considere que $X_{1},\ldots,X_{n}$ são observações independentes e tais que $X_{i} \sim N(\mu,\sigma_0^2)$, onde $\sigma_0^2$ é conhecido. Por exemplo, $X_i$ pode ser o peso da $i$-ésima vaca alimentada com uma determinada ração. Deseja-se provar que o peso médio de vacas alimentadas com esta ração é maior do que $500 kg$, ou seja, a hipótese nula é $H_0: \mu \leq 500$.

Para capturar o quanta a evidência os dados trazem contra $H_0$, podemos calcular o quanto a média amostral supera o valor de $\mu_0$, isto é, $\bar{X}-\mu_0$. Gostaríamos de rejeitar a hipótese nula quando $\bar{X}$ é muito maior que $\mu_0$, isto é, $\bar{X}-\mu_0 > c$, onde $c$ é escolhido de forma a controlar o erro tipo I. A seguir, veremos como realizar este controle.

O erro tipo I é a probabilidade de rejeitar a hipótese nula quando ela é verdadeira. Isto é, para obter o erro tipo I, queremos calcular $P(\bar{X} - \mu_0 > c)$ sob $H_0$. Especificamente, gostaríamos que $P(\bar{X} - \mu_0 > c) \leq \alpha$ sob $H_0$. Para realizar esta desigualdade, note que decorre das propriedades da distribuição normal que, sob o valor extremo o extremo da hipótese nula ($\mu = \mu_0$), temos que $\bar{X}-\mu_0 \sim N\left(0,\frac{\sigma_0^2}{n}\right)$. Assim, utilizando a padronização da distribuição normal, obtemos que se $\mu = 500$, \[ Z := \frac{\bar{X}-\mu_0}{\sqrt{\frac{\sigma_0^2}{n}}} \sim N(0, 1) \] Portanto, \[ \begin{align*} P(\bar{X}-\mu_0 > c) &= P\left(\frac{\bar{X}-\mu_0}{\sqrt{\frac{\sigma_0^2}{n}}} > \frac{\sqrt{n}c}{\sigma_0}\right) \\ &= P\left(Z > \frac{\sqrt{n}c}{\sigma_0}\right) \\ &= 1 - P\left(Z \leq \frac{\sqrt{n}c}{\sigma_0}\right) \\ &= 1 - \text{pnorm}\left(\frac{\sqrt{n}c}{\sigma_0}\right) \end{align*} \] Para controlar o erro tipo $I$, desejamos que sob $H_0$, $P(\bar{X}-\mu_0 > c) = \alpha$. Utilizamos as equações acima, obtemos \[ \begin{align*} \alpha &= 1 - \text{pnorm}\left(\frac{\sqrt{n}c}{\sigma_0}\right) \\ 1- \alpha &= \text{pnorm}\left(\frac{\sqrt{n}c}{\sigma_0}\right) \\ \text{qnorm}(1-\alpha) &= \text{qnorm}\left(\text{pnorm}\left(\frac{\sqrt{n}c}{\sigma_0}\right)\right) \\ \text{qnorm}(1-\alpha) &= \frac{\sqrt{n}c}{\sigma_0} \\ \frac{\text{qnorm}(1-\alpha)\sigma_0}{\sqrt{n}} &= c \end{align*} \] Assim, para controlar o erro tipo I em $\alpha$, rejeitamos a a hipótese nula $H_0:\mu \leq \mu_0$ quando \[\bar{X}-\mu_0 > \frac{\text{qnorm}(1-\alpha)\sigma_0}{\sqrt{n}}.\]

Por exemplo, considere que observamos $9$ vacas alimentadas com a ração de interesse. Sabemos que o desvio padrão nos pesos destas vacas é de $50 kg$ e, portanto, o peso de cada vaca é $X_i \sim N(\mu, 50^2)$. O peso médio destas foi de $530$. Se desejamos testar a hipótese $H_0: \mu \leq 500$ a um nível de $\alpha = 5\%$, podemos realizar os cálculos no R da seguinte forma:

mu0 = 500
n = 9
sigma0 = 50
media = 530
alpha = 0.05
qnorm(1-alpha)

## [1] 1.644854

c = qnorm(1-alpha) * sigma0 / sqrt(n)
c

## [1] 27.41423

media - mu0 > c

## [1] TRUE

Como a média amostral supera $c$ a um nível de $0.05$, rejeitamos a hipótese nula. Note que, se exercemos um maior controle sobre o erro tipo I, então não rejeitaremos a hipótese nula. Por exemplo, se tomássemos $\alpha = 0.01$, então o teste de hipótese seria mais conservador e não rejeitaríamos a hipótese nula.

alpha = 0.01
qnorm(1-alpha)

## [1] 2.326348

c = qnorm(1-alpha) * sigma0 / sqrt(n)
c

## [1] 38.77246

media - mu0  > c

## [1] FALSE

p-valor

Na amostra estudada no exemplo anterior, verificamos que se fixássemos $\alpha = 0.05$, então o teste rejeitaria a hipótese nula. Por outro lado, se fixássemos $\alpha = 0.01$, o teste não rejeitaria a hipótese nula. Isto ocorre pois quanto menor o valor de $\alpha$, mais o teste fica conservador em rejeitar $H_0$. Decorre deste comportamento que, enquanto que para valores “grandes” de $\alpha$, o teste rejeitará $H_0$, para valores “pequenos” de $\alpha$ o teste não rejeitará $H_0$.

Um valor de interesse é o menor $\alpha$ tal que o teste rejeita $H_0$ para a amostra observada. Este $\alpha^*$ é comumente chamado de p-valor. Este valor pode ser muito útil para compartilhar resultados. Note que, para a amostra observada, se um pesquisador fixar um $\alpha > \alpha^*$, então ele rejeitará $H_0$. Por outro lado, se ele fixar $\alpha < \alpha^*$, então não rejeitará $H_0$. Assim, somente comparando o p-valor com o $\alpha$ fixado, é possível saber o resultado do teste. Portanto, mesmo pesquisadores fixando níveis de significância diferentes podem saber o resultado do teste de hipótese apenas observando o p-valor.

p-valor na normal com variância conhecida

No exemplo do teste de hipótese para a média da normal com variância conhecida, lembre que $H_0: \mu \leq \mu_0$ é rejeitado para todos os valores de $\alpha$ tais que:

\[\bar{X}-\mu_0 > \frac{\text{qnorm}(1-\alpha)\sigma_0}{\sqrt{n}}\] Portanto, o menor valor de $\alpha$ tal que $H_0$ é rejeitado, $\alpha^*$ é tal que \[\bar{X}-\mu_0 = \frac{\text{qnorm}(1-\alpha^*)\sigma_0}{\sqrt{n}}\] Com algumas manipulações aritméticas podemos determinar o valor de $\alpha^*$, isto é, o p-valor: \[ \begin{align*} \bar{X}-\mu_0 &= \frac{\text{qnorm}(1-\alpha^*)\sigma_0}{\sqrt{n}} \\ \frac{\sqrt{n}(\bar{X}-\mu_0)}{\sigma_0} &= \text{qnorm}(1-\alpha^*) \\ \text{pnorm}\left(\frac{\sqrt{n}(\bar{X}-\mu_0)}{\sigma_0}\right) &= \text{pnorm}(\text{qnorm}(1-\alpha^*)) \\ \text{pnorm}\left(\frac{\sqrt{n}(\bar{X}-\mu_0)}{\sigma_0}\right) &= 1 - \alpha^* \\ 1 - \text{pnorm}\left(\frac{\sqrt{n}(\bar{X}-\mu_0)}{\sigma_0}\right) &= \alpha^* \end{align*} \] Portanto, o p-valor neste caso é o $\alpha^*$ tal que \[ \alpha^* = 1 - \text{pnorm}\left(\frac{\sqrt{n}(\bar{X}-\mu_0)}{\sigma_0}\right) \]

Exercícios

Descreva em suas próprias palavras: teste de hipótese, erro tipo I, erro tipo II, nível de significância e p-valor.
Um cientista mede um objeto $9$ vezes com um paquímetro e observa os valores em mm de: 1.2, 1.4, 1.7, 1.3, 1.5, 1.1, 1.8, 1.4, 1.1. Se as medições com o paquímetro tem desvio padrão de 0.2 mm, o pesquisador consegue rejeitar a hipótese de que o comprimento do objeto é menor do que $1.3 mm$? Qual o p-valor para esta hipótese na amostra observada?
Considere o caso da normal com variância conhecida. Ou seja, cada observação é tal que $X_{i} \sim N(\mu,\sigma_0^2)$. Considere que desejamos testar $H_0: \mu \geq \mu_0$. Neste caso, faria sentido calcular como evidência contra $H_0$ o quanto $\bar{X}$ é menor que $\mu_0$? Se sim, rejeitaríamos $H_0$ quando $\bar{X}-\mu_0 < c$. Utilizando passos análogos ao da seção da normal com variância conhecida, o valor de $c$ tal que a probabilidade de erro tipo I é controlada por $\alpha$. Determine o p-valor deste teste.
Considere novamente o caso da normal com variância conhecida, ou seja, cada observação é tal que $X_{i} \sim N(\mu,\sigma_0^2)$. A medida $|\bar{X}-\mu_0|$ captura evidência contra $H_0: \mu = \mu_0$? Se desejamos rejeitar $H_0$ quando $|\bar{X}-\mu_0| > c$, determine o valor de $c$ que controla o erro tipo I em $\alpha$. Determine o p-valor deste teste.

Testes para uma população

Mon, 01 Jan 0001 00:00:00 +0000

Testes para uma população ($\sigma^2$ desconhecido)

Considere uma amostra independente, $X_{1}, \ldots, X_{n}$ tal que $X_{i} \sim N(\mu, \sigma^2)$, onde $\mu$ e $\sigma^2$ são desconhecidos. Note que, ao contrário das aulas anteriores, consideramos que $\sigma^2$ é desconhecido. Neste contexto, comumente estamos interessados em testar as hipóteses: \[ \begin{align*} H_0: \begin{cases} (a) \text{ } \mu \leq \mu_0 & \\ (b) \text{ } \mu \geq \mu_0 & \\ (c) \text{ } \mu = \mu_0 & \end{cases} \end{align*} \]

Regiões críticas

Similarmente às aulas passadas, desejamos rejeitar $H_0$ para os casos (a), (b) e (c) quando, respectivamente, \[ \begin{cases} (a) \text{ } \bar{X}-\mu_0 > k_{a} & \\ (b) \text{ } \bar{X}-\mu_0 < k_{b} & \\ (c) \text{ } |\bar{X}-\mu_{0}| > k_{c} \end{cases} \]

Nestes testes, determinamos os valores de $k_{a}$, $k_{b}$ e $k_{c}$ utilizando a condição de que a probabilidade de erro tipo $I$ é $\alpha$. Para usar esta condição, em aulas anteriores padronizamos a quantidade $\bar{X}-\mu_0$ dividindo-a por $\frac{\sigma}{n}$. Contudo, agora consideramos que $\sigma$ é desconhecido e, portanto, não é possível realizar esta padronização. Ao contrário, utilizamos a padronização alternativa de que, quando $\mu = \mu_0$, $\frac{\sqrt{n-1}(\bar{X}-\mu_0)}{S} \sim T_{n-1}$. Assim, tomando $\mu = \mu_0$, calculamos a probabilidade de erro tipo I da seguinte forma \[ \begin{align*} P(\bar{X}-\mu_0 > k_a) &= P\left(\frac{\sqrt{n-1}(\bar{X}-\mu_0)}{S} > \frac{\sqrt{n-1}k_a}{S}\right) \\ &= P\left(T_{n-1} > \frac{\sqrt{n-1}k_a}{S} \right) \\ &= 1- pt\left(\frac{\sqrt{n-1}k_a}{S}, df = n-1\right) \end{align*} \] Semelhamentemente, obtemos \[ \begin{align*} P(\bar{X}-\mu_0 < k_b) &= pt\left(\frac{\sqrt{n-1}k_b}{S}, df = n-1\right) \\ P(|\bar{X}-\mu_0| > k_c) &= 2pt\left(-\frac{\sqrt{n-1}k_c}{S}, df = n-1\right) \end{align*} \] Os valores de $k_a$, $k_b$ e $k_C$ são determinados de forma que, sob a hipótese nula, a probabilidade de rejeição seja $\alpha$. Assim, por exemplo, para $H_0: \mu \leq \mu_0$, obtemos a equação \[ \begin{align*} 1- pt\left(\frac{\sqrt{n-1}k_a}{S}, df = n-1\right) &= \alpha \\ pt\left(\frac{\sqrt{n-1}k_a}{S}, df = n-1\right) &= 1-\alpha \\ \frac{\sqrt{n-1}k_a}{S} &= qt(1-\alpha, df=n-1) \\ k_a &= \frac{qt(1-\alpha, df=n-1) S}{\sqrt{n-1}} \end{align*} \] Similarmente, obtemos \[ \begin{align*} k_b &= \frac{qt(\alpha, df=n-1) S}{\sqrt{n-1}} \\ k_c &= \frac{qt(1-0.5\alpha, df=n-1) S}{\sqrt{n-1}} \end{align*} \] Portanto, as hipóteses em (a), (b) e (c) são rejeitadas, respectivamente, quando \[ \begin{cases} \text{(a) } \bar{X}-\mu_0 > \frac{qt(1-\alpha, df=n-1) S}{\sqrt{n-1}} \\ \text{(b) } \bar{X}-\mu_0 < \frac{qt(\alpha, df=n-1) S}{\sqrt{n-1}} \\ \text{(c) } |\bar{X}-\mu_0| > \frac{qt(1-0.5\alpha, df=n-1) S}{\sqrt{n-1}} \end{cases} \]

Exemplo

Considere que um pesquisador inexperiente com o paquímetro mede um objeto $9$ vezes e observa os valores em milímetros:

dados = c(1.1, 1.3, 1.3, 1.4, 1.6, 1.8, 1.8, 1.9, 2.2)

Considere que o pesquisador deseja testar a um nível de $\alpha = 0.01$ se o cumprimento do objeto é 1.5 milímetros, isto é, $H_0: \mu_0 = 1.5$. Para tal, ele usará a região critica identificada em (c), que pode ser calculada no R da seguinte forma

 mu_0 = 1.5
 alpha = 0.01
 n = length(dados)
 S = sd(dados) * sqrt(n-1)/sqrt(n)
 media = mean(dados)
 lado_esquerdo = abs(media - mu_0)
 lado_esquerdo

## [1] 0.1

 lado_direito = qt(1-0.5*alpha, df=n-1)*S/sqrt(n-1)
 lado_direito

## [1] 0.3954362

 lado_esquerdo > lado_direito

## [1] FALSE

Note que o cálculo em lado_esquerdo no código corresponde a $|\bar{X}-\mu_0|$ e o lado_direito no código corresponde a $\frac{qt(1-0.5\alpha, df=n-1) S}{\sqrt{n-1}}$. Como obtemos que é falso que o lado esquerdo é maior que o lado direito, não rejeitamos a hipótese nula.

Este teste também já está implementado no R e podemos obter o resultado que buscamos digitando diretamente

t.test(dados, 
       alternative = "two.sided", 
       mu = 1.5, 
       conf.level = 1-alpha)

## 
##  One Sample t-test
## 
## data:  dados
## t = 0.84853, df = 8, p-value = 0.4208
## alternative hypothesis: true mean is not equal to 1.5
## 99 percent confidence interval:
##  1.204564 1.995436
## sample estimates:
## mean of x 
##       1.6

Como o p-valor é $0.42$ e $\alpha = 0.05$ é menor que o p-valor, não rejeitamos a hipótese de que $H_0: \mu = 1.5$.

Exercícios

Para que um rio tenha água salubre, a concentração de uma determinada substância deve ser inferior a 10 mg/L. Uma amostra de água foi tomada em $9$ pontos distintos do rio, observando-se concentrações da substância em mg/L de: 2, 2, 5, 6, 6, 7, 8, 8, 12. Deseja-se testar se a água do rio e salubre.

Descreve os erros que podem ser cometidos neste teste. Qual o mais grave?
Qual a hipótese nula a ser testada?
Teste a hipótese nula a um nível de significância de $\alpha = 0.05$.
Calcule o p-valor deste teste.

Considere que $X_{1},\ldots,X_{n}$ são independentes e $X_{i} \sim N(\mu,\sigma_0^2)$, onde $\sigma_0^2$ é conhecido. Desejamos testar a hipótese $H_0: \mu \leq \mu_0$. Note que, a princípio, poderíamos aplicar tanto o teste com variância populacional conhecida, quanto o teste com variância populacional desconhecida. Qual é a vantagem de aplicar o teste com variância populacional conhecida? Você pode utilizar a seguinte amostra onde $\sigma_0^2 = 1$ e $\mu_0 = 0.5$ para embasar a sua resposta considere que $S = 1$. Os seguintes valores podem ser úteis:

Testes para duas populações

Mon, 01 Jan 0001 00:00:00 +0000

Testes para duas populações

É comum que testarmos relações entre duas populações. Por exemplo, considere que gado pode ser alimentado por dois tipos de ração: $A$ ou $B$. Neste caso, poderíamos testar, por exemplo, se o gado alimentado com a ração $B$ é, em média, mais pesado que aquele alimentado com a ração $A$.

Para testarmos este tipo de hipótese, obtemos uma amostra de cada uma das populações. Formalmente, consideramos que $X_{1,1},\ldots,X_{1,n}$ são independentes e $X_{1,i} \sim N(\mu_1,\sigma^2_1)$ e $X_{2,1},\ldots,X_{2,m}$ são independentes e $X_{2,i} \sim N(\mu_2, \sigma^2_2)$. Cada $X_{1,i}$ é uma observação da primeira observação e cada $X_{2,i}$ é uma observação da segunda população. Neste contexto, é comum testarmos \[ \begin{align*} H_0: & \begin{cases} \text{(a) } \mu_1 - \mu_2 \leq 0 & \\ \text{(b) } \mu_1 - \mu_2 \geq 0 & \\ \text{(c) } \mu_1 - \mu_2 = 0 & \end{cases} \end{align*} \] O teste a ser realizado depende das suposições sobre as populações. A seguir, estudamos algumas suposições que são utilizadas com frequência

Populações independentes com mesma variância

Considere que as observações da primeira população são independentes das observações da segunda população. Além disso, também suponha que ambas as populações tem a mesma variância, isto é, $\sigma_1^2 = \sigma_2^2 = \sigma^2$. Neste caso, é razoável rejeitarmos as hipóteses em (a), (b) e (c), quando, respectivamente, \[ \begin{cases} \text{(a) } \bar{X}_1 - \bar{X}_2 > k_a \\ \text{(b) } \bar{X}_1 - \bar{X}_2 < k_b \\ \text{(c) } |\bar{X}_1 - \bar{X}_2| > k_c \end{cases} \] Para controlar o erro tipo I em $\alpha$, note que $\bar{X}_1-\bar{X}_2 \sim N\left(\mu_1-\mu_2,\frac{\sigma^2}{n}+\frac{\sigma^2}{m}\right)$. Portanto, se definirmos \[ \begin{align*} \bar{X} &= \frac{X_{1,1}+\ldots,X_{1,n}+X_{2,1}+\ldots+X_{2,m}}{n+m} \\ S^2 &= \frac{(X_{1,1}-\bar{X})^2+\ldots+(X_{1,n}-\bar{X})^2 +(X_{2,1}-\bar{X})^2+\ldots+(X_{2,n}-\bar{X})^2}{n+m} \end{align*} \] então obtemos que, sob $\mu_1 = \mu_2$, \[ \frac{\sqrt{nm(n+m-1)}(\bar{X}_1-\bar{X}_2)}{(n+m)S} \sim T_{n+m-1} \] Assim, o erro tipo I é controlado em $\alpha$ se rejeitamos $H_0$ nas situações (a), (b) e (c), respectivamente quando \[ \begin{cases} \text{(a) } \bar{X}_1 - \bar{X}_2 > \frac{qt(1-\alpha, df=n+m-1)S(n+m)}{\sqrt{nm(n+m-1)}} \\ \text{(b) } \bar{X}_1 - \bar{X}_2 < \frac{qt(\alpha, df=n+m-1)S(n+m)}{\sqrt{nm(n+m-1)}} \\ \text{(c) } |\bar{X}_1 - \bar{X}_2| > \frac{qt(1-0.5\alpha, df=n+m-1)S(n+m)}{\sqrt{nm(n+m-1)}} \end{cases} \]

Populações independentes com variâncias diferentes

Se $\sigma_1^2 \neq \sigma_2^2$, então não é possível combinar as amostras de cada população para realizar uma única estimativa da variância.

Populações dependentes pareadas

Exercícios

Introdução à ANOVA

Mon, 01 Jan 0001 00:00:00 +0000

library(tidyverse)
milho = read.csv("./data/milho.csv")
milho = as_tibble(milho)

teste_aov = aov(Colheita ~ Variedade, data = milho)
teste_aov

## Call:
##    aov(formula = Colheita ~ Variedade, data = milho)
## 
## Terms:
##                 Variedade Residuals
## Sum of Squares     56.375    34.500
## Deg. of Freedom         3         4
## 
## Residual standard error: 2.936835
## Estimated effects may be unbalanced

teste_tukey = TukeyHSD(x = teste_aov,
                       c("Variedade"),
                       conf.level=0.9)
teste_tukey

##   Tukey multiple comparisons of means
##     90% family-wise confidence level
## 
## Fit: aov(formula = Colheita ~ Variedade, data = milho)
## 
## $Variedade
##     diff        lwr       upr     p adj
## B-A  2.5  -7.024103 12.024103 0.8291950
## C-A -1.5 -11.024103  8.024103 0.9522488
## D-A  5.5  -4.024103 15.024103 0.3636471
## C-B -4.0 -13.524103  5.524103 0.5778444
## D-B  3.0  -6.524103 12.524103 0.7479312
## D-C  7.0  -2.524103 16.524103 0.2222893

agua = read.csv("./data/agua.csv")
agua = as.tibble(agua)

## Warning: `as.tibble()` was deprecated in tibble 2.0.0.
## Please use `as_tibble()` instead.
## The signature and semantics have changed, see `?as_tibble`.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was generated.

teste_aov = aov(Tempo ~ Tipo, data = agua)
teste_aov

## Call:
##    aov(formula = Tempo ~ Tipo, data = agua)
## 
## Terms:
##                     Tipo Residuals
## Sum of Squares  102.0833  236.1667
## Deg. of Freedom        1        10
## 
## Residual standard error: 4.859698
## Estimated effects may be unbalanced

#teste_tukey = TukeyHSD(x = teste_aov,
#                       c("Variedade"),
#                       conf.level=0.9)
#teste_tukey

Notas de Aula | Rafael B. Stern

Construção de bancos de dados

Software para análise de dados.

Elementos da análise estatística

Exemplo de elementos da análise estatística

Tipos de variáveis

Exercícios

Referências

Medidas Resumo

Medidas resumo

Medidas de centralidade

Média

Mediana

Moda

Medidas de variabilidade

Amplitude

Variância e desvio padrão

Intervalo interquartílico

Resumo de observações no R

Exercícios

Referências

Visualização de Dados

Visualização de dados

Visualizando uma variável

Strip chart

Bar plot e histograma

Box plot

Visualizando duas variáveis

Scatter plot

Exercícios

Referências

Variáveis aleatórias e Probabilidade

Variáveis aleatórias

Proposições

Probabilidade

Relações entre proposições

Interpretações da probabilidade.

Simetria

Frequência

Apostas

Exercícios

Referências

Distribuições normal, chi-quadrado e F

Propriedades de variáveis aleatórias

Distribuição normal

Teorema Central do Limite

Distribuição chi-quadrado

Distribui??o T de Student

Distribuição F de Snedcor

Exercícios

Referências

Parâmetros e Intervalos de Confiança

Inferência estatística e parâmetros

Intervalos de Confiança

Normal com variância conhecida

Aplicação numérica

Normal com variância desconhecida

Interpretação

Exercícios

Conceitos de testes de hipótese

Testes de hipótese

Tipos de erro

Exemplo: normal com variância conhecida

p-valor

p-valor na normal com variância conhecida

Exercícios

Testes para uma população

Testes para uma população (\(\sigma^2\) desconhecido)

Regiões críticas

Exemplo

Exercícios

Testes para duas populações

Testes para duas populações

Populações independentes com mesma variância

Populações independentes com variâncias diferentes

Populações dependentes pareadas

Exercícios

Introdução à ANOVA