Medidas Resumo
Medidas resumo
Os resultados de um experimento geralmente apresentam variabilidade. Esta variabilidade pode acontecer, por exemplo, por falta de controle nas condições experimentais ou por erros de medição. Assim, se obtivermos um número elevado de observações, pode ser difícil obter informações relevantes meramente olhando para o banco de dados. Por exemplo, os números a seguir são os comprimento das pétalas nas 150 observações do banco de dados Iris (Anderson 1936). O que você consegue observar?
data(iris)
print(iris$Petal.Length)
## [1] 1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 1.5 1.6 1.4 1.1 1.2 1.5 1.3 1.4
## [19] 1.7 1.5 1.7 1.5 1.0 1.7 1.9 1.6 1.6 1.5 1.4 1.6 1.6 1.5 1.5 1.4 1.5 1.2
## [37] 1.3 1.4 1.3 1.5 1.3 1.3 1.3 1.6 1.9 1.4 1.6 1.4 1.5 1.4 4.7 4.5 4.9 4.0
## [55] 4.6 4.5 4.7 3.3 4.6 3.9 3.5 4.2 4.0 4.7 3.6 4.4 4.5 4.1 4.5 3.9 4.8 4.0
## [73] 4.9 4.7 4.3 4.4 4.8 5.0 4.5 3.5 3.8 3.7 3.9 5.1 4.5 4.5 4.7 4.4 4.1 4.0
## [91] 4.4 4.6 4.0 3.3 4.2 4.2 4.2 4.3 3.0 4.1 6.0 5.1 5.9 5.6 5.8 6.6 4.5 6.3
## [109] 5.8 6.1 5.1 5.3 5.5 5.0 5.1 5.3 5.5 6.7 6.9 5.0 5.7 4.9 6.7 4.9 5.7 6.0
## [127] 4.8 4.9 5.6 5.8 6.1 6.4 5.6 5.1 5.6 6.1 5.6 5.5 4.8 5.4 5.6 5.1 5.1 5.9
## [145] 5.7 5.2 5.0 5.2 5.4 5.1
Ao invés da inspeção direta de uma variável, podemos resumí-la em números que expressam algumas de suas características. A seguir, estudaremos algumas destas medidas de resumo.
Medidas de centralidade
Uma medida de centralidade descreve um número ao redor dos quais as observações se concentram. Ela expressa um valor ``típico’’ nas observações para uma determinada variável. Existem várias possíveis medidas de centralidade, algumas das quais veremos a seguir.
Média
A média de uma variável,
comumente designada por
No R, a média pode ser calculada usando o comando mean(). Por exemplo, a média do comprimento de pétalas para a amostra de flores do gênero iris pode ser calculada da seguinte forma:
mean(iris$Petal.Length)
## [1] 3.758
Mediana
A mediana de uma variável é um número tal que há o mesmo número de observações maiores e menores do que ele. No R, a mediana é calculada pela função median().
median(iris$Petal.Length)
## [1] 4.35
A mediana é menos afetada por valores extremos do que a média. Por isso, é comum dizer que a mediana é uma medida robusta. Este conceito é ilustrado a seguir.
dados = c(0, 0.1, 0.1, 0.2, 0.25, 0.5, 0.7, 0.9, 1.1, 10000)
c(mean(dados), median(dados))
## [1] 1000.385 0.375
Observamos que, dos 10 dados, 9 estão concentrados próximo a 0 e 1 tem o valor 10.000. Enquanto que a média de aproximadamente 1.000 é afetada pelo valor extremo, a mediana de 0.375 não o é. É comum chamarmos observações atípicas, como o valor 10.000 neste caso, de outliers.
Observação: Note que como no exemplo acima existe um número par de dados, a mediana foi tomada como a média entre 0.25 e 0.5, as observações 5 e 6 em ordem crescente.
Moda
A moda é o valor mais frequente observado nos dados. Como em variáveis contínuas tipicamente não observamos valores repetidos, a moda não é usado nestes casos. Por outro lado, dentre média, mediana e moda, a moda é a única medida resumo que pode ser aplicada a variáveis nominais. Considere que observamos os dados: azul, azul, azul, vermelho, verde, verde. Observamos as cores azul, vermelho e verde respectivamente, 3, 1 e 2 vezes. Portanto, a cor azul é a mais frequente, sendo a moda desta variável.
Medidas de variabilidade
Medidas de variabilidade indicam o quanto as observações variam ao redor da medida de centralidade. Em outras palavras, indicam o quão longe podemos esperar que uma observação esteja do valor típico para aquela variável. Existem diversas medidas de variabilidade, algumas das quais apresentamos a seguir.
Amplitude
A amplitude é a diferença entre o maior e o menor valor observado. Esta medida de variabilidade é fortemente influenciada por valores extremos nas observações, como outliers. O exemplo a seguir calcula a amplitude do comprimento das sépalas no banco de dados iris.
max(iris$Sepal.Length) - min(iris$Sepal.Length)
## [1] 3.6
Variância e desvio padrão
Intuitivamente, podemos imaginar uma
medida de variabilidade que calcule
a média do quanto os dados desviam do centro.
Se tomarmos como centro das observações a média,
então podemos pensar no desvio da i-ésima observação
como
Note que a variância não está na mesma escala das observações.
Quando os desvios são elevados ao quadrado,
a unidade de medida é alterada para o quadrado
da unidade de medida original.
Assim, para obter uma medida mais interpretável
de varibilidade, é comum tomar
a raiz quadrada da variância.
Esta medida é chamada de desvio padrão,
A variância e o desvio padrão para o comprimento das sépalas é calculado no R da seguinte forma:
c(var(iris$Sepal.Length), sd(iris$Sepal.Length))
## [1] 0.6856935 0.8280661
Para muitos tipos de dado, é comum que
as observações se concentrem num intervalo de
2 desvios padrão para cada lado da média.
Isto é, é comum que a maior parte das observações
esteja no intervalo
Intervalo interquartílico
O percentil de ordem
quantile(iris$Sepal.Length, c(0.25, 0.5, 0.75))
## 25% 50% 75%
## 5.1 5.8 6.4
Por construção, aproximadamente metade dos dados estão
entre o
Alternativamente, podemos construir um
intervalo mais conservador exigindo que, por exemplo,
quantile(iris$Sepal.Length, c(0.025, 0.975))
## 2.5% 97.5%
## 4.4725 7.7000
O tamanho da região em que as observações tipicamente caem
é uma medida alternativa de variabilidade.
Especificamente, a subtraindo o
Exercícios
No banco de dados iris, calcule medidas resumo para o comprimento e largura das pétalas e para a largura das sépalas.
Na definição da variância, usamos a média dos desvios quadrado. Esta é uma possível maneira de fazer com que desvios negativos e positivos fossem tratados como iguais. Você consegue pensar em outra forma de eliminar o sinal do desvio que não elevando-o ao quadrado?
Para cada espécie no banco de dados iris, obtenha uma medida de centralidade e uma de variabilidade para o comprimento das sépalas.
O comprimento das sépalas da espécie Iris setosa é consideravelmente menor que o da espécie Iris versicolor que, por sua vez, é menor do que o da espécie Iris virginica. Considere que em um banco de dados temos
flores da espécie Iris setosa e, em outro, temos 50 exemplares de cada espécie. Qual banco de dados terá maior variabilidade em relação ao comprimento das sépalas?