<?xml version="1.0" encoding="utf-8" standalone="yes" ?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
  <channel>
    <title>Notas de Aula | Rafael B. Stern</title>
    <link>https://www.rafaelstern.science/courses/intro_stat/aulas/</link>
      <atom:link href="https://www.rafaelstern.science/courses/intro_stat/aulas/index.xml" rel="self" type="application/rss+xml" />
    <description>Notas de Aula</description>
    <generator>Wowchemy (https://wowchemy.com)</generator><language>en-us</language>
    <image>
      <url>https://www.rafaelstern.science/media/icon_hua2ec155b4296a9c9791d015323e16eb5_11927_512x512_fill_lanczos_center_3.png</url>
      <title>Notas de Aula</title>
      <link>https://www.rafaelstern.science/courses/intro_stat/aulas/</link>
    </image>
    
    <item>
      <title>Construção de bancos de dados</title>
      <link>https://www.rafaelstern.science/courses/intro_stat/aulas/01_dados/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>https://www.rafaelstern.science/courses/intro_stat/aulas/01_dados/</guid>
      <description>


&lt;div id=&#34;software-para-análise-de-dados.&#34; class=&#34;section level1&#34;&gt;
&lt;h1&gt;Software para análise de dados.&lt;/h1&gt;
&lt;ul&gt;
&lt;li&gt;&lt;p&gt;Neste curso, usarei o software &lt;strong&gt;R&lt;/strong&gt; para
realizar a análise de dados.&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;O &lt;strong&gt;R&lt;/strong&gt; pode ser baixado por exemplo,
&lt;a href=&#34;https://vps.fmvz.usp.br/CRAN/&#34;&gt;neste site&lt;/a&gt;.
&lt;strong&gt;Atenção&lt;/strong&gt;: No Windows, para instalar o R é necessário
rodar o instalador em modo administrador.&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;O software &lt;strong&gt;Rstudio&lt;/strong&gt; torna o uso do &lt;strong&gt;R&lt;/strong&gt;
ainda mais simples. O &lt;strong&gt;Rstudio&lt;/strong&gt; pode ser
baixado gratuitamente
&lt;a href=&#34;https://www.rstudio.com/products/rstudio/download/&#34;&gt;neste site&lt;/a&gt;.
&lt;strong&gt;Atenção&lt;/strong&gt;: Para instalar o &lt;strong&gt;RStudio&lt;/strong&gt;,
é necessário ter instalado antes o &lt;strong&gt;R&lt;/strong&gt;.&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;Mais informação sobre a instalação destes softwares
pode ser obtida &lt;a href=&#34;http://material.curso-r.com/instalacao/&#34;&gt;neste site&lt;/a&gt;.&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;Dúvidas sobre o &lt;strong&gt;R&lt;/strong&gt; poderão ser tiradas em classe.
Contudo, os primeiros passos para usar o &lt;strong&gt;R&lt;/strong&gt; podem ser
encontrados &lt;a href=&#34;http://material.curso-r.com/import/&#34;&gt;aqui&lt;/a&gt; e
&lt;a href=&#34;http://material.curso-r.com/rbase/&#34;&gt;aqui&lt;/a&gt;.
Referências mais avançadas estão
&lt;a href=&#34;http://r4ds.had.co.nz/&#34;&gt;aqui&lt;/a&gt; e
&lt;a href=&#34;https://adv-r.hadley.nz/&#34;&gt;aqui&lt;/a&gt;.&lt;/p&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;/div&gt;
&lt;div id=&#34;elementos-da-análise-estatística&#34; class=&#34;section level1&#34;&gt;
&lt;h1&gt;Elementos da análise estatística&lt;/h1&gt;
&lt;ul&gt;
&lt;li&gt;&lt;p&gt;A &lt;strong&gt;população&lt;/strong&gt; é um conjunto de elementos sobre os quais temos interesse.
Por exemplo, se considerarmos as eleições presidencias brasileiras,
a população é o conjunto de brasileiros com título de eleitor.&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;Para aprendermos sobre a população, é comum que observemos
as características de um subconjunto de seus elementos.
Este subconjunto é chamado de &lt;strong&gt;amostra&lt;/strong&gt;.
Cada elemento da amostra é chamado de &lt;strong&gt;unidade amostral&lt;/strong&gt;.
No exemplo da eleição, podemos entrevistar indivíduos
a respeito da sua intenção de voto.
Neste caso, a amostra é o conjunto de indivíduos entrevistados e
cada indivíduo entrevistado é uma unidade amostral.&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;Em estudos, observamos características de cada unidade amostral.
Chamamos estas características de &lt;strong&gt;variáveis&lt;/strong&gt;.
No exemplo da eleição, possíveis características seriam
a intenção de voto e o estado de domicílio de cada eleitor.&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;Um &lt;strong&gt;banco de dados&lt;/strong&gt; é uma estrutura em que
guardamos as observações das características de cada unidade amostral.&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;Um &lt;strong&gt;banco de dados Tidy (arrumado)&lt;/strong&gt; &lt;span class=&#34;citation&#34;&gt;(&lt;a href=&#34;#ref-Wickham2014&#34; role=&#34;doc-biblioref&#34;&gt;Wickham 2014&lt;/a&gt;)&lt;/span&gt;
é um banco de dados em formato de matriz em que
cada linha corresponde a uma unidade amostral,
cada coluna corresponde a uma variável, e
a posição na intersecção entre a linha “i”
e a coluna “j” corresponde à observação da variável “j” para
a unidade amostral “i”.
Como regra geral, anote todas as variáveis que
foram observadas para cada unidade amostral.
Em geral, é mais fácil remover uma variável inútil
do banco de dados do que adicionar
uma nova variável que foi esquecida.&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;Um &lt;strong&gt;dicionário&lt;/strong&gt; é um conjunto de verbetes e descrições que
indicam o significado de cada variável em um banco de dados e
os possíveis valores que esta variável pode assumir.
Como o experimentalista que coleta os dados e
os analista de dados podem ser pessoas diferentes,
o dicionário é uma ferramenta essencial para
facilitar a comunicação entre eles.&lt;/p&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;Atenção&lt;/strong&gt;: Para que um banco de dados seja útil,
aquele que o compila deve especificar de &lt;strong&gt;antemão&lt;/strong&gt;
os possíveis valores que cada variável pode assumir e
se ater a estes valores. Por exemplo, digamos que
uma variável seja o “número de bactérias observados na urina”.
Observações como “2”, “4” e “7” são números e
estão dentro das especificações.
Por outro lado, seria prejudicial anotar no banco de dados
“5, mas também observei uma estrutura que pode ou não ser uma bactéria adicional”.
A inserção de texto em uma variável que deveria ser um número
quebra padrões e torna muito mais difícil a análise do banco de dados.&lt;/p&gt;
&lt;div id=&#34;exemplo-de-elementos-da-análise-estatística&#34; class=&#34;section level2&#34;&gt;
&lt;h2&gt;Exemplo de elementos da análise estatística&lt;/h2&gt;
&lt;p&gt;Em 1936, Edgar Anderson coletou informações
sobre flores pertencentes a três espécies do gênero Iris
(&lt;em&gt;Iris setosa&lt;/em&gt;, &lt;em&gt;Iris virginica&lt;/em&gt; e &lt;em&gt;Iris versicolor&lt;/em&gt;).
Os dados estão disponíveis em &lt;span class=&#34;citation&#34;&gt;(&lt;a href=&#34;#ref-Anderson1936&#34; role=&#34;doc-biblioref&#34;&gt;Anderson 1936&lt;/a&gt;)&lt;/span&gt;.
Neste caso, consideramos como população
o conjunto de todas as flores de cada uma das três espécies.
A amostra é o conjunto de flores que
foram observadas e registradas por Anderson.
As variáveis anotadas foram o tamanho em centímetro das
sépalas e das pétalas das flores.
Observe, a seguir, uma representação Tidy das
primeiras 10 unidades amostrais no
banco de dados obtido por Anderson:&lt;/p&gt;
&lt;pre class=&#34;r&#34;&gt;&lt;code&gt;require(tidyverse)
data(iris)
iris = as_tibble(iris)
print(iris)&lt;/code&gt;&lt;/pre&gt;
&lt;pre&gt;&lt;code&gt;## # A tibble: 150 × 5
##    Sepal.Length Sepal.Width Petal.Length Petal.Width Species
##           &amp;lt;dbl&amp;gt;       &amp;lt;dbl&amp;gt;        &amp;lt;dbl&amp;gt;       &amp;lt;dbl&amp;gt; &amp;lt;fct&amp;gt;  
##  1          5.1         3.5          1.4         0.2 setosa 
##  2          4.9         3            1.4         0.2 setosa 
##  3          4.7         3.2          1.3         0.2 setosa 
##  4          4.6         3.1          1.5         0.2 setosa 
##  5          5           3.6          1.4         0.2 setosa 
##  6          5.4         3.9          1.7         0.4 setosa 
##  7          4.6         3.4          1.4         0.3 setosa 
##  8          5           3.4          1.5         0.2 setosa 
##  9          4.4         2.9          1.4         0.2 setosa 
## 10          4.9         3.1          1.5         0.1 setosa 
## # … with 140 more rows&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;Para complementar este banco dados, podemos
escrever um dicionário como:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;Sepal.length&lt;/strong&gt;: Comprimento em centímetros da sépala.&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Sepal.width&lt;/strong&gt;: Largura em centímetro da sépala.&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Petal.length&lt;/strong&gt;: Comprimento em centímetros da pétala.&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Sepal.width&lt;/strong&gt;: Largura em centímetro da pétala.&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Species&lt;/strong&gt;: Espécie da unidade amostral.
Pode assumir os valores “setosa”, “versicolor” ou “virginica”.&lt;/li&gt;
&lt;/ul&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;div id=&#34;tipos-de-variáveis&#34; class=&#34;section level1&#34;&gt;
&lt;h1&gt;Tipos de variáveis&lt;/h1&gt;
&lt;p&gt;É comum dividirmos as variáveis em 4 categorias.
Estas categorias são úteis para entendermos que
tipos de análise podemos fazer em cada variável.
Para construir estas categorias, primeiramente
dividimos as variáveis em &lt;strong&gt;qualitativas&lt;/strong&gt; ou &lt;strong&gt;quantitativas&lt;/strong&gt;.
Enquanto variáveis quantitativas são números,
variáveis qualitativas não o são.
Por exemplo, peso é uma variável quantitativa e
fruta favorita é uma variável qualitativa.&lt;/p&gt;
&lt;p&gt;Por sua vez, as variáveis qualitativas e quantitativas
podem ser divididas em categorias mais finas.
Variáveis qualitativas podem ser
&lt;strong&gt;nominais&lt;/strong&gt; ou &lt;strong&gt;ordinais&lt;/strong&gt;.&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;p&gt;Variáveis &lt;strong&gt;nominais&lt;/strong&gt;:
Assumem como valores nomes próprios,
não havendo estrutura entre
os possíveis valores assumidos por elas.
Por exemplo, fruta favorita entre
“manga”, “goiaba” e “pera” é
uma variável nominal.&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;Variáveis &lt;strong&gt;ordinais&lt;/strong&gt;:
Existe uma ordem entre os possíveis valores assumidos
por estas variáveis.
Por exemplo, em uma pesquisa de satisfação,
clientes podem escolher entre as categorias:
“insatisfeito”, “satisfeito” e “muito satisfeito”.
Existe uma ordem entre estes valores, dado que
“insatisfeito” é menos satisfeito que “satisfeito” que,
por sua vez, é menos satisfeito que “muito satisfeito”.&lt;/p&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Variáveis quantitativas podem ser dividas em
&lt;strong&gt;discretas&lt;/strong&gt; ou &lt;strong&gt;contínuas&lt;/strong&gt;:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;p&gt;Variáveis &lt;strong&gt;contínuas&lt;/strong&gt;:
Assumem como valores números tal que,
entre dois possíveis valores,
sempre é possível observar um outro.
Um típico exemplo é o “peso”.
Por exemplo, é possível observar um peso
de 1kg e de 2kg. Entre esses dois valores,
há o valor de 1.5kg. Por sua vez,
entre 1kg e 1.5kg há 1.25kg,
e assim por diante.&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;Variáveis &lt;strong&gt;discretas&lt;/strong&gt;:
São variáveis que não são contínuas.
Por exemplo,
o número de bactérias em uma substância
pode assumir os valores “0”, “1”, “2”, etc.
Não há nenhum possível valor entre “0” e “1”
ou entre “1” e “2”. Assim,
esta variável é discreta.&lt;/p&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Estas categorias nem sempre são óbvias e
podem depender do uso que é
dado para cada variável. Por exemplo,
ainda que seja comum considerarmos peso
como uma variável contínua, o
instrumento de medição pode
observar apenas um número finito de algarismos.
Assim, pode fazer sentido considerar
o peso como variável discreta.
Mesmo assim, é mais comum considerarmos o
peso como variável contínua, pois
esta abstração é útil.&lt;/p&gt;
&lt;/div&gt;
&lt;div id=&#34;exercícios&#34; class=&#34;section level1&#34;&gt;
&lt;h1&gt;Exercícios&lt;/h1&gt;
&lt;ol style=&#34;list-style-type: decimal&#34;&gt;
&lt;li&gt;&lt;p&gt;No banco de dados de flores de Anderson,
classifique o tipo de cada uma das variáveis.&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;Dentre uma população de alunos, observamos as
seguintes variáveis: intenção de voto nas eleições de 2018,
altura, peso, número de matrícula, filme favorito,
endereço de residência, coordenadas GPS do endereço de residência,
média final nas matéria do semestre passado,
data de nascimento e grau de satisfação com cursos realizados.
Classifique cada uma das variáveis de acordo com seu tipo.&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;O banco de dados a seguir está “Tidy”? Por quê?&lt;/p&gt;&lt;/li&gt;
&lt;/ol&gt;
&lt;pre class=&#34;r&#34;&gt;&lt;code&gt;db = tibble(pais = c(&amp;quot;Brasil&amp;quot;, &amp;quot;Brasil&amp;quot;, &amp;quot;Canada&amp;quot;, &amp;quot;Canada&amp;quot;),
            tipo = c(&amp;quot;populacao&amp;quot;, &amp;quot;territorio&amp;quot;, &amp;quot;populacao&amp;quot;, &amp;quot;territorio&amp;quot;),
            valor = c(207.7, 8.514, 36.2, 9.984))
print(db)&lt;/code&gt;&lt;/pre&gt;
&lt;pre&gt;&lt;code&gt;## # A tibble: 4 × 3
##   pais   tipo        valor
##   &amp;lt;chr&amp;gt;  &amp;lt;chr&amp;gt;       &amp;lt;dbl&amp;gt;
## 1 Brasil populacao  208.  
## 2 Brasil territorio   8.51
## 3 Canada populacao   36.2 
## 4 Canada territorio   9.98&lt;/code&gt;&lt;/pre&gt;
&lt;/div&gt;
&lt;div id=&#34;referências&#34; class=&#34;section level1 unnumbered&#34;&gt;
&lt;h1&gt;Referências&lt;/h1&gt;
&lt;div id=&#34;refs&#34; class=&#34;references csl-bib-body hanging-indent&#34;&gt;
&lt;div id=&#34;ref-Anderson1936&#34; class=&#34;csl-entry&#34;&gt;
Anderson, Edgar. 1936. &lt;span&gt;“The Species Problem in Iris.”&lt;/span&gt; &lt;em&gt;Annals of the Missouri Botanical Garden&lt;/em&gt; 23 (3): 457–509.
&lt;/div&gt;
&lt;div id=&#34;ref-Wickham2014&#34; class=&#34;csl-entry&#34;&gt;
Wickham, Hadley. 2014. &lt;span&gt;“Tidy Data.”&lt;/span&gt; &lt;em&gt;Journal of Statistical Software&lt;/em&gt; 59 (10): 1–23.
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
</description>
    </item>
    
    <item>
      <title>Medidas Resumo</title>
      <link>https://www.rafaelstern.science/courses/intro_stat/aulas/02_resumo/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>https://www.rafaelstern.science/courses/intro_stat/aulas/02_resumo/</guid>
      <description>


&lt;div id=&#34;medidas-resumo&#34; class=&#34;section level1&#34;&gt;
&lt;h1&gt;Medidas resumo&lt;/h1&gt;
&lt;p&gt;Os resultados de um experimento geralmente apresentam variabilidade.
Esta variabilidade pode acontecer, por exemplo,
por falta de controle nas condições experimentais ou
por erros de medição.
Assim, se obtivermos um número elevado de observações,
pode ser difícil obter informações relevantes
meramente olhando para o banco de dados.
Por exemplo, os números a seguir são
os comprimento das pétalas nas 150 observações
do banco de dados &lt;em&gt;Iris&lt;/em&gt; &lt;span class=&#34;citation&#34;&gt;(&lt;a href=&#34;#ref-Anderson1936&#34; role=&#34;doc-biblioref&#34;&gt;Anderson 1936&lt;/a&gt;)&lt;/span&gt;.
O que você consegue observar?&lt;/p&gt;
&lt;pre class=&#34;r&#34;&gt;&lt;code&gt; data(iris)
 print(iris$Petal.Length)&lt;/code&gt;&lt;/pre&gt;
&lt;pre&gt;&lt;code&gt;##   [1] 1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 1.5 1.6 1.4 1.1 1.2 1.5 1.3 1.4
##  [19] 1.7 1.5 1.7 1.5 1.0 1.7 1.9 1.6 1.6 1.5 1.4 1.6 1.6 1.5 1.5 1.4 1.5 1.2
##  [37] 1.3 1.4 1.3 1.5 1.3 1.3 1.3 1.6 1.9 1.4 1.6 1.4 1.5 1.4 4.7 4.5 4.9 4.0
##  [55] 4.6 4.5 4.7 3.3 4.6 3.9 3.5 4.2 4.0 4.7 3.6 4.4 4.5 4.1 4.5 3.9 4.8 4.0
##  [73] 4.9 4.7 4.3 4.4 4.8 5.0 4.5 3.5 3.8 3.7 3.9 5.1 4.5 4.5 4.7 4.4 4.1 4.0
##  [91] 4.4 4.6 4.0 3.3 4.2 4.2 4.2 4.3 3.0 4.1 6.0 5.1 5.9 5.6 5.8 6.6 4.5 6.3
## [109] 5.8 6.1 5.1 5.3 5.5 5.0 5.1 5.3 5.5 6.7 6.9 5.0 5.7 4.9 6.7 4.9 5.7 6.0
## [127] 4.8 4.9 5.6 5.8 6.1 6.4 5.6 5.1 5.6 6.1 5.6 5.5 4.8 5.4 5.6 5.1 5.1 5.9
## [145] 5.7 5.2 5.0 5.2 5.4 5.1&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;Ao invés da inspeção direta de uma variável,
podemos resumí-la em números que
expressam algumas de suas características.
A seguir, estudaremos algumas destas
medidas de resumo.&lt;/p&gt;
&lt;div id=&#34;medidas-de-centralidade&#34; class=&#34;section level2&#34;&gt;
&lt;h2&gt;Medidas de centralidade&lt;/h2&gt;
&lt;p&gt;Uma medida de centralidade descreve um número ao
redor dos quais as observações se concentram.
Ela expressa um valor ``típico’’ nas observações
para uma determinada variável.
Existem várias possíveis medidas de centralidade,
algumas das quais veremos a seguir.&lt;/p&gt;
&lt;div id=&#34;média&#34; class=&#34;section level3&#34;&gt;
&lt;h3&gt;Média&lt;/h3&gt;
&lt;p&gt;A &lt;strong&gt;média&lt;/strong&gt; de uma variável,
comumente designada por &lt;span class=&#34;math inline&#34;&gt;\(\bar{X}\)&lt;/span&gt;,
é obtida somando
todas as observações desta e
dividindo o resultado pelo
número total de observações.
Este procedimento é sintetizado
da seguinte forma:&lt;/p&gt;
&lt;p&gt;&lt;span class=&#34;math display&#34;&gt;\[
\bar{X} = \frac{\sum_{i=1}^{n}{X_i}}{n} = \frac{X_1 + \ldots + X_n}{n}
\]&lt;/span&gt;
Nesta expressão, o termo
&lt;span class=&#34;math inline&#34;&gt;\(\sum_{i=1}^{n}{X_i}\)&lt;/span&gt; é traduzido como
“em &lt;span class=&#34;math inline&#34;&gt;\(X_i\)&lt;/span&gt; substituta &lt;span class=&#34;math inline&#34;&gt;\(i\)&lt;/span&gt; por
todos os números entre &lt;span class=&#34;math inline&#34;&gt;\(1\)&lt;/span&gt; e &lt;span class=&#34;math inline&#34;&gt;\(n\)&lt;/span&gt; e
some os valores encontrados”.
Em particular, o símbolo “&lt;span class=&#34;math inline&#34;&gt;\(\sum\)&lt;/span&gt;” é
chamado de somatória.&lt;/p&gt;
&lt;p&gt;No &lt;strong&gt;R&lt;/strong&gt;, a média pode ser calculada
usando o comando &lt;em&gt;mean()&lt;/em&gt;.
Por exemplo, a média do comprimento de pétalas
para a amostra de flores do gênero iris
pode ser calculada da seguinte forma:&lt;/p&gt;
&lt;pre class=&#34;r&#34;&gt;&lt;code&gt;mean(iris$Petal.Length)&lt;/code&gt;&lt;/pre&gt;
&lt;pre&gt;&lt;code&gt;## [1] 3.758&lt;/code&gt;&lt;/pre&gt;
&lt;/div&gt;
&lt;div id=&#34;mediana&#34; class=&#34;section level3&#34;&gt;
&lt;h3&gt;Mediana&lt;/h3&gt;
&lt;p&gt;A &lt;strong&gt;mediana&lt;/strong&gt; de uma variável é
um número tal que há o mesmo número de
observações maiores e menores do que ele.
No &lt;strong&gt;R&lt;/strong&gt;, a mediana é
calculada pela função &lt;em&gt;median()&lt;/em&gt;.&lt;/p&gt;
&lt;pre class=&#34;r&#34;&gt;&lt;code&gt;median(iris$Petal.Length)&lt;/code&gt;&lt;/pre&gt;
&lt;pre&gt;&lt;code&gt;## [1] 4.35&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;A mediana é menos afetada por valores extremos
do que a média. Por isso, é comum dizer que
a mediana é uma medida &lt;strong&gt;robusta&lt;/strong&gt;.
Este conceito é ilustrado a seguir.&lt;/p&gt;
&lt;pre class=&#34;r&#34;&gt;&lt;code&gt; dados = c(0, 0.1, 0.1, 0.2, 0.25, 0.5, 0.7, 0.9, 1.1, 10000)
 c(mean(dados), median(dados))&lt;/code&gt;&lt;/pre&gt;
&lt;pre&gt;&lt;code&gt;## [1] 1000.385    0.375&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;Observamos que, dos 10 dados,
9 estão concentrados próximo a 0 e
1 tem o valor 10.000.
Enquanto que a média de aproximadamente 1.000
é afetada pelo valor extremo,
a mediana de 0.375 não o é.
É comum chamarmos observações atípicas,
como o valor 10.000 neste caso,
de &lt;strong&gt;outliers&lt;/strong&gt;.&lt;/p&gt;
&lt;p&gt;&lt;em&gt;Observação&lt;/em&gt;: Note que como no exemplo acima
existe um número par de dados,
a mediana foi tomada como a média entre
0.25 e 0.5, as observações 5 e 6
em ordem crescente.&lt;/p&gt;
&lt;/div&gt;
&lt;div id=&#34;moda&#34; class=&#34;section level3&#34;&gt;
&lt;h3&gt;Moda&lt;/h3&gt;
&lt;p&gt;A &lt;strong&gt;moda&lt;/strong&gt; é o valor mais frequente observado nos dados.
Como em variáveis contínuas tipicamente
não observamos valores repetidos,
a moda não é usado nestes casos.
Por outro lado, dentre média, mediana e moda,
a moda é a única medida resumo que pode ser
aplicada a variáveis nominais.
Considere que observamos os dados:
azul, azul, azul, vermelho, verde, verde.
Observamos as cores azul, vermelho e verde
respectivamente, 3, 1 e 2 vezes.
Portanto, a cor azul é a mais frequente,
sendo a moda desta variável.&lt;/p&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;div id=&#34;medidas-de-variabilidade&#34; class=&#34;section level2&#34;&gt;
&lt;h2&gt;Medidas de variabilidade&lt;/h2&gt;
&lt;p&gt;Medidas de variabilidade indicam
o quanto as observações variam ao
redor da medida de centralidade.
Em outras palavras, indicam
o quão longe podemos esperar que
uma observação esteja do valor
típico para aquela variável.
Existem diversas medidas de variabilidade,
algumas das quais apresentamos a seguir.&lt;/p&gt;
&lt;div id=&#34;amplitude&#34; class=&#34;section level3&#34;&gt;
&lt;h3&gt;Amplitude&lt;/h3&gt;
&lt;p&gt;A amplitude é a diferença entre
o maior e o menor valor observado.
Esta medida de variabilidade é
fortemente influenciada por valores extremos
nas observações, como outliers.
O exemplo a seguir calcula a amplitude
do comprimento das sépalas no
banco de dados &lt;em&gt;iris&lt;/em&gt;.&lt;/p&gt;
&lt;pre class=&#34;r&#34;&gt;&lt;code&gt; max(iris$Sepal.Length) - min(iris$Sepal.Length)&lt;/code&gt;&lt;/pre&gt;
&lt;pre&gt;&lt;code&gt;## [1] 3.6&lt;/code&gt;&lt;/pre&gt;
&lt;/div&gt;
&lt;div id=&#34;variância-e-desvio-padrão&#34; class=&#34;section level3&#34;&gt;
&lt;h3&gt;Variância e desvio padrão&lt;/h3&gt;
&lt;p&gt;Intuitivamente, podemos imaginar uma
medida de variabilidade que calcule
a média do quanto os dados desviam do centro.
Se tomarmos como centro das observações a média,
então podemos pensar no desvio da i-ésima observação
como &lt;span class=&#34;math inline&#34;&gt;\(D_i = X_i-\bar{X}\)&lt;/span&gt;.
Contudo, esta medida de desvio apresenta um problema.
Por exemplo, considere os dados: 0, 10, 20.
A média das observações é 10 e os desvios são: -10, 0, 10.
Assim, se tomarmos a média dos desvios obteremos o valor 0.
O problema é que, ainda que o desvio de 0 e 20 sejam -10 e 10,
estas observações estão igualmente distantes da média.
Para corrigir este problema,
podemos tomar a média dos desvios ao quadrado, isto é,
a média de &lt;span class=&#34;math inline&#34;&gt;\(D_i^2 = (X_i-\bar{X})^2\)&lt;/span&gt;.
No exemplo apresentado, os desvios ao quadrado são 100, 0 e 100
e a média destes valores é &lt;span class=&#34;math inline&#34;&gt;\(\frac{200}{3}\)&lt;/span&gt;.
Neste caso, as observações -10 e 10 contribuem igualmente
para a variabilidade dos dados em relação à média.
Formalmente a &lt;strong&gt;variância&lt;/strong&gt;, &lt;span class=&#34;math inline&#34;&gt;\(S^2\)&lt;/span&gt;, é definida como:&lt;/p&gt;
&lt;p&gt;&lt;span class=&#34;math display&#34;&gt;\[
S^2 = \frac{\sum_{i=1}^{n}{(X_i-\bar{X})^2}}{n}
\]&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;Note que a variância não está na mesma escala das observações.
Quando os desvios são elevados ao quadrado,
a unidade de medida é alterada para o quadrado
da unidade de medida original.
Assim, para obter uma medida mais interpretável
de varibilidade, é comum tomar
a raiz quadrada da variância.
Esta medida é chamada de desvio padrão, &lt;span class=&#34;math inline&#34;&gt;\(S\)&lt;/span&gt;,
e é definida como:&lt;/p&gt;
&lt;p&gt;&lt;span class=&#34;math display&#34;&gt;\[
S = \sqrt{S^2}
\]&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;A variância e o desvio padrão
para o comprimento das sépalas
é calculado no &lt;strong&gt;R&lt;/strong&gt; da seguinte forma:&lt;/p&gt;
&lt;pre class=&#34;r&#34;&gt;&lt;code&gt;c(var(iris$Sepal.Length), sd(iris$Sepal.Length))&lt;/code&gt;&lt;/pre&gt;
&lt;pre&gt;&lt;code&gt;## [1] 0.6856935 0.8280661&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;Para muitos tipos de dado, é comum que
as observações se concentrem num intervalo de
2 desvios padrão para cada lado da média.
Isto é, é comum que a maior parte das observações
esteja no intervalo &lt;span class=&#34;math inline&#34;&gt;\([\bar{X}-2S,\bar{X}+2S]\)&lt;/span&gt;.
Neste sentido, este intervalo indica a faixa
de observações tipicamente observadas.
A formalização deste raciocínio será estudada
em aulas futuras.
No exemplo do comprimento das sépalas,
obtemos o intervalo &lt;span class=&#34;math inline&#34;&gt;\([2.7,6.0]\)&lt;/span&gt;.&lt;/p&gt;
&lt;/div&gt;
&lt;div id=&#34;intervalo-interquartílico&#34; class=&#34;section level3&#34;&gt;
&lt;h3&gt;Intervalo interquartílico&lt;/h3&gt;
&lt;p&gt;O percentil de ordem &lt;span class=&#34;math inline&#34;&gt;\(p\)&lt;/span&gt; de uma variável
é um número tal que a quantidade de observações
menores e maiores do que este número segue
a proporção &lt;span class=&#34;math inline&#34;&gt;\(p\)&lt;/span&gt; e &lt;span class=&#34;math inline&#34;&gt;\(1-p\)&lt;/span&gt;.
Por exemplo, a mediana é o percentil de ordem &lt;span class=&#34;math inline&#34;&gt;\(0.5\)&lt;/span&gt;.
Dada a sua importância,
os percentis de ordem 0.25, 0.5 e 0.75
também são chamados de
&lt;span class=&#34;math inline&#34;&gt;\(1^o\)&lt;/span&gt;, &lt;span class=&#34;math inline&#34;&gt;\(2^o\)&lt;/span&gt; e &lt;span class=&#34;math inline&#34;&gt;\(3^o\)&lt;/span&gt; quartis.
No &lt;strong&gt;R&lt;/strong&gt;, é possível obter o percentil de ordem &lt;span class=&#34;math inline&#34;&gt;\(p\)&lt;/span&gt;
usando o comando &lt;em&gt;quantile(dados, p)&lt;/em&gt;.
Este comando para os percentis de ordem
0.25, 0.5 e 0.75 para o comprimento de sépalas
é ilustrado a seguir:&lt;/p&gt;
&lt;pre class=&#34;r&#34;&gt;&lt;code&gt;quantile(iris$Sepal.Length, c(0.25, 0.5, 0.75))&lt;/code&gt;&lt;/pre&gt;
&lt;pre&gt;&lt;code&gt;## 25% 50% 75% 
## 5.1 5.8 6.4&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;Por construção, aproximadamente metade dos dados estão
entre o &lt;span class=&#34;math inline&#34;&gt;\(1^o\)&lt;/span&gt; e o &lt;span class=&#34;math inline&#34;&gt;\(3^o\)&lt;/span&gt; quartil, isto é,
este também pode ser interpretado como
um intervalo de valores tipicamente assumidos pelas observações.
Por exemplo, no caso do comprimento das sépalas,
obtemos o intervalo &lt;span class=&#34;math inline&#34;&gt;\([5.1, 6.4]\)&lt;/span&gt;.&lt;/p&gt;
&lt;p&gt;Alternativamente, podemos construir um
intervalo mais conservador exigindo que, por exemplo,
&lt;span class=&#34;math inline&#34;&gt;\(95%\)&lt;/span&gt; das observações estejam dentro dele.
Este intervalo é obtido tomando os valores entre
o percentil &lt;span class=&#34;math inline&#34;&gt;\(0.025\)&lt;/span&gt; e &lt;span class=&#34;math inline&#34;&gt;\(0.975\)&lt;/span&gt;.
No caso do comprimento das sépalas, obtemos o intervalo:&lt;/p&gt;
&lt;pre class=&#34;r&#34;&gt;&lt;code&gt;quantile(iris$Sepal.Length, c(0.025, 0.975))&lt;/code&gt;&lt;/pre&gt;
&lt;pre&gt;&lt;code&gt;##   2.5%  97.5% 
## 4.4725 7.7000&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;O tamanho da região em que as observações tipicamente caem
é uma medida alternativa de variabilidade.
Especificamente, a subtraindo o &lt;span class=&#34;math inline&#34;&gt;\(1^o\)&lt;/span&gt; quartil
do &lt;span class=&#34;math inline&#34;&gt;\(3^o\)&lt;/span&gt; quartil obtém-se a medida chamada de
&lt;strong&gt;intervalo interquartílico&lt;/strong&gt;.
No caso do comprimento das sépalas,
o intervalo interquartílico é
&lt;span class=&#34;math inline&#34;&gt;\(6.4-5.1=1.3\)&lt;/span&gt;.&lt;/p&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;div id=&#34;resumo-de-observações-no-r&#34; class=&#34;section level2&#34;&gt;
&lt;h2&gt;Resumo de observações no R&lt;/h2&gt;
&lt;p&gt;No R, é possível obter diversas
medidas resumo usando a função &lt;em&gt;summary()&lt;/em&gt;.
Por exemplo, no caso do comprimento de sépalas,
obtemos:&lt;/p&gt;
&lt;pre class=&#34;r&#34;&gt;&lt;code&gt;summary(iris$Sepal.Length)&lt;/code&gt;&lt;/pre&gt;
&lt;pre&gt;&lt;code&gt;##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   4.300   5.100   5.800   5.843   6.400   7.900&lt;/code&gt;&lt;/pre&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;div id=&#34;exercícios&#34; class=&#34;section level1&#34;&gt;
&lt;h1&gt;Exercícios&lt;/h1&gt;
&lt;ol style=&#34;list-style-type: decimal&#34;&gt;
&lt;li&gt;&lt;p&gt;No banco de dados &lt;em&gt;iris&lt;/em&gt;, calcule medidas resumo
para o comprimento e largura das pétalas e para
a largura das sépalas.&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;Na definição da variância, usamos
a média dos desvios quadrado. Esta é
uma possível maneira de fazer com que
desvios negativos e positivos fossem tratados como iguais.
Você consegue pensar em outra forma
de eliminar o sinal do desvio que
não elevando-o ao quadrado?&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;Para cada espécie no banco de dados &lt;em&gt;iris&lt;/em&gt;,
obtenha uma medida de centralidade e
uma de variabilidade para o comprimento das sépalas.&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;O comprimento das sépalas da espécie
&lt;em&gt;Iris setosa&lt;/em&gt; é consideravelmente menor que
o da espécie &lt;em&gt;Iris versicolor&lt;/em&gt; que, por sua vez,
é menor do que o da espécie &lt;em&gt;Iris virginica&lt;/em&gt;.
Considere que em um banco de dados temos
&lt;span class=&#34;math inline&#34;&gt;\(150\)&lt;/span&gt; flores da espécie &lt;em&gt;Iris setosa&lt;/em&gt; e, em outro,
temos 50 exemplares de cada espécie.
Qual banco de dados terá maior variabilidade
em relação ao comprimento das sépalas?&lt;/p&gt;&lt;/li&gt;
&lt;/ol&gt;
&lt;/div&gt;
&lt;div id=&#34;referências&#34; class=&#34;section level1 unnumbered&#34;&gt;
&lt;h1&gt;Referências&lt;/h1&gt;
&lt;div id=&#34;refs&#34; class=&#34;references csl-bib-body hanging-indent&#34;&gt;
&lt;div id=&#34;ref-Anderson1936&#34; class=&#34;csl-entry&#34;&gt;
Anderson, Edgar. 1936. &lt;span&gt;“The Species Problem in Iris.”&lt;/span&gt; &lt;em&gt;Annals of the Missouri Botanical Garden&lt;/em&gt; 23 (3): 457–509.
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
</description>
    </item>
    
    <item>
      <title>Visualização de Dados</title>
      <link>https://www.rafaelstern.science/courses/intro_stat/aulas/03_visualizacao/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>https://www.rafaelstern.science/courses/intro_stat/aulas/03_visualizacao/</guid>
      <description>


&lt;div id=&#34;visualização-de-dados&#34; class=&#34;section level1&#34;&gt;
&lt;h1&gt;Visualização de dados&lt;/h1&gt;
&lt;p&gt;Além da apresentação de medidas resumo,
também é possível resumir a informação
nos dados por meio de gráficos.
A seguir, discutimos alguns dos
principais gráficos usados.
Para ilustrar estes gráficos,
usaremos o banco de dados &lt;em&gt;iris&lt;/em&gt; e
o banco de dados &lt;em&gt;adubo&lt;/em&gt;.&lt;/p&gt;
&lt;pre class=&#34;r&#34;&gt;&lt;code&gt;library(tidyverse)
data(iris)
adubo = read.csv(&amp;quot;./data/adubo.csv&amp;quot;)

iris = as.tibble(iris)
adubo = as.tibble(adubo)
adubo$nitrato = as.factor(adubo$nitrato)
adubo$fosfato = as.factor(adubo$fosfato)&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;&lt;em&gt;Observação&lt;/em&gt;: No &lt;strong&gt;R&lt;/strong&gt;, em geral
existem muitas opções para
gerar o mesmo gráfico. A seguir,
mostraremos como gerar gráficos simples
usando as funções de base do &lt;strong&gt;R&lt;/strong&gt; e,
também, gráficos mais elegantes,
usando o pacote &lt;em&gt;ggplot2&lt;/em&gt;.
Mais informações sobre este pacote estão
disponíveis &lt;a href=&#34;http://material.curso-r.com/ggplot/&#34;&gt;aqui&lt;/a&gt;.&lt;/p&gt;
&lt;div id=&#34;visualizando-uma-variável&#34; class=&#34;section level2&#34;&gt;
&lt;h2&gt;Visualizando uma variável&lt;/h2&gt;
&lt;div id=&#34;strip-chart&#34; class=&#34;section level3&#34;&gt;
&lt;h3&gt;Strip chart&lt;/h3&gt;
&lt;p&gt;O &lt;strong&gt;strip chart&lt;/strong&gt; é um gráfico para uma variável
que é representado em um único eixo e é tal que,
cada ponto corresponde ao valor de uma observação.
Ainda que para poucas observações este gráfico
possa ser informativo, quando
há muitas observações ele é de difícil interpretação.&lt;/p&gt;
&lt;p&gt;No &lt;strong&gt;R&lt;/strong&gt;, o strip chart pode ser obtido
pelo comando &lt;em&gt;stripchart()&lt;/em&gt;.
Por exemplo, no banco de dados de adubos, obtemos:&lt;/p&gt;
&lt;pre class=&#34;r&#34;&gt;&lt;code&gt;stripchart(adubo$efeito, xlab=&amp;quot;efeito&amp;quot;)&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;&lt;img src=&#34;https://www.rafaelstern.science/courses/intro_stat/03_visualizacao_files/figure-html/unnamed-chunk-2-1.png&#34; width=&#34;672&#34; /&gt;&lt;/p&gt;
&lt;p&gt;Por exemplo, note que
enquanto que 7 das 20 observações,
estão concentradas próximo a 1.5,
as outras 13 estão
dispersas ao redor de 5.
O gráfico levanta uma pergunta:
O que nestas 7 observações faz com
que o efeito da adubação nelas
seja tão menor do que
o nas demais observações?&lt;/p&gt;
&lt;p&gt;A utilidade do strip chart diminui
muito quando existem muitos observações,
uma vez que é difícil extrair informação quando
há muitos pontos agrupados.
A seguir, note como é difícil
interpretar um strip chart produzido
com 10.000 observações:&lt;/p&gt;
&lt;pre class=&#34;r&#34;&gt;&lt;code&gt;normais = rnorm(10000)
stripchart(normais)&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;&lt;img src=&#34;https://www.rafaelstern.science/courses/intro_stat/03_visualizacao_files/figure-html/unnamed-chunk-3-1.png&#34; width=&#34;672&#34; /&gt;&lt;/p&gt;
&lt;p&gt;Em casos como o acima, é
necessário resumir
as observações para obter informação.&lt;/p&gt;
&lt;/div&gt;
&lt;div id=&#34;bar-plot-e-histograma&#34; class=&#34;section level3&#34;&gt;
&lt;h3&gt;Bar plot e histograma&lt;/h3&gt;
&lt;p&gt;O &lt;strong&gt;bar plot&lt;/strong&gt; e o &lt;strong&gt;histograma&lt;/strong&gt;
são gráficos que resumem uma variável mais
do que o strip chart.
Ao invés de apresentarem um ponto para cada observação,
estes gráficos indicam a frequência com que
cada valor ocorre para uma variável.&lt;/p&gt;
&lt;p&gt;O bar plot é usado para variáveis
qualitativas e quantitativas discretas.
Ele indica a contagem com que
cada valor ocorre para esta variável.
Para criar um barplot no &lt;strong&gt;R&lt;/strong&gt;,
utilizamos primeiramente o comando &lt;em&gt;table()&lt;/em&gt;,
que conta o número de ocorrências para cada observação.
A seguir, a saída do comando table é
usada no comando &lt;em&gt;barplot()&lt;/em&gt;, que exibe o gráfico.
Esta sequência é ilustrada para as espécies
do banco de dados iris, a seguir:&lt;/p&gt;
&lt;pre class=&#34;r&#34;&gt;&lt;code&gt;contagens = table(iris$Species)
contagens&lt;/code&gt;&lt;/pre&gt;
&lt;pre&gt;&lt;code&gt;## 
##     setosa versicolor  virginica 
##         50         50         50&lt;/code&gt;&lt;/pre&gt;
&lt;pre class=&#34;r&#34;&gt;&lt;code&gt;barplot(contagens, xlab = &amp;quot;espécie&amp;quot;, ylab = &amp;quot;contagem&amp;quot;)&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;&lt;img src=&#34;https://www.rafaelstern.science/courses/intro_stat/03_visualizacao_files/figure-html/unnamed-chunk-4-1.png&#34; width=&#34;672&#34; /&gt;&lt;/p&gt;
&lt;p&gt;Por sua vez, o histograma é
usado para variáveis quantitativas contínuas.
Nestas variáveis, não esperamos encontrar
duas observações que assumem o mesmo valor.
Assim, o bar plot é pouco informativo.
Uma alternativa é dividir os possíveis valores
em faixas e contar a quantidade de observações
em cada uma destas faixas.
O gráfico que indica estas faixas
se chama histograma.
Este gráfico pode ser obtido no &lt;strong&gt;R&lt;/strong&gt;
pelo comando &lt;em&gt;hist()&lt;/em&gt;,
conforme ilustrado a seguir:&lt;/p&gt;
&lt;pre class=&#34;r&#34;&gt;&lt;code&gt;hist(normais, xlab=&amp;quot;valores&amp;quot;, ylab=&amp;quot;contagem&amp;quot;)&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;&lt;img src=&#34;https://www.rafaelstern.science/courses/intro_stat/03_visualizacao_files/figure-html/unnamed-chunk-5-1.png&#34; width=&#34;672&#34; /&gt;&lt;/p&gt;
&lt;p&gt;Lembre que as 10.000 observações acima
foram usadas para ilustrar as
limitações do strip chart.
Ao contrário do strip chart,
o histograma evidencia que
as observações estão concentradas
em torno de 0.&lt;/p&gt;
&lt;p&gt;Às vezes o formato de ``degraus’’
presente no histograma pode ser indesejável.
Neste caso, podemos exibir um gráfico de densidade,
que cria uma curva continua que suaviza
os degraus do histograma.
Uma das vantegens desta curva é
eliminar do histograma os vãos que
são gerados por faixas sem observações.
A curva de densidade para 10.000 observações
é apresentada em vermelha e sobreposta
ao histograma para estas observações
na figura a seguir:&lt;/p&gt;
&lt;pre class=&#34;r&#34;&gt;&lt;code&gt;dados = data.frame(var1 = normais)
ggplot(aes(x = var1), 
       data = dados) + 
geom_histogram(aes(y=..density..)) +
geom_density(color=&amp;quot;red&amp;quot;) +
xlab(&amp;quot;valores&amp;quot;) + ylab(&amp;quot;densidade&amp;quot;)&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;&lt;img src=&#34;https://www.rafaelstern.science/courses/intro_stat/03_visualizacao_files/figure-html/unnamed-chunk-6-1.png&#34; width=&#34;672&#34; /&gt;&lt;/p&gt;
&lt;p&gt;Às vezes, o histograma também não
resume suficientemente as observações.
Por exemplo, a figura abaixo apresenta
histogramas de efeito para
adubos com e sem nitrato.
Como existe muita justaposição entre
os histogramas é difícil
comparar o efeito de cada adubo.&lt;/p&gt;
&lt;pre class=&#34;r&#34;&gt;&lt;code&gt;ggplot(aes(x =  efeito, color = nitrato),
       data = adubo) +
geom_histogram()&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;&lt;img src=&#34;https://www.rafaelstern.science/courses/intro_stat/03_visualizacao_files/figure-html/unnamed-chunk-7-1.png&#34; width=&#34;672&#34; /&gt;&lt;/p&gt;
&lt;p&gt;Para resolver este problema,
veremos a seguir um gráfico que
resume as observações ainda mais
que o histograma.&lt;/p&gt;
&lt;/div&gt;
&lt;div id=&#34;box-plot&#34; class=&#34;section level3&#34;&gt;
&lt;h3&gt;Box plot&lt;/h3&gt;
&lt;p&gt;Um &lt;strong&gt;box plot&lt;/strong&gt; &lt;span class=&#34;citation&#34;&gt;(&lt;a href=&#34;#ref-Tukey1977&#34; role=&#34;doc-biblioref&#34;&gt;Tukey 1977&lt;/a&gt;)&lt;/span&gt; é
um gráfico para visualizar
uma única variável que
consiste em apresentar visualmente
5 medidas resumo.
Antes de descrever estas medidas,
é útil visualizar um boxplot.
A seguir, obtemos no &lt;strong&gt;R&lt;/strong&gt; um
box plot para o comprimento das
sépalas no banco de dados &lt;em&gt;iris&lt;/em&gt;:&lt;/p&gt;
&lt;pre class=&#34;r&#34;&gt;&lt;code&gt;boxplot(iris$Sepal.Length, ylab = &amp;quot;Comprimento da sépala&amp;quot;)&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;&lt;img src=&#34;https://www.rafaelstern.science/courses/intro_stat/03_visualizacao_files/figure-html/unnamed-chunk-8-1.png&#34; width=&#34;672&#34; /&gt;&lt;/p&gt;
&lt;p&gt;O box plot contém 5 traços principais.
O traço em negrito dentro do retângulo indicam
a mediana (Q2) das observações.
Os traços nos limites do retângulo indicam
o primeiro (Q1) e o terceiro (Q3) quartis.
Assim, observamos que cerca de 50%
das observações estão dentro do retângulo e
que um valor típico para as observações é
representado pelo traço em negrito.
A seguir, lembre que o intervalo interquartílico
(IQR) é definido como &lt;span class=&#34;math inline&#34;&gt;\(Q3-Q1\)&lt;/span&gt;.
Definimos o limite superior (LS) e inferior (LI) como,
respectivamente, &lt;span class=&#34;math inline&#34;&gt;\(LS=Q3+1.5*IQR\)&lt;/span&gt; e &lt;span class=&#34;math inline&#34;&gt;\(LI=Q1-1.5*IQR\)&lt;/span&gt;.
Os limites das linhas superior e inferior no boxplot
são, respectivamente, a maior observação menor que LS e
a menor observação maior que LI.
Esta é uma faixa de valores tal que seria improvável
obter uma observação fora dela.
Observações fora destes limites são representadas
no boxplot por asteriscos e são comumente chamadas de
“outliers”.&lt;/p&gt;
&lt;p&gt;Muitas vezes, é útil separar as observações em grupos e
construir boxplots para cada um destes.
O exemplo a seguir, constrói boxplots para
o efeito do adubo quando separamos as observações
em 2 grupos: sem ou com nitrato.&lt;/p&gt;
&lt;pre class=&#34;r&#34;&gt;&lt;code&gt;ggplot(aes(y = efeito, 
           x = nitrato, 
           color = nitrato), 
       data = adubo) + 
geom_boxplot()&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;&lt;img src=&#34;https://www.rafaelstern.science/courses/intro_stat/03_visualizacao_files/figure-html/unnamed-chunk-9-1.png&#34; width=&#34;672&#34; /&gt;&lt;/p&gt;
&lt;p&gt;Note que, ainda que a mediana no grupo com
nitrato seja ligeiramente superior à mediana
do grupo sem nitrato, a diferença entre
estes valores é insignificante em relação
à variabilidade dos dados.
Esta conclusão é obtida visualmente vendo que
os retângulos vermelho e azul estão praticamente sobrepostos.
Este é um cenário em que esperamos que
não exista diferença nos efeitos dos
dois tipos de adubo.&lt;/p&gt;
&lt;p&gt;Por outro lado, podemos separar as
observações nos grupos: sem e com fosfato.
Neste caso, obtemos as figuras:&lt;/p&gt;
&lt;pre class=&#34;r&#34;&gt;&lt;code&gt;ggplot(aes(y = efeito, 
           x = fosfato,
           color = fosfato), 
       data = adubo) + geom_boxplot()&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;&lt;img src=&#34;https://www.rafaelstern.science/courses/intro_stat/03_visualizacao_files/figure-html/unnamed-chunk-10-1.png&#34; width=&#34;672&#34; /&gt;&lt;/p&gt;
&lt;p&gt;Neste caso, observe que a diferença entre
as medianas de cada grupo é grande em
relação à variabilidade dos dados.
Por exemplo, verificamos que
os boxplots não tem sobreposição.
Neste caso, é razoável esperar que
os adubos com fosfato tenham um efeito maior
do que os adubos sem fosfato.&lt;/p&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;div id=&#34;visualizando-duas-variáveis&#34; class=&#34;section level2&#34;&gt;
&lt;h2&gt;Visualizando duas variáveis&lt;/h2&gt;
&lt;div id=&#34;scatter-plot&#34; class=&#34;section level3&#34;&gt;
&lt;h3&gt;Scatter plot&lt;/h3&gt;
&lt;p&gt;Por vezes, estamos interessados em
visualizar a relação entre duas variáveis contínuas.
Neste caso, podemos designar um eixo para cada variável
e desenhar um ponto para cada observação.
Este tipo de gráfico é chamado de &lt;strong&gt;scatter plot&lt;/strong&gt;.&lt;/p&gt;
&lt;p&gt;No &lt;strong&gt;R&lt;/strong&gt; é possível obter o scatter plot
usando o comando &lt;em&gt;plot()&lt;/em&gt;.
A seguir, ilustramos este comando no
banco de dados &lt;em&gt;iris&lt;/em&gt; usando como variáveis
o comprimento e largura das pétalas.&lt;/p&gt;
&lt;pre class=&#34;r&#34;&gt;&lt;code&gt;plot(iris$Petal.Length, iris$Petal.Width,
     xlab=&amp;quot;Comprimento da petala&amp;quot;,
     ylab=&amp;quot;Largura da petala&amp;quot;)&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;&lt;img src=&#34;https://www.rafaelstern.science/courses/intro_stat/03_visualizacao_files/figure-html/unnamed-chunk-11-1.png&#34; width=&#34;672&#34; /&gt;&lt;/p&gt;
&lt;p&gt;Note que, em média,
quanto maior o comprimento da pétala,
maior será a sua largura.
Mais do que isso, parece haver
uma relação linear entre estas quantidades.
É possível ajustar uma reta que aproxima
esta relação linear entre as observações
usando o seguinte comando no &lt;strong&gt;R&lt;/strong&gt;:&lt;/p&gt;
&lt;pre class=&#34;r&#34;&gt;&lt;code&gt;ggplot(aes(x = Petal.Length , y = Petal.Width),
       data = iris) +
geom_point(color=&amp;#39;blue&amp;#39;) +
geom_smooth(method=&amp;#39;lm&amp;#39;, color = &amp;quot;red&amp;quot;) +
xlab(&amp;quot;Comprimento da petala&amp;quot;) +
ylab(&amp;quot;Largura da petala&amp;quot;)&lt;/code&gt;&lt;/pre&gt;
&lt;pre&gt;&lt;code&gt;## `geom_smooth()` using formula &amp;#39;y ~ x&amp;#39;&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;&lt;img src=&#34;https://www.rafaelstern.science/courses/intro_stat/03_visualizacao_files/figure-html/unnamed-chunk-12-1.png&#34; width=&#34;672&#34; /&gt;&lt;/p&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;div id=&#34;exercícios&#34; class=&#34;section level1&#34;&gt;
&lt;h1&gt;Exercícios&lt;/h1&gt;
&lt;ol style=&#34;list-style-type: decimal&#34;&gt;
&lt;li&gt;&lt;p&gt;Construa um boxplot para os dados:
2.3, 2000, 0.1, 1.5, 0.3, 0.7, 0.2, 1.7 e 1.2.&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;Parece haver uma relação linear entre o
comprimento e largura das sépalas
no banco de dados &lt;em&gt;iris&lt;/em&gt;?&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;No banco de dados &lt;em&gt;iris&lt;/em&gt;, parece
haver diferença entre o comprimento das sépalas
entre as 3 espécies observadas?&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;Uma pesquisadora mediu as alturas de &lt;span class=&#34;math inline&#34;&gt;\(9\)&lt;/span&gt; indivíduos,
apresentadas a seguir:&lt;/p&gt;&lt;/li&gt;
&lt;/ol&gt;
&lt;pre&gt;&lt;code&gt;## [1] 149 163 168 169 172 173 175 180 181&lt;/code&gt;&lt;/pre&gt;
&lt;ol style=&#34;list-style-type: lower-alpha&#34;&gt;
&lt;li&gt;&lt;p&gt;Calcule a média e a variância das alturas.&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;Verifique se há algum &lt;em&gt;outlier&lt;/em&gt; neste
banco de dados e descreva o significado
deste termo.&lt;/p&gt;&lt;/li&gt;
&lt;/ol&gt;
&lt;ol start=&#34;5&#34; style=&#34;list-style-type: decimal&#34;&gt;
&lt;li&gt;Um pesquisador está interessado em estudar como
varia o percentual de aproveitamento do petróleo em
função da temperatura de alimentação do destilador.
Foram consideradas duas diferentes temperaturas
(150 ou 300 graus Celsius) e uma amostra de tamanho &lt;span class=&#34;math inline&#34;&gt;\(9\)&lt;/span&gt;
para cada uma destas.&lt;/li&gt;
&lt;/ol&gt;
&lt;ol style=&#34;list-style-type: lower-alpha&#34;&gt;
&lt;li&gt;&lt;p&gt;Indique uma medida de centralidade e
uma medida de dispersão para cada
uma das temperaturas testadas e interprete-as.&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;Esboce um boxplot para
o aproveitamento de petróleo para
cada temperatura testada.
Interprete os boxplots e compare
a diferença entre os aproveitamentos
para cada temperatura.&lt;/p&gt;&lt;/li&gt;
&lt;/ol&gt;
&lt;ol start=&#34;6&#34; style=&#34;list-style-type: decimal&#34;&gt;
&lt;li&gt;O boxplot indica a mediana e
o intervalo interquartílico de uma variável.
Quais são possíveis vantagens destas
medidas de centralidade e variabilidade em
relação à média e ao desvio padrão?&lt;/li&gt;
&lt;/ol&gt;
&lt;/div&gt;
&lt;div id=&#34;referências&#34; class=&#34;section level1 unnumbered&#34;&gt;
&lt;h1&gt;Referências&lt;/h1&gt;
&lt;div id=&#34;refs&#34; class=&#34;references csl-bib-body hanging-indent&#34;&gt;
&lt;div id=&#34;ref-Tukey1977&#34; class=&#34;csl-entry&#34;&gt;
Tukey, John W. 1977. &lt;em&gt;Exploratory Data Analysis&lt;/em&gt;. Addison-Wesley.
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
</description>
    </item>
    
    <item>
      <title>Variáveis aleatórias e Probabilidade</title>
      <link>https://www.rafaelstern.science/courses/intro_stat/aulas/05_probabilidade/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>https://www.rafaelstern.science/courses/intro_stat/aulas/05_probabilidade/</guid>
      <description>


&lt;div id=&#34;variáveis-aleatórias&#34; class=&#34;section level1&#34;&gt;
&lt;h1&gt;Variáveis aleatórias&lt;/h1&gt;
&lt;p&gt;É comum que desejemos generalizar
as conclusões que obtemos de
um banco de dados para uma população.
Por exemplo, no banco de dados de adubos,
amostras de adubo com fosfato em geral tem
um efeito maior que
amostras de adubo sem fosfato.
Será verdade, fora de nossa amostra,
que adubos com fosfato tem efeito
superior a adubos sem fosfato?&lt;/p&gt;
&lt;p&gt;Para responder a questões como essa,
é preciso desenvolver uma ferramenta que
ligue as observações realizadas na amostra a
observações futuras.
Para realizar esta conexão
descrevemos o nosso conhecimento antes de
coletar o banco de dados.
Neste contexto, havia incerteza sobre
quais dados seriam observados.
Por exemplo, considere que um experimento
consiste em medir um objeto
10 vezes com um paquímetro.
Devido aos erros de medição
diversos valores serão observados.
Cada medição tem um resultado incerto,
com vários possíveis valores.&lt;/p&gt;
&lt;p&gt;Para designar observações incertas,
usamos &lt;strong&gt;variáveis aleatórias&lt;/strong&gt;.
Em particular, lembre-se que um
banco de dados é uma matriz em que
as linhas são unidades amostrais e
as colunas são variáveis.
Designamos por &lt;span class=&#34;math inline&#34;&gt;\(X_{i,j}\)&lt;/span&gt;
o valor observado para a
&lt;span class=&#34;math inline&#34;&gt;\(j\)&lt;/span&gt;-ésima variável da &lt;span class=&#34;math inline&#34;&gt;\(i\)&lt;/span&gt;-ésima unidade amostral.
Como descrevemos nossa incerteza em
um momento anterior à coleta do banco de dados,
o valor de &lt;span class=&#34;math inline&#34;&gt;\(X_{i,j}\)&lt;/span&gt; é incerto.&lt;/p&gt;
&lt;div id=&#34;proposições&#34; class=&#34;section level2&#34;&gt;
&lt;h2&gt;Proposições&lt;/h2&gt;
&lt;p&gt;Utilizando variáveis aleatórias,
é possível definir &lt;strong&gt;proposições&lt;/strong&gt; de interesse.
Proposições simples envolvem uma única variável
e são, por exemplo, “&lt;span class=&#34;math inline&#34;&gt;\(X_{1,3} = 5.2\)&lt;/span&gt;”,
“&lt;span class=&#34;math inline&#34;&gt;\(X_{4,2} \geq 4\)&lt;/span&gt;” ou “&lt;span class=&#34;math inline&#34;&gt;\(X_{1,1} \leq 1\)&lt;/span&gt;”.
Também é possível obter proposições complexas
unindo proposições simples por meio de conjunções.
Por exemplo, “&lt;span class=&#34;math inline&#34;&gt;\(X_{1,1} = 2\)&lt;/span&gt; &lt;strong&gt;e&lt;/strong&gt; &lt;span class=&#34;math inline&#34;&gt;\(X_{2,1} = 2\)&lt;/span&gt;” e
“&lt;span class=&#34;math inline&#34;&gt;\(X_{1,3} = 5\)&lt;/span&gt; &lt;strong&gt;ou&lt;/strong&gt; &lt;span class=&#34;math inline&#34;&gt;\(X_{1,3} = 4\)&lt;/span&gt;”.
Se &lt;span class=&#34;math inline&#34;&gt;\(A\)&lt;/span&gt; e &lt;span class=&#34;math inline&#34;&gt;\(B\)&lt;/span&gt; são duas proposições, dizemos que
a proposição &lt;span class=&#34;math inline&#34;&gt;\(A\)&lt;/span&gt; &lt;strong&gt;e&lt;/strong&gt; &lt;span class=&#34;math inline&#34;&gt;\(B\)&lt;/span&gt; é observada
se e somente se tanto &lt;span class=&#34;math inline&#34;&gt;\(A\)&lt;/span&gt; quanto &lt;span class=&#34;math inline&#34;&gt;\(B\)&lt;/span&gt; são observadas.
Por exemplo, “choveu hoje &lt;strong&gt;e&lt;/strong&gt; choveu ontem” é observado
se e somente se “choveu hoje” é observado e também
“choveu ontem” é observado.
Similarmente, se &lt;span class=&#34;math inline&#34;&gt;\(A\)&lt;/span&gt; e &lt;span class=&#34;math inline&#34;&gt;\(B\)&lt;/span&gt; são duas proposições, dizemos que
a proposição &lt;span class=&#34;math inline&#34;&gt;\(A\)&lt;/span&gt; &lt;strong&gt;ou&lt;/strong&gt; &lt;span class=&#34;math inline&#34;&gt;\(B\)&lt;/span&gt; é observada
se e somente se somente &lt;span class=&#34;math inline&#34;&gt;\(A\)&lt;/span&gt; é obsevada,
somente &lt;span class=&#34;math inline&#34;&gt;\(B\)&lt;/span&gt; é observada ou
tanto &lt;span class=&#34;math inline&#34;&gt;\(A\)&lt;/span&gt; quanto &lt;span class=&#34;math inline&#34;&gt;\(B\)&lt;/span&gt; são observadas.
Por exemplo, “choveu hoje &lt;strong&gt;ou&lt;/strong&gt; choveu ontem”
somente não é observado se tanto
“choveu hoje” não é observado quanto
“choveu hoje” não é observado.
A seguir, desenvolvemos uma medida de plausibilidade
para proposições.&lt;/p&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;div id=&#34;probabilidade&#34; class=&#34;section level1&#34;&gt;
&lt;h1&gt;Probabilidade&lt;/h1&gt;
&lt;p&gt;A probabilidade de uma proposição é
uma medida de quão plausível esta proposição é.
Seja &lt;span class=&#34;math inline&#34;&gt;\(A\)&lt;/span&gt; uma proposição, designamos
sua probabilidade por &lt;span class=&#34;math inline&#34;&gt;\(P(A)\)&lt;/span&gt;.
Por exemplo, seja &lt;span class=&#34;math inline&#34;&gt;\(X_{1,1}\)&lt;/span&gt; o peso em kg
do primeiro boi em um amostra.
&lt;span class=&#34;math inline&#34;&gt;\(P(X_{1,1} &amp;gt; 500)\)&lt;/span&gt; designa a probabilidade de
que o peso desse boi seja maior do que 500 kg.&lt;/p&gt;
&lt;p&gt;A probabilidade tem certas propriedades que
ela deve satisfazer. Primeiramente,
para toda proposição a sua probabilidade deve
estar entre 0 e 1.
Se &lt;span class=&#34;math inline&#34;&gt;\(P(A) = 0\)&lt;/span&gt;, &lt;span class=&#34;math inline&#34;&gt;\(A\)&lt;/span&gt; é impossível e
se &lt;span class=&#34;math inline&#34;&gt;\(P(A) = 1\)&lt;/span&gt;, &lt;span class=&#34;math inline&#34;&gt;\(A\)&lt;/span&gt; é certo.
Para todo outro valor de &lt;span class=&#34;math inline&#34;&gt;\(P(A)\)&lt;/span&gt;, &lt;span class=&#34;math inline&#34;&gt;\(A\)&lt;/span&gt; é incerto,
sendo que, quanto maior o valor de &lt;span class=&#34;math inline&#34;&gt;\(P(A)\)&lt;/span&gt;,
mais plausível é &lt;span class=&#34;math inline&#34;&gt;\(A\)&lt;/span&gt;.
A seguir, estudaremos algumas propriedades
adicionais da probabilidade.&lt;/p&gt;
&lt;div id=&#34;relações-entre-proposições&#34; class=&#34;section level2&#34;&gt;
&lt;h2&gt;Relações entre proposições&lt;/h2&gt;
&lt;ul&gt;
&lt;li&gt;&lt;p&gt;Dizemos que duas proposições são &lt;strong&gt;mutuamente exclusivas&lt;/strong&gt;
se é impossível que ambas ocorram simultaneamente.
Isto é, &lt;span class=&#34;math inline&#34;&gt;\(A\)&lt;/span&gt; e &lt;span class=&#34;math inline&#34;&gt;\(B\)&lt;/span&gt; são mutuamente exclusivas
se “&lt;span class=&#34;math inline&#34;&gt;\(A\)&lt;/span&gt; &lt;strong&gt;e&lt;/strong&gt; &lt;span class=&#34;math inline&#34;&gt;\(B\)&lt;/span&gt;” é impossível.
Por exemplo, se &lt;span class=&#34;math inline&#34;&gt;\(X\)&lt;/span&gt; é uma variável aleatória que
designa o resultado de uma moeda, então
“&lt;span class=&#34;math inline&#34;&gt;\(X\)&lt;/span&gt; = cara” e “&lt;span class=&#34;math inline&#34;&gt;\(X\)&lt;/span&gt; = coroa” são mutuamente exclusivas.
É uma propriedade da probabilidade que,
se &lt;span class=&#34;math inline&#34;&gt;\(A\)&lt;/span&gt; e &lt;span class=&#34;math inline&#34;&gt;\(B\)&lt;/span&gt; são proposições mutuamente exclusivas, então:
&lt;span class=&#34;math display&#34;&gt;\[P(A \textbf{ ou } B) = P(A) + P(B).\]&lt;/span&gt;&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;Dizemos que duas proposições são &lt;strong&gt;independentes&lt;/strong&gt; se
aprender uma proposição não traz informação sobre a outra.
Por exemplo, considere que &lt;span class=&#34;math inline&#34;&gt;\(X_{1}\)&lt;/span&gt; e &lt;span class=&#34;math inline&#34;&gt;\(X_{2}\)&lt;/span&gt; designam
o resultado de dois lançamentos separados de um dado.
Usualmente, não acreditamos que um lançamento de um dado
traz informação sobre o outro. Assim, por exemplo,
&lt;span class=&#34;math inline&#34;&gt;\(X_{1}=1\)&lt;/span&gt; é independente de &lt;span class=&#34;math inline&#34;&gt;\(X_{2}=3\)&lt;/span&gt;.
se &lt;span class=&#34;math inline&#34;&gt;\(A\)&lt;/span&gt; e &lt;span class=&#34;math inline&#34;&gt;\(B\)&lt;/span&gt; são proposições independentes, então:
&lt;span class=&#34;math display&#34;&gt;\[P(A \textbf{ e } B) = P(A) \cdot P(B).\]&lt;/span&gt;&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;Dizemos que duas variáveis aleatórias, &lt;span class=&#34;math inline&#34;&gt;\(X\)&lt;/span&gt; e &lt;span class=&#34;math inline&#34;&gt;\(Y\)&lt;/span&gt;,
são independentes se qualquer par de proposições sobre
&lt;span class=&#34;math inline&#34;&gt;\(X\)&lt;/span&gt; e &lt;span class=&#34;math inline&#34;&gt;\(Y\)&lt;/span&gt; são independentes. Por exemplo, se
&lt;span class=&#34;math inline&#34;&gt;\(X\)&lt;/span&gt; e &lt;span class=&#34;math inline&#34;&gt;\(Y\)&lt;/span&gt; são independentes, então
&lt;span class=&#34;math inline&#34;&gt;\(X = 2\)&lt;/span&gt; e &lt;span class=&#34;math inline&#34;&gt;\(Y &amp;gt; 3\)&lt;/span&gt; são independentes.
Para muitos bancos de dados que estudaremos neste curso,
será comum supormos que, para toda variável, &lt;span class=&#34;math inline&#34;&gt;\(j\)&lt;/span&gt;,
as observações desta variável são independentes para
cada unidade amostral. Isto é,
&lt;span class=&#34;math inline&#34;&gt;\(X_{1,j}, X_{2,j}, \ldots, X_{n,j}\)&lt;/span&gt; são independentes.&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;&lt;strong&gt;Atenção&lt;/strong&gt;: Exceto em casos extremos,
um par de proposições nunca é simultaneamente
“mutuamente exclusivo” e “independente”.
De fato, se &lt;span class=&#34;math inline&#34;&gt;\(A\)&lt;/span&gt; e &lt;span class=&#34;math inline&#34;&gt;\(B\)&lt;/span&gt; são mutuamente exclusivos e
aprendemos que &lt;span class=&#34;math inline&#34;&gt;\(A\)&lt;/span&gt; ocorreu, então
sabemos com certeza que &lt;span class=&#34;math inline&#34;&gt;\(B\)&lt;/span&gt; não ocorreu.
Isto é, &lt;span class=&#34;math inline&#34;&gt;\(A\)&lt;/span&gt; traz informação sobre &lt;span class=&#34;math inline&#34;&gt;\(B\)&lt;/span&gt;.
Estes conceitos sejam frequentemente confundidos!
Tome cuidado!&lt;/p&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;/div&gt;
&lt;div id=&#34;interpretações-da-probabilidade.&#34; class=&#34;section level2&#34;&gt;
&lt;h2&gt;Interpretações da probabilidade.&lt;/h2&gt;
&lt;div id=&#34;simetria&#34; class=&#34;section level3&#34;&gt;
&lt;h3&gt;Simetria&lt;/h3&gt;
&lt;p&gt;Os conceitos de probabilidade
iniciaram seu desenvolvimento com
o estudo de jogos de azar.
Isto ocorreu provavelmente porque nestes
jogos lidamos com incertezas em
um ambiente controlado.
O funcionamento de um dado é
relativamente simples em relação
ao objeto de pesquisas científicas modernas.&lt;/p&gt;
&lt;p&gt;Por exemplo, os possíveis resultados do
lançamento de um dado (1, 2, 3, 4, 5 e 6)
são &lt;strong&gt;simétricos&lt;/strong&gt; e, assim,
todos são igualmente plausíveis.
Neste caso, obtemos que
a probabilidade de cada possibilidade é
&lt;span class=&#34;math inline&#34;&gt;\(1\)&lt;/span&gt; sobre o número total de possibilidades.
Por exemplo, se &lt;span class=&#34;math inline&#34;&gt;\(X\)&lt;/span&gt; é uma variável aleatória
que designa o resultado do dado, então
&lt;span class=&#34;math inline&#34;&gt;\(P(X=1) = \frac{1}{6}\)&lt;/span&gt;. Semelhantemente,&lt;/p&gt;
&lt;p&gt;&lt;span class=&#34;math display&#34;&gt;\[P(X=1 \textbf{ ou } X=3) = P(X=1) + P(X=3) = \frac{1}{6} + \frac{1}{6} = \frac{2}{6}\]&lt;/span&gt;&lt;/p&gt;
&lt;/div&gt;
&lt;div id=&#34;frequência&#34; class=&#34;section level3&#34;&gt;
&lt;h3&gt;Frequência&lt;/h3&gt;
&lt;p&gt;Na maior parte de pesquisas científicas modernas,
nãoé possível usar diretamente o juízo de simetria
apresentado anteriormente.
Por exemplo, quando realizamos uma reação química,
esta pode produzir o efeito desejado ou não.
Em geral, estas possibilidades não são igualmente plausíveis.
Assim, é necessário desenvolver um conceito
mais abrangente de probabilidade.&lt;/p&gt;
&lt;p&gt;Para tal, imaginamos uma sequência de
experimentos independentes em que
realizamos a reação química estudada.
Podemos calcular a proporção de experimentos
tais que a reação química produziu o efeito desejado.
Ainda que, para um número finito de experimentos,
esta proporção apresente variabilidade,
quando o número o número de experimentos torna-se grande,
a proporção concentra-se em um valor.
Segundo a interpretação baseada em &lt;strong&gt;frequências&lt;/strong&gt;,
este valor designa a probabilidade de
a reação química produzir o resultado satisfatório.
Isto é, a probabilidade de que a reação química
produza um resultado satisfatório é a
proporção de experimentos independentes em que
obtemos este resultado,
quando realizamos um número muito grande de experimentos.&lt;/p&gt;
&lt;p&gt;Por exemplo, a figura abaixo apresenta
a proporção de vezes que um evento ocorre
para vários possíveis números de
realizações de experimentos independentes.
Qual a probabilidade de ocorrência do evento?&lt;/p&gt;
&lt;p&gt;&lt;img src=&#34;https://www.rafaelstern.science/courses/intro_stat/05_probabilidade_files/figure-html/unnamed-chunk-1-1.png&#34; width=&#34;672&#34; /&gt;&lt;/p&gt;
&lt;/div&gt;
&lt;div id=&#34;apostas&#34; class=&#34;section level3&#34;&gt;
&lt;h3&gt;Apostas&lt;/h3&gt;
&lt;p&gt;Existem experimentos tais que não conseguimos
imaginar repetições independentes.
Por exemplo, imagine as eleições presidenciais
de 2018 como experimento.
Existirá uma única eleição presidencial de 2018 e,
assim, não conseguimos imaginar uma sequência de
repetições independentes deste experimento.
Assim, a interpretação frequentista não consegue
responder a questões como:
“Qual a probabilidade de o candidato &lt;span class=&#34;math inline&#34;&gt;\(A\)&lt;/span&gt; vencer
as eleições presidenciais de 2018?”&lt;/p&gt;
&lt;p&gt;Neste sentido, existe uma interpretação alternativa
de probabilidade baseada em apostas.
Considere uma aposta em que você ganha R$1 se
uma proposição, &lt;span class=&#34;math inline&#34;&gt;\(A\)&lt;/span&gt;, ocorrer e R$0, caso contrário.
Note que, caso você pague &lt;span class=&#34;math inline&#34;&gt;\(p\)&lt;/span&gt; para participar desta aposta,
então ganhará R$(1-p) caso &lt;span class=&#34;math inline&#34;&gt;\(A\)&lt;/span&gt; ocorra e perderá
R$p caso &lt;span class=&#34;math inline&#34;&gt;\(A\)&lt;/span&gt; não ocorra.
Segundo a interpretação baseada em apostas,
a probabilidade de &lt;span class=&#34;math inline&#34;&gt;\(A\)&lt;/span&gt; é o maior valor que
você estaria disposto a pagar para participar desta aposta.&lt;/p&gt;
&lt;p&gt;Possíveis vantagens da interpretação baseada em apoastas é
que ela enfatiza que o juízo de probabilidade é subjetivo e
que ela pode ser aplicada a experimentos que não podem ser repetidos.&lt;/p&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;div id=&#34;exercícios&#34; class=&#34;section level1&#34;&gt;
&lt;h1&gt;Exercícios&lt;/h1&gt;
&lt;ol style=&#34;list-style-type: decimal&#34;&gt;
&lt;li&gt;&lt;p&gt;Descreva em suas próprias palavras
o significado de “mutuamente exclusivos” e “independentes”.
Apresente um exemplo de um par de proposições para cada expressão.&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;Considere as proposições:
A = “Choverá hoje” e B = “Não choverá hoje”.
Elas são mutuamente exclusivas? São independentes?&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;Considere as proposições:
A = “Choverá hoje” e B = “Choverá amanhã”.
Elas são mutuamente exclusivas? São independentes?&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;Um dado de 6 faces é arremessado.
Qual é a probabilidade de que, &lt;span class=&#34;math inline&#34;&gt;\(A\)&lt;/span&gt;, um número par seja sorteado?
Qual é a probabilidade de que, &lt;span class=&#34;math inline&#34;&gt;\(B\)&lt;/span&gt;, o número 3 ou 6 seja sorteado?
As duas proposições acima são independentes?
Verifique se &lt;span class=&#34;math inline&#34;&gt;\(P(A \textbf{ e } B) = P(A) \cdot P(B)\)&lt;/span&gt;.&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;Dividam-se em grupos e arremessem uma moeda várias vezes.
Construam um banco de dados juntando todos os seus lançamentos.
Para este banco de dados, esbocem como a proporção de caras
varia de acordo com o número de lançamentos.&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;Uma moeda de duas faces simétricas é
arremessada duas vezes.
Seja &lt;span class=&#34;math inline&#34;&gt;\(A\)&lt;/span&gt; a proposição de
que o resultado do primeiro lançamento
foi cara e &lt;span class=&#34;math inline&#34;&gt;\(B\)&lt;/span&gt; a proposição de que
em ambos os lançamentos ocorreu o mesmo resultado.&lt;/p&gt;&lt;/li&gt;
&lt;/ol&gt;
&lt;ol style=&#34;list-style-type: lower-alpha&#34;&gt;
&lt;li&gt;&lt;p&gt;Determine &lt;span class=&#34;math inline&#34;&gt;\(P(A)\)&lt;/span&gt;, &lt;span class=&#34;math inline&#34;&gt;\(P(B)\)&lt;/span&gt;,
&lt;span class=&#34;math inline&#34;&gt;\(P(A \textbf{ ou } B)\)&lt;/span&gt; e &lt;span class=&#34;math inline&#34;&gt;\(P(A \textbf{ e } B)\)&lt;/span&gt;.&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;&lt;span class=&#34;math inline&#34;&gt;\(A\)&lt;/span&gt; e &lt;span class=&#34;math inline&#34;&gt;\(B\)&lt;/span&gt; são independentes?
São mutuamente exclusivos?&lt;/p&gt;&lt;/li&gt;
&lt;/ol&gt;
&lt;/div&gt;
&lt;div id=&#34;referências&#34; class=&#34;section level1&#34;&gt;
&lt;h1&gt;Referências&lt;/h1&gt;
&lt;/div&gt;
</description>
    </item>
    
    <item>
      <title>Distribuições normal, chi-quadrado e F</title>
      <link>https://www.rafaelstern.science/courses/intro_stat/aulas/06_distribuicoes/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>https://www.rafaelstern.science/courses/intro_stat/aulas/06_distribuicoes/</guid>
      <description>


&lt;div id=&#34;propriedades-de-variáveis-aleatórias&#34; class=&#34;section level1&#34;&gt;
&lt;h1&gt;Propriedades de variáveis aleatórias&lt;/h1&gt;
&lt;p&gt;Uma forma de descrever a incerteza em relação
a uma variável aleatória é por meio de sua
&lt;strong&gt;função de densidade&lt;/strong&gt;.
Se &lt;span class=&#34;math inline&#34;&gt;\(X\)&lt;/span&gt; é uma variável aleatória, geralmente
designamos a função de densidade de &lt;span class=&#34;math inline&#34;&gt;\(X\)&lt;/span&gt;
por &lt;span class=&#34;math inline&#34;&gt;\(f_{X}(x)\)&lt;/span&gt;.
O valor de &lt;span class=&#34;math inline&#34;&gt;\(f_{X}(x)\)&lt;/span&gt; indica o quão plausível é
que a variável aleatória &lt;span class=&#34;math inline&#34;&gt;\(X\)&lt;/span&gt; assuma o valor &lt;span class=&#34;math inline&#34;&gt;\(x\)&lt;/span&gt;.
Por exemplo, a figura abaixo indica uma
variável aleatória contínua tal que
todos os valores entre 0 e 1 são igualmente plausíveis.
Por isso, é comum dizer que esta variável aleatória
tem densidade uniforme entre 0 e 1.&lt;/p&gt;
&lt;pre class=&#34;r&#34;&gt;&lt;code&gt;library(tidyverse)
ggplot(data.frame(x = c(0, 1)), aes(x)) + 
stat_function(fun = dunif, colour = &amp;quot;red&amp;quot;, n = 100)&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;&lt;img src=&#34;https://www.rafaelstern.science/courses/intro_stat/06_distribuicoes_files/figure-html/unnamed-chunk-1-1.png&#34; width=&#34;672&#34; /&gt;&lt;/p&gt;
&lt;p&gt;Uma propriedade importante de uma função de densidade é que
podemos obter a probabilidade de que &lt;span class=&#34;math inline&#34;&gt;\(X\)&lt;/span&gt; esteja entre dois valores,
&lt;span class=&#34;math inline&#34;&gt;\(x_1\)&lt;/span&gt; e &lt;span class=&#34;math inline&#34;&gt;\(x_2\)&lt;/span&gt;, calculando a área debaixo da densidade.
Note que de corre desta propriedade que
a área total debaixo da densidade é &lt;span class=&#34;math inline&#34;&gt;\(1\)&lt;/span&gt;.
Por exemplo, a figura abaixo ilustra como
obter &lt;span class=&#34;math inline&#34;&gt;\(P(0.25 &amp;lt; X &amp;lt; 0.5)\)&lt;/span&gt; quando
&lt;span class=&#34;math inline&#34;&gt;\(X\)&lt;/span&gt; tem densidade uniforme entre &lt;span class=&#34;math inline&#34;&gt;\(0\)&lt;/span&gt; e &lt;span class=&#34;math inline&#34;&gt;\(1\)&lt;/span&gt;.
Note que, neste caso, a figura abaixo da curva é
um retângulo de base &lt;span class=&#34;math inline&#34;&gt;\(0.25\)&lt;/span&gt; e altura &lt;span class=&#34;math inline&#34;&gt;\(1\)&lt;/span&gt; e, portanto,
de área &lt;span class=&#34;math inline&#34;&gt;\(0.25\)&lt;/span&gt;. Assim, obtemos que
&lt;span class=&#34;math inline&#34;&gt;\(P(0.25 &amp;lt; X &amp;lt; 0.5) = 0.25\)&lt;/span&gt;.
Também, a área total debaixo da densidade é
dada por um quadrado de lado &lt;span class=&#34;math inline&#34;&gt;\(1\)&lt;/span&gt;, isto é, &lt;span class=&#34;math inline&#34;&gt;\(1\)&lt;/span&gt;.
Portanto, como esperávamos, &lt;span class=&#34;math inline&#34;&gt;\(P(0 &amp;lt; X &amp;lt; 1) = 1\)&lt;/span&gt;.&lt;/p&gt;
&lt;pre class=&#34;r&#34;&gt;&lt;code&gt;ggplot(data.frame(x = c(0, 1)), aes(x)) + 
stat_function(fun = dunif, colour = &amp;quot;red&amp;quot;, n = 100) +
stat_function(fun = dunif, xlim = c(0.25, 0.5), geom = &amp;quot;area&amp;quot;, alpha = 0.5) &lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;&lt;img src=&#34;https://www.rafaelstern.science/courses/intro_stat/06_distribuicoes_files/figure-html/unnamed-chunk-2-1.png&#34; width=&#34;672&#34; /&gt;&lt;/p&gt;
&lt;p&gt;De forma geral, a área debaixo de uma curva é
dada por uma integral.
Neste curso não usaremos esta relação,
mas é útil saber que,
se &lt;span class=&#34;math inline&#34;&gt;\(X\)&lt;/span&gt; é uma variável contínua, então
obtemos que
&lt;span class=&#34;math display&#34;&gt;\[P(x_1 \leq X \leq x_2) = \int_{x_1}^{x_2} f_{X}(x)dx\]&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;Também note que a área entre &lt;span class=&#34;math inline&#34;&gt;\(x_1\)&lt;/span&gt; e &lt;span class=&#34;math inline&#34;&gt;\(x_2\)&lt;/span&gt;
pode ser descrita como a área à esquerda de
&lt;span class=&#34;math inline&#34;&gt;\(x_2\)&lt;/span&gt; subtraída da área à esquerda de &lt;span class=&#34;math inline&#34;&gt;\(x_1\)&lt;/span&gt;.
Assim, se &lt;span class=&#34;math inline&#34;&gt;\(X\)&lt;/span&gt; é uma variável contínua,
também vale a seguinte relação
&lt;span class=&#34;math display&#34;&gt;\[P(x_1 \leq X \leq x_2) = P(X \leq x_2) - P(X \leq x_1)\]&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;A função de densidade descreve toda
a incerteza sobre uma variável aleatória.
Contudo, pode ser difícil descrever e
analisar uma função. Assim,
é comum que certos aspectos de
uma variável aleatória sejam resumidos
em números. A seguir, estudamos
algumas destas medidas resumo.&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;p&gt;&lt;strong&gt;Esperança&lt;/strong&gt; (média populacional):
A esperança de uma varíavel aleatória, &lt;span class=&#34;math inline&#34;&gt;\(X\)&lt;/span&gt; é
denotada por &lt;span class=&#34;math inline&#34;&gt;\(E[X]\)&lt;/span&gt; e descreve
uma medida de centralidade desta.
Se imaginarmos que, para cada possível valor, &lt;span class=&#34;math inline&#34;&gt;\(x\)&lt;/span&gt;,
existe um peso de &lt;span class=&#34;math inline&#34;&gt;\(f_{X}(x)\)&lt;/span&gt; na posição &lt;span class=&#34;math inline&#34;&gt;\(x\)&lt;/span&gt;, então
&lt;span class=&#34;math inline&#34;&gt;\(E[X]\)&lt;/span&gt; descreve o centro de massa desse sistema.
Também, a média amostral e a esperança resumem
a mesma característica.
Enquanto que a primeira descreve a centralidade para
uma variável em um banco de dados,
uma variável aleatória já observada,
a segunda descreve a centralidade para uma variável aleatória,
isto é, descreve a incerteza sobre
uma observação antes que esta ocorra.
De forma técnica, a esperança de
uma variável aleatória contínua é
calculada da seguinte forma:
&lt;span class=&#34;math display&#34;&gt;\[E[X] = \int_{-\infty}^{\infty}{x f_{X}(x)dx}\]&lt;/span&gt;&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;&lt;strong&gt;Variância&lt;/strong&gt; (populacional):
A variância de uma variável aleatória, &lt;span class=&#34;math inline&#34;&gt;\(X\)&lt;/span&gt;, é
denotada por &lt;span class=&#34;math inline&#34;&gt;\(V[X]\)&lt;/span&gt; e indica um resumo da
variabilidade desta.
Assim como a variância amostral descreve
a variabilidade de uma variável em um banco de dados (já observado),
a variância populacional descreve
a variabilidade de uma variável aleatória (ainda não observada).
De forma técnica, a variância de
uma variável aleatória contínua é
calculada da seguinte forma:
&lt;span class=&#34;math display&#34;&gt;\[V[X] = \int_{-\infty}^{\infty}{(x-E[X])^2 f_{X}(x)}dx\]&lt;/span&gt;
Semelhantemente ao caso da variância amostral,
a variância populacional não é medida na
mesma escala da variável aleatória que ela representa.
Para obter esta escala, é comum tomar a
raiz quadrada da variância populacional.
Esta medida é chamada de &lt;strong&gt;desvio padrão&lt;/strong&gt; (populacional).
Também é comum designarmos a variância de &lt;span class=&#34;math inline&#34;&gt;\(X\)&lt;/span&gt; por
&lt;span class=&#34;math inline&#34;&gt;\(\sigma^2_X\)&lt;/span&gt;. Esta notação é conveniente pois permite
designarmos o desvio padrão de &lt;span class=&#34;math inline&#34;&gt;\(X\)&lt;/span&gt; por &lt;span class=&#34;math inline&#34;&gt;\(\sigma_X\)&lt;/span&gt;.&lt;/p&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;A seguir, estudaremos
algumas funções de densidade
essenciais para este curso.&lt;/p&gt;
&lt;/div&gt;
&lt;div id=&#34;distribuição-normal&#34; class=&#34;section level1&#34;&gt;
&lt;h1&gt;Distribuição normal&lt;/h1&gt;
&lt;p&gt;Uma das distribuições mais usadas é a Normal.
Formalmente, dizemos que &lt;span class=&#34;math inline&#34;&gt;\(X\)&lt;/span&gt; tem
distribuição normal com
média &lt;span class=&#34;math inline&#34;&gt;\(\mu\)&lt;/span&gt; e variância &lt;span class=&#34;math inline&#34;&gt;\(\sigma^2\)&lt;/span&gt; se
&lt;span class=&#34;math inline&#34;&gt;\(X\)&lt;/span&gt; pode assumir qualquer número real e
sua densidade, &lt;span class=&#34;math inline&#34;&gt;\(f_{X}(x)\)&lt;/span&gt;, tem a forma
&lt;span class=&#34;math display&#34;&gt;\[
f_{X}(x) =
\frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)
\]&lt;/span&gt;
Como diremos muitas vezes neste curso que
“&lt;span class=&#34;math inline&#34;&gt;\(X\)&lt;/span&gt; tem distribuição Normal com média &lt;span class=&#34;math inline&#34;&gt;\(\mu\)&lt;/span&gt; e variância &lt;span class=&#34;math inline&#34;&gt;\(\sigma^2\)&lt;/span&gt;”,
abreviaremos esta expressão por &lt;span class=&#34;math inline&#34;&gt;\(X \sim N(\mu,\sigma^2)\)&lt;/span&gt;.
Se &lt;span class=&#34;math inline&#34;&gt;\(X \sim N(\mu,\sigma^2)\)&lt;/span&gt;, então obtem-se que
&lt;span class=&#34;math inline&#34;&gt;\(E[X] = \mu\)&lt;/span&gt; e &lt;span class=&#34;math inline&#34;&gt;\(Var[X] = \sigma^2\)&lt;/span&gt;.
A figura abaixo exibe a densidade da &lt;span class=&#34;math inline&#34;&gt;\(N(0,1)\)&lt;/span&gt;,
também conhecida por “normal padrão”.&lt;/p&gt;
&lt;pre class=&#34;r&#34;&gt;&lt;code&gt;ggplot(data.frame(x = c(-3, 3)), aes(x)) + 
stat_function(fun = dnorm, colour=&amp;quot;red&amp;quot;, n = 100) &lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;&lt;img src=&#34;https://www.rafaelstern.science/courses/intro_stat/06_distribuicoes_files/figure-html/unnamed-chunk-3-1.png&#34; width=&#34;672&#34; /&gt;&lt;/p&gt;
&lt;p&gt;Note que a densidade tem um formato de sino com
simetria ao redor do &lt;span class=&#34;math inline&#34;&gt;\(0\)&lt;/span&gt;.
Decorre que a normal padrão tem média &lt;span class=&#34;math inline&#34;&gt;\(0\)&lt;/span&gt;.
A densidade de uma normal com média &lt;span class=&#34;math inline&#34;&gt;\(\mu\)&lt;/span&gt; e
variância &lt;span class=&#34;math inline&#34;&gt;\(1\)&lt;/span&gt; terá o mesmo formato,
só que transladado por &lt;span class=&#34;math inline&#34;&gt;\(\mu\)&lt;/span&gt;.
Este fato é ilustrado na figura a seguir,
em que as curvas azul e verdem indicam,
respectivamente, as densidades
da &lt;span class=&#34;math inline&#34;&gt;\(N(-1,1)\)&lt;/span&gt; e da &lt;span class=&#34;math inline&#34;&gt;\(N(1,1)\)&lt;/span&gt;.&lt;/p&gt;
&lt;pre class=&#34;r&#34;&gt;&lt;code&gt;ggplot(data.frame(x = c(-4,4)), aes(x)) + 
stat_function(fun = dnorm, colour = &amp;quot;red&amp;quot;, n = 100) +
stat_function(fun = function(x) dnorm(x, mean = -1), 
              colour = &amp;quot;blue&amp;quot;, n = 100) +
stat_function(fun = function(x) dnorm(x, mean = 1), 
              colour = &amp;quot;green&amp;quot;, n = 100) +
ylab(&amp;quot;densidade&amp;quot;)&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;&lt;img src=&#34;https://www.rafaelstern.science/courses/intro_stat/06_distribuicoes_files/figure-html/unnamed-chunk-4-1.png&#34; width=&#34;672&#34; /&gt;&lt;/p&gt;
&lt;p&gt;Semelhantemente, a figura abaixo apresenta
nas curvas verde, vermelha e azul, respectivamente,
as distribuições &lt;span class=&#34;math inline&#34;&gt;\(N(0, 0.25)\)&lt;/span&gt;, &lt;span class=&#34;math inline&#34;&gt;\(N(0, 1)\)&lt;/span&gt; e &lt;span class=&#34;math inline&#34;&gt;\(N(0, 4)\)&lt;/span&gt;.
Note que a variância, &lt;span class=&#34;math inline&#34;&gt;\(\sigma^2\)&lt;/span&gt;,
altera a escala da densidade da normal.
Quanto menor o valor de &lt;span class=&#34;math inline&#34;&gt;\(\sigma^2\)&lt;/span&gt;,
mais a densidade está concentrada ao redor da média.&lt;/p&gt;
&lt;pre class=&#34;r&#34;&gt;&lt;code&gt;ggplot(data.frame(x = c(-6,6)), aes(x)) + 
stat_function(fun = dnorm, colour = &amp;quot;red&amp;quot;, n = 100) +
stat_function(fun = function(x) dnorm(x, sd = 2), 
              colour = &amp;quot;blue&amp;quot;, n = 100) +
stat_function(fun = function(x) dnorm(x, sd = 0.5), 
              colour = &amp;quot;green&amp;quot;, n = 100) +
ylab(&amp;quot;densidade&amp;quot;)&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;&lt;img src=&#34;https://www.rafaelstern.science/courses/intro_stat/06_distribuicoes_files/figure-html/unnamed-chunk-5-1.png&#34; width=&#34;672&#34; /&gt;&lt;/p&gt;
&lt;p&gt;Uma relação útil é que aproximadamente 95% da
densidade de uma &lt;span class=&#34;math inline&#34;&gt;\(N(\mu,\sigma^2)\)&lt;/span&gt; está
concentrada entre &lt;span class=&#34;math inline&#34;&gt;\(\mu-2\sigma\)&lt;/span&gt; e &lt;span class=&#34;math inline&#34;&gt;\(\mu+2\sigma\)&lt;/span&gt;.
Na figura acima, temos que &lt;span class=&#34;math inline&#34;&gt;\(\mu=0\)&lt;/span&gt;.
Assim, aproximadamente 95% da área das curvas
verde, vermelha e azul está concentrada,
respectivamente, em &lt;span class=&#34;math inline&#34;&gt;\([-1,1]\)&lt;/span&gt;, &lt;span class=&#34;math inline&#34;&gt;\([-2,2]\)&lt;/span&gt; e &lt;span class=&#34;math inline&#34;&gt;\([-4,4]\)&lt;/span&gt;.
De forma mais formal,
se &lt;span class=&#34;math inline&#34;&gt;\(X \sim N(\mu,\sigma^2)\)&lt;/span&gt; e
&lt;span class=&#34;math inline&#34;&gt;\(\approx\)&lt;/span&gt; significa aproximadamente, então
&lt;span class=&#34;math display&#34;&gt;\[
P(\mu-2\sigma \leq X \leq \mu+2\sigma)
\approx 0.95
\]&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;Se &lt;span class=&#34;math inline&#34;&gt;\(X \sim N(\mu,\sigma^2)\)&lt;/span&gt;,
não é possível descrever &lt;span class=&#34;math inline&#34;&gt;\(P(X \leq x)\)&lt;/span&gt;
de forma analítica. Contudo,
é possível obter uma aproximação analítica
para esta quantidade no &lt;strong&gt;R&lt;/strong&gt; usando a função &lt;em&gt;pnorm&lt;/em&gt;.
Por exemplo, o código abaixo calcula
&lt;span class=&#34;math inline&#34;&gt;\(P(X \leq 4)\)&lt;/span&gt; para uma &lt;span class=&#34;math inline&#34;&gt;\(N(2,9)\)&lt;/span&gt;.&lt;/p&gt;
&lt;pre class=&#34;r&#34;&gt;&lt;code&gt;pnorm(4, mean = 2, sd = 3)&lt;/code&gt;&lt;/pre&gt;
&lt;pre&gt;&lt;code&gt;## [1] 0.7475075&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;Também a probabilidade de que
uma &lt;span class=&#34;math inline&#34;&gt;\(N(2,9)\)&lt;/span&gt; esteja entre &lt;span class=&#34;math inline&#34;&gt;\(1\)&lt;/span&gt; e &lt;span class=&#34;math inline&#34;&gt;\(4\)&lt;/span&gt;
é obtida da seguinte forma:&lt;/p&gt;
&lt;pre class=&#34;r&#34;&gt;&lt;code&gt;pnorm(4, mean = 2, sd = 3) - pnorm(1, mean = 2, sd = 3)&lt;/code&gt;&lt;/pre&gt;
&lt;pre&gt;&lt;code&gt;## [1] 0.3780661&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;É possível transformar qualquer distribuição normal
em uma normal padrão por meio de transformações lineares.
Especificamente, se &lt;span class=&#34;math inline&#34;&gt;\(X \sim N(\mu,\sigma^2)\)&lt;/span&gt;, então
&lt;span class=&#34;math inline&#34;&gt;\(\frac{X-\mu}{\sigma} \sim N(0,1)\)&lt;/span&gt;. Por isso,
podemos imaginar que obtemos uma &lt;span class=&#34;math inline&#34;&gt;\(N(\mu,\sigma^2)\)&lt;/span&gt;,
ao multiplicar uma normal padrão por &lt;span class=&#34;math inline&#34;&gt;\(\sigma\)&lt;/span&gt; e
somar &lt;span class=&#34;math inline&#34;&gt;\(\mu\)&lt;/span&gt; ao resultado.
O processo de calcular &lt;span class=&#34;math inline&#34;&gt;\(\frac{X-\mu}{\sigma}\)&lt;/span&gt; é
frequentemente chamado de padronização.&lt;/p&gt;
&lt;div id=&#34;teorema-central-do-limite&#34; class=&#34;section level2&#34;&gt;
&lt;h2&gt;Teorema Central do Limite&lt;/h2&gt;
&lt;p&gt;O Teorema Central do Limite é
um dos resultados mais importantes em Estatística e
também uma das razões pelas quais
a distribuição é tão importante neste curso.
De forma suscinta, ele dita que, se
&lt;span class=&#34;math inline&#34;&gt;\(X_1, \ldots, X_n\)&lt;/span&gt; são
variáveis aleatórias independentes que
tem a mesma distribuição e tais que
&lt;span class=&#34;math inline&#34;&gt;\(E[X_i] = \mu\)&lt;/span&gt; e &lt;span class=&#34;math inline&#34;&gt;\(V[X_i] = \sigma^2\)&lt;/span&gt;, então
a média amostral é aproximadamente normal.
Mais especificamente,
&lt;span class=&#34;math display&#34;&gt;\[\bar{X} \approx N\left(\mu,\frac{\sigma^2}{n}\right)\]&lt;/span&gt;
Note que esta aproximação vale
não importa qual seja
a distribuição de cada observação.
Assim, com pouquíssimas suposições é
possível aproximar a distribuição
da média amostral pela normal.
Se padronizarmos a média amostral,
obtemos a versão mais usual do
Teorema do Limite Central:
&lt;span class=&#34;math display&#34;&gt;\[\frac{\bar{X}-\mu}{\sqrt{\frac{\sigma^2}{n}}} \approx N(0,1)\]&lt;/span&gt;
A figura a seguir é um histograma de
observações obtidas tomando a média de
&lt;span class=&#34;math inline&#34;&gt;\(100\)&lt;/span&gt; variáveis aleatórias uniformes entre &lt;span class=&#34;math inline&#34;&gt;\(0\)&lt;/span&gt; e &lt;span class=&#34;math inline&#34;&gt;\(1\)&lt;/span&gt;.
Note que cada uniforme tem média &lt;span class=&#34;math inline&#34;&gt;\(0.5\)&lt;/span&gt; e as
médias amostrais estão dispersas em torno deste valor.
Também, a distribuição uniforme entre &lt;span class=&#34;math inline&#34;&gt;\(0\)&lt;/span&gt; e &lt;span class=&#34;math inline&#34;&gt;\(1\)&lt;/span&gt; tem
variância &lt;span class=&#34;math inline&#34;&gt;\(\frac{1}{12}\)&lt;/span&gt;. Assim,
o Teorema Central do Limite dita que a
média de 100 destas distribuições uniformes tem
desvio padrão &lt;span class=&#34;math inline&#34;&gt;\(\sqrt{\frac{1}{12 \cdot 100}}\)&lt;/span&gt;.
Isto é, neste caso &lt;span class=&#34;math inline&#34;&gt;\(\bar{X} \approx N(0.5, 0.03)\)&lt;/span&gt;.
De fato, observamos na figura que
a maior parte das observações estão dispersas
a menos de dois desvios padrões, &lt;span class=&#34;math inline&#34;&gt;\(0.06\)&lt;/span&gt;,
da média populacional, &lt;span class=&#34;math inline&#34;&gt;\(0.5\)&lt;/span&gt;.&lt;/p&gt;
&lt;pre class=&#34;r&#34;&gt;&lt;code&gt;medias = rep(NA, 1000)
for(ii in 1:1000) 
{
  medias[ii] = mean(runif(100, 0, 1))
}
ggplot(aes(x = medias), data = data.frame(medias)) +
geom_histogram(aes(y = ..density..)) +
geom_density(colour=&amp;quot;red&amp;quot;)&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;&lt;img src=&#34;https://www.rafaelstern.science/courses/intro_stat/06_distribuicoes_files/figure-html/unnamed-chunk-8-1.png&#34; width=&#34;672&#34; /&gt;&lt;/p&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;div id=&#34;distribuição-chi-quadrado&#34; class=&#34;section level1&#34;&gt;
&lt;h1&gt;Distribuição chi-quadrado&lt;/h1&gt;
&lt;ul&gt;
&lt;li&gt;&lt;p&gt;Se &lt;span class=&#34;math inline&#34;&gt;\(X\)&lt;/span&gt; tem distribuição chi-quadrado
com &lt;span class=&#34;math inline&#34;&gt;\(n\)&lt;/span&gt; graus de liberdade, escrevemos
&lt;span class=&#34;math inline&#34;&gt;\(X \sim \chi^2_n\)&lt;/span&gt;. Neste caso,
&lt;span class=&#34;math display&#34;&gt;\[f_{X}(x) = \frac{x^{0.5n-1}\exp(-0.5x)}{2^{0.5n}\Gamma(0.5n)},\]&lt;/span&gt;
&lt;span class=&#34;math inline&#34;&gt;\(E[X]=n\)&lt;/span&gt; e &lt;span class=&#34;math inline&#34;&gt;\(V[X]=2n\)&lt;/span&gt;.&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;Se &lt;span class=&#34;math inline&#34;&gt;\(X \sim N(0,1)\)&lt;/span&gt;, então
&lt;span class=&#34;math inline&#34;&gt;\(X^2 \sim \chi^2_1\)&lt;/span&gt;.&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;Se &lt;span class=&#34;math inline&#34;&gt;\(X_1, \ldots, X_n\)&lt;/span&gt; são variáveis independentes e
cada qual tem distribuição &lt;span class=&#34;math inline&#34;&gt;\(\chi^2_1\)&lt;/span&gt;, então
&lt;span class=&#34;math inline&#34;&gt;\(\sum_{i=1}^n X_i \sim \chi^2_n\)&lt;/span&gt;.&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;Se &lt;span class=&#34;math inline&#34;&gt;\(X_1, \ldots, X_n\)&lt;/span&gt; são variáveis independentes e
tais que &lt;span class=&#34;math inline&#34;&gt;\(X_{i} \sim N(\mu, \sigma^2)\)&lt;/span&gt;, então
&lt;span class=&#34;math inline&#34;&gt;\(\frac{\sum_{i1=}^{n}(X_i-\bar{X})^2}{\sigma^2} \sim \chi^2_{n-1}\)&lt;/span&gt;,
ou seja, &lt;span class=&#34;math inline&#34;&gt;\(\frac{S^2}{\sigma^2} \sim \chi^2_{n-1}\)&lt;/span&gt;.&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;No &lt;strong&gt;R&lt;/strong&gt;, podemos obter
a densidade e &lt;span class=&#34;math inline&#34;&gt;\(P(X \leq x)\)&lt;/span&gt; para
a chi-quadrado por meio dos comandos
&lt;em&gt;dchisq&lt;/em&gt; e &lt;em&gt;pchisq&lt;/em&gt;.&lt;/p&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;/div&gt;
&lt;div id=&#34;distribuio-t-de-student&#34; class=&#34;section level1&#34;&gt;
&lt;h1&gt;Distribui??o T de Student&lt;/h1&gt;
&lt;ul&gt;
&lt;li&gt;&lt;p&gt;Designamos a distribui??o &lt;span class=&#34;math inline&#34;&gt;\(T\)&lt;/span&gt; de Student com
&lt;span class=&#34;math inline&#34;&gt;\(n\)&lt;/span&gt; graus de liberdade por &lt;span class=&#34;math inline&#34;&gt;\(T_{n}\)&lt;/span&gt;.&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;Se &lt;span class=&#34;math inline&#34;&gt;\(Z \sim N(0,1)\)&lt;/span&gt; e &lt;span class=&#34;math inline&#34;&gt;\(S^2 \sim \chi^2_n\)&lt;/span&gt; s?o
vari?veis independentes, ent?o
&lt;span class=&#34;math inline&#34;&gt;\(\frac{Z}{\sqrt{\frac{S^2}{n}}} \sim T_{n}\)&lt;/span&gt;.&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;No &lt;strong&gt;R&lt;/strong&gt;, podemos obter
a densidade e &lt;span class=&#34;math inline&#34;&gt;\(P(X \leq x)\)&lt;/span&gt; para
a T de Student por meio dos comandos
&lt;em&gt;dt&lt;/em&gt; e &lt;em&gt;pt&lt;/em&gt;.&lt;/p&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;/div&gt;
&lt;div id=&#34;distribuição-f-de-snedcor&#34; class=&#34;section level1&#34;&gt;
&lt;h1&gt;Distribuição F de Snedcor&lt;/h1&gt;
&lt;ul&gt;
&lt;li&gt;&lt;p&gt;Se &lt;span class=&#34;math inline&#34;&gt;\(X\)&lt;/span&gt; tem distribuição &lt;span class=&#34;math inline&#34;&gt;\(F\)&lt;/span&gt; com parâmetros
&lt;span class=&#34;math inline&#34;&gt;\(d_1\)&lt;/span&gt; e &lt;span class=&#34;math inline&#34;&gt;\(d_2\)&lt;/span&gt;, então escrevemos
&lt;span class=&#34;math inline&#34;&gt;\(X \sim F_{d_1,d_2}\)&lt;/span&gt;.&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;&lt;span class=&#34;math inline&#34;&gt;\(X_1 \sim \chi^2_{d_1}\)&lt;/span&gt;, &lt;span class=&#34;math inline&#34;&gt;\(X_2 \sim \chi^2_{d_2}\)&lt;/span&gt; e
&lt;span class=&#34;math inline&#34;&gt;\(X_1\)&lt;/span&gt; e &lt;span class=&#34;math inline&#34;&gt;\(X_2\)&lt;/span&gt; são independentes, então&lt;/p&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;span class=&#34;math display&#34;&gt;\[
\frac{\frac{X_1}{d_1}}{\frac{X_2}{d_2}}
\sim F_{d_1,d_2}
\]&lt;/span&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;No &lt;strong&gt;R&lt;/strong&gt;, podemos obter
a densidade e &lt;span class=&#34;math inline&#34;&gt;\(P(X \leq x)\)&lt;/span&gt; para
a distribuição F por meio dos comandos
&lt;em&gt;df&lt;/em&gt; e &lt;em&gt;pf&lt;/em&gt;.&lt;/li&gt;
&lt;/ul&gt;
&lt;/div&gt;
&lt;div id=&#34;exercícios&#34; class=&#34;section level1&#34;&gt;
&lt;h1&gt;Exercícios&lt;/h1&gt;
&lt;ol style=&#34;list-style-type: decimal&#34;&gt;
&lt;li&gt;&lt;p&gt;Se &lt;span class=&#34;math inline&#34;&gt;\(X\)&lt;/span&gt; tem densidade entre uniforme entre &lt;span class=&#34;math inline&#34;&gt;\(0\)&lt;/span&gt; e &lt;span class=&#34;math inline&#34;&gt;\(1\)&lt;/span&gt; e
&lt;span class=&#34;math inline&#34;&gt;\(0 \leq x_1, x_2 \leq 1\)&lt;/span&gt;, calcule &lt;span class=&#34;math inline&#34;&gt;\(P(x_1 \leq X \leq x_2)\)&lt;/span&gt;.&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;Se &lt;span class=&#34;math inline&#34;&gt;\(X\)&lt;/span&gt; tem densidade uniforme entre &lt;span class=&#34;math inline&#34;&gt;\(1\)&lt;/span&gt; e &lt;span class=&#34;math inline&#34;&gt;\(3\)&lt;/span&gt;,
qual é o valor da densidade de &lt;span class=&#34;math inline&#34;&gt;\(X\)&lt;/span&gt; neste intervalo?&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;Calcule a esperança e a variância de uma variável aleatória
com distribuição uniforme entre &lt;span class=&#34;math inline&#34;&gt;\(0\)&lt;/span&gt; e &lt;span class=&#34;math inline&#34;&gt;\(1\)&lt;/span&gt;.&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;Ache um intervalo tal que uma &lt;span class=&#34;math inline&#34;&gt;\(N(4,9)\)&lt;/span&gt; e
steja dentro deste com probabilidade aproximadamente &lt;span class=&#34;math inline&#34;&gt;\(95\%\)&lt;/span&gt;.&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;Se &lt;span class=&#34;math inline&#34;&gt;\(X \sim N(4,9)\)&lt;/span&gt;, utilize o &lt;strong&gt;R&lt;/strong&gt; para
calcular &lt;span class=&#34;math inline&#34;&gt;\(P(-1 \leq X \leq 1)\)&lt;/span&gt;.&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;Se &lt;span class=&#34;math inline&#34;&gt;\(X \sim N(10, 100)\)&lt;/span&gt;, indique
uma transformação linear de &lt;span class=&#34;math inline&#34;&gt;\(X\)&lt;/span&gt; que tem
distribuição normal padrão.&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;Se &lt;span class=&#34;math inline&#34;&gt;\(X_1, \ldots, X_n\)&lt;/span&gt; são variáveis independentes
de mesma distribuição e tais que
&lt;span class=&#34;math inline&#34;&gt;\(E[X_i] = 9\)&lt;/span&gt; e &lt;span class=&#34;math inline&#34;&gt;\(V[X_i] = 16\)&lt;/span&gt;, indique valores para
&lt;span class=&#34;math inline&#34;&gt;\(a\)&lt;/span&gt; e &lt;span class=&#34;math inline&#34;&gt;\(b\)&lt;/span&gt; tal que
&lt;span class=&#34;math inline&#34;&gt;\(P(a \leq \bar{X} \leq b) \approx 95\%\)&lt;/span&gt;.&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;Um pesquisador utilizou uma mesma medida resumo
em diversas variáveis de seu banco de dados.
Para visualizar estas medidas, construiu
um histograma delas.
Este histograma se encontra abaixo.
Com base no histograma, argumente se
a medida resumo poderia ou não ser a média amostral.&lt;/p&gt;&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;&lt;img src=&#34;https://www.rafaelstern.science/courses/intro_stat/06_distribuicoes_files/figure-html/unnamed-chunk-9-1.png&#34; width=&#34;672&#34; /&gt;&lt;/p&gt;
&lt;/div&gt;
&lt;div id=&#34;referências&#34; class=&#34;section level1&#34;&gt;
&lt;h1&gt;Referências&lt;/h1&gt;
&lt;/div&gt;
</description>
    </item>
    
    <item>
      <title>Parâmetros e Intervalos de Confiança</title>
      <link>https://www.rafaelstern.science/courses/intro_stat/aulas/07_ic/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>https://www.rafaelstern.science/courses/intro_stat/aulas/07_ic/</guid>
      <description>


&lt;div id=&#34;inferência-estatística-e-parâmetros&#34; class=&#34;section level1&#34;&gt;
&lt;h1&gt;Inferência estatística e parâmetros&lt;/h1&gt;
&lt;p&gt;A inferência estatística consiste em
fazer afirmações sobre características de
uma população a partir de amostras desta.
A partir deste ponto, estudaremos diversos
métodos de inferência estatística.&lt;/p&gt;
&lt;p&gt;Para que seja possível fazer inferência estatística,
a probabilidade descreve como
a amostra se relaciona com a população.
Por exemplo, podemos considerar
&lt;span class=&#34;math inline&#34;&gt;\(10\)&lt;/span&gt; medições de um objeto com &lt;span class=&#34;math inline&#34;&gt;\(15\)&lt;/span&gt; cm
de comprimento usando uma régua cujo
desvio padrão é &lt;span class=&#34;math inline&#34;&gt;\(0.5\)&lt;/span&gt; cm. Neste caso,
podemos denotar as &lt;span class=&#34;math inline&#34;&gt;\(10\)&lt;/span&gt; observações por
&lt;span class=&#34;math inline&#34;&gt;\(X_{1},\ldots,X_{10}\)&lt;/span&gt;. Antes de realizá-las,
é razoável supor que sejam independentes e
tais que &lt;span class=&#34;math inline&#34;&gt;\(X_{i} \sim N(15, 0.25)\)&lt;/span&gt;.
A distribuição &lt;span class=&#34;math inline&#34;&gt;\(N(15, 0.25)\)&lt;/span&gt; indica o comportamento
de uma hipotética população de infinitas medições do objeto.
Quando dizemos que &lt;span class=&#34;math inline&#34;&gt;\(X_{i} \sim N(15, 0.25)\)&lt;/span&gt;,
indicamos que a &lt;span class=&#34;math inline&#34;&gt;\(i\)&lt;/span&gt;-ésima observação é
um membro desta população.&lt;/p&gt;
&lt;p&gt;Contudo, ao contrário do exemplo acima,
em geral não sabemos descrever perfeitamente
a população que temos interesse.
Por exemplo, se estamos medindo um objeto,
em geral não sabemos qual é o seu comprimento.
Assim, se &lt;span class=&#34;math inline&#34;&gt;\(X_{i}\)&lt;/span&gt; é uma observação do objeto
usando uma régua cujo desvio padrão é &lt;span class=&#34;math inline&#34;&gt;\(0.5\)&lt;/span&gt; cm,
gostaríamos de dizer que
&lt;span class=&#34;math inline&#34;&gt;\(X_i\)&lt;/span&gt; segue uma distribuição normal com
desvio padrão de &lt;span class=&#34;math inline&#34;&gt;\(0.5\)&lt;/span&gt; cm e média igual
ao comprimento do objeto.
Contudo, como o comprimento do objeto é desconhecido,
não é possível fazer diretamente esta afirmação.&lt;/p&gt;
&lt;p&gt;Para solucionar este problema, utilizamos &lt;strong&gt;parâmetros&lt;/strong&gt;.
Um parâmetro é uma quantidade desconhecida da população.
Por exemplo, no parágrafo anterior,
o comprimento do objeto medido
seria um parâmetro, que poderíamos denotar por &lt;span class=&#34;math inline&#34;&gt;\(\mu\)&lt;/span&gt;.
Assim, as &lt;span class=&#34;math inline&#34;&gt;\(10\)&lt;/span&gt; observações usando a régua,
&lt;span class=&#34;math inline&#34;&gt;\(X_{1}, \ldots, X_{10}\)&lt;/span&gt; seriam tais que
&lt;span class=&#34;math inline&#34;&gt;\(X_{i} \sim N(\mu, 0.5)\)&lt;/span&gt;.&lt;/p&gt;
&lt;/div&gt;
&lt;div id=&#34;intervalos-de-confiança&#34; class=&#34;section level1&#34;&gt;
&lt;h1&gt;Intervalos de Confiança&lt;/h1&gt;
&lt;p&gt;Em algumas situações, desejamos criar
um intervalo pequeno tal que
seja bastante plausível que
o parâmetro esteja dentro dele.
A seguir, veremos formalmente como
operacionalizar este objetivo.
Estaremos interessados em construir
um intervalo de confiança para &lt;span class=&#34;math inline&#34;&gt;\(\mu\)&lt;/span&gt;.&lt;/p&gt;
&lt;p&gt;O primeiro passo consiste em observar que
um intervalo é constituído por
um limite inferior, &lt;span class=&#34;math inline&#34;&gt;\(l_1(X)\)&lt;/span&gt;, e
um limite superior &lt;span class=&#34;math inline&#34;&gt;\(l_2(X)\)&lt;/span&gt;. Assim,
construir o intervalos consiste em
escolher &lt;span class=&#34;math inline&#34;&gt;\(l_1(X)\)&lt;/span&gt; e &lt;span class=&#34;math inline&#34;&gt;\(l_2(X)\)&lt;/span&gt; baseados na amostra.
Para cumprir nossos objetivos, gostaríamos que
&lt;span class=&#34;math inline&#34;&gt;\(l2(X)-l_1(X)\)&lt;/span&gt; fosse pequeno, ou seja,
o comprimento do intervalo fosse pequeno e,
antes de a amostra ser observada,
&lt;span class=&#34;math inline&#34;&gt;\(P(l_1(X) &amp;lt; \mu &amp;lt; l_2(X))\)&lt;/span&gt; seja grande.
Em particular, fixaremos um &lt;span class=&#34;math inline&#34;&gt;\(\alpha\)&lt;/span&gt; pequeno e
construíremos o intervalo de tal forma que
&lt;span class=&#34;math inline&#34;&gt;\(P(l_1(X) &amp;lt; \mu &amp;lt; l_2(X)) = 1-\alpha\)&lt;/span&gt;.
Após obtida a amostra, dizemos que
&lt;span class=&#34;math inline&#34;&gt;\([l_1(x),l_2(x)]\)&lt;/span&gt; é um intervalo de confiança
&lt;span class=&#34;math inline&#34;&gt;\(1-\alpha\)&lt;/span&gt; para &lt;span class=&#34;math inline&#34;&gt;\(\mu\)&lt;/span&gt;.&lt;/p&gt;
&lt;p&gt;A seguir, veremos alguns exemplos de intervalo de confiança.&lt;/p&gt;
&lt;div id=&#34;normal-com-variância-conhecida&#34; class=&#34;section level2&#34;&gt;
&lt;h2&gt;Normal com variância conhecida&lt;/h2&gt;
&lt;p&gt;Considere que &lt;span class=&#34;math inline&#34;&gt;\(X_{1},\ldots,X_{n}\)&lt;/span&gt; são
observações independentes e tais que
&lt;span class=&#34;math inline&#34;&gt;\(X_{i} \sim N(\mu,\sigma_0^2)\)&lt;/span&gt;, onde
&lt;span class=&#34;math inline&#34;&gt;\(\sigma_0^2\)&lt;/span&gt; é o desvio padrão conhecido
das observações. Gostaríamos de
utilizar estas observações para determinar
&lt;span class=&#34;math inline&#34;&gt;\(l_1(X)\)&lt;/span&gt; e &lt;span class=&#34;math inline&#34;&gt;\(l_2(X)\)&lt;/span&gt; de tal forma que&lt;/p&gt;
&lt;p&gt;&lt;span class=&#34;math display&#34;&gt;\[
P(l_1(X) \leq \mu \leq l_2(X))
= 1-\alpha
\]&lt;/span&gt;
Para tal, note que &lt;span class=&#34;math inline&#34;&gt;\(\bar{X} \sim N\left(\mu,\frac{\sigma_0^2}{n}\right)\)&lt;/span&gt; e,
portanto, decorre da padronização da distribuição normal que
&lt;span class=&#34;math display&#34;&gt;\[
\frac{\sqrt{n}(\bar{X}-\mu)}{\sigma_0}
= \frac{\bar{X}-\mu}{\sqrt{\frac{\sigma_0^2}{n}}}
\sim N(0,1)
\]&lt;/span&gt;
Como &lt;span class=&#34;math inline&#34;&gt;\(Z = \frac{\sqrt{n}(\bar{X}-\mu)}{\sigma_0}\)&lt;/span&gt; tem
distribuição normal padrão, podemos determinar
&lt;span class=&#34;math inline&#34;&gt;\(c_1\)&lt;/span&gt; e &lt;span class=&#34;math inline&#34;&gt;\(c_2\)&lt;/span&gt; de tal forma que
&lt;span class=&#34;math inline&#34;&gt;\(P(Z &amp;lt; c_1) = 0.5\alpha\)&lt;/span&gt; e &lt;span class=&#34;math inline&#34;&gt;\(P(Z &amp;gt; c_2)=0.5\alpha\)&lt;/span&gt;.
No &lt;strong&gt;R&lt;/strong&gt;, o comando &lt;em&gt;qnorm&lt;/em&gt;(&lt;span class=&#34;math inline&#34;&gt;\(\alpha\)&lt;/span&gt;) determina o valor &lt;span class=&#34;math inline&#34;&gt;\(z\)&lt;/span&gt;,
tal que &lt;span class=&#34;math inline&#34;&gt;\(P(Z &amp;lt; z) = \alpha\)&lt;/span&gt;. Assim, as constantes &lt;span class=&#34;math inline&#34;&gt;\(c_1\)&lt;/span&gt; e &lt;span class=&#34;math inline&#34;&gt;\(c_2\)&lt;/span&gt;
podem ser obtidas no &lt;strong&gt;R&lt;/strong&gt;
por meio dos comandos &lt;em&gt;qnorm&lt;/em&gt;(&lt;span class=&#34;math inline&#34;&gt;\(0.5\alpha\)&lt;/span&gt;) e
&lt;em&gt;qnorm&lt;/em&gt;(&lt;span class=&#34;math inline&#34;&gt;\(1-0.5\alpha\)&lt;/span&gt;).
Concluímos que
&lt;span class=&#34;math display&#34;&gt;\[
\begin{align*}
P\left(qnorm(0.5\alpha) \leq \frac{\sqrt{n}(\bar{X}-\mu)}{\sigma_0}
\leq qnorm(1-0.5\alpha)\right)
&amp;amp;= 1-\alpha \\
P\left(\frac{\sigma_0}{\sqrt{n}} qnorm(0.5\alpha) \leq (\bar{X}-\mu)
\leq \frac{\sigma_0}{\sqrt{n}} qnorm(1-0.5\alpha)\right)
&amp;amp;= 1 - \alpha \\
P\left(\bar{X} - \frac{\sigma_0}{\sqrt{n}} qnorm(1-0.5\alpha) \leq \mu
\leq \bar{X} - \frac{\sigma_0}{\sqrt{n}} qnorm(0.5\alpha) \right)
&amp;amp;= 1 - \alpha
\end{align*}
\]&lt;/span&gt;
Portanto, se tomarmos
&lt;span class=&#34;math inline&#34;&gt;\(l_1(X) = \bar{X} - \frac{\sigma_0}{\sqrt{n}} qnorm(1-0.5\alpha)\)&lt;/span&gt; e
&lt;span class=&#34;math inline&#34;&gt;\(l_2(X) = \bar{X} - \frac{\sigma_0}{\sqrt{n}} qnorm(0.5\alpha)\)&lt;/span&gt;, então
&lt;span class=&#34;math inline&#34;&gt;\([l_1(X),l_2(X)]\)&lt;/span&gt; é
um intervalo de confiança &lt;span class=&#34;math inline&#34;&gt;\(1-\alpha\)&lt;/span&gt; para &lt;span class=&#34;math inline&#34;&gt;\(\mu\)&lt;/span&gt;.&lt;/p&gt;
&lt;div id=&#34;aplicação-numérica&#34; class=&#34;section level3&#34;&gt;
&lt;h3&gt;Aplicação numérica&lt;/h3&gt;
&lt;p&gt;Considere que &lt;span class=&#34;math inline&#34;&gt;\(X_{1},\ldots,X_{9}\)&lt;/span&gt; são independentes e
&lt;span class=&#34;math inline&#34;&gt;\(X_i \sim N(\mu,1)\)&lt;/span&gt;, Considere que
observamos que &lt;span class=&#34;math inline&#34;&gt;\(\bar{X} = 8\)&lt;/span&gt; e
desejamos construir um intervalo de
confiança &lt;span class=&#34;math inline&#34;&gt;\(95\%\)&lt;/span&gt; para &lt;span class=&#34;math inline&#34;&gt;\(\mu\)&lt;/span&gt;.
Neste caso, temos que &lt;span class=&#34;math inline&#34;&gt;\(\alpha = 0.05\)&lt;/span&gt;,
assim podemos obter as quantidades apropriadas
da distribuição normal e o intervalo de confiança
para &lt;span class=&#34;math inline&#34;&gt;\(\mu\)&lt;/span&gt; da seguinte forma.&lt;/p&gt;
&lt;pre class=&#34;r&#34;&gt;&lt;code&gt; n = 9
 media = 8
 alpha = 0.05
 sigma = 1
 print(qnorm(1-0.5*alpha))&lt;/code&gt;&lt;/pre&gt;
&lt;pre&gt;&lt;code&gt;## [1] 1.959964&lt;/code&gt;&lt;/pre&gt;
&lt;pre class=&#34;r&#34;&gt;&lt;code&gt; l_1 = media - sigma/sqrt(n) * qnorm(1-0.5*alpha)
 print(l_1)&lt;/code&gt;&lt;/pre&gt;
&lt;pre&gt;&lt;code&gt;## [1] 7.346679&lt;/code&gt;&lt;/pre&gt;
&lt;pre class=&#34;r&#34;&gt;&lt;code&gt; print(qnorm(0.5*alpha))&lt;/code&gt;&lt;/pre&gt;
&lt;pre&gt;&lt;code&gt;## [1] -1.959964&lt;/code&gt;&lt;/pre&gt;
&lt;pre class=&#34;r&#34;&gt;&lt;code&gt; l_2 = media - sigma/sqrt(n) * qnorm(0.5*alpha)
 print(l_2)&lt;/code&gt;&lt;/pre&gt;
&lt;pre&gt;&lt;code&gt;## [1] 8.653321&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;Isto é, &lt;span class=&#34;math inline&#34;&gt;\([7.34, 8.65]\)&lt;/span&gt; é um intervalo
de confiança &lt;span class=&#34;math inline&#34;&gt;\(95\%\)&lt;/span&gt; para &lt;span class=&#34;math inline&#34;&gt;\(\mu\)&lt;/span&gt;.&lt;/p&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;div id=&#34;normal-com-variância-desconhecida&#34; class=&#34;section level2&#34;&gt;
&lt;h2&gt;Normal com variância desconhecida&lt;/h2&gt;
&lt;p&gt;Quando &lt;span class=&#34;math inline&#34;&gt;\(X_1,\ldots,X_n\)&lt;/span&gt; são independentes e
&lt;span class=&#34;math inline&#34;&gt;\(X_i \sim N(\mu, \sigma^2)\)&lt;/span&gt;, sendo
tanto &lt;span class=&#34;math inline&#34;&gt;\(\mu\)&lt;/span&gt; quanto &lt;span class=&#34;math inline&#34;&gt;\(\sigma\)&lt;/span&gt; desconhecidos,
não é possível construir o intervalo de confiança
da mesma forma que na seção anterior.&lt;/p&gt;
&lt;p&gt;Neste caso, usamos o fato de que
&lt;span class=&#34;math display&#34;&gt;\[
\frac{\sqrt{n-1}(\bar{X}-\mu)}{S} \sim T_{n-1}
\]&lt;/span&gt;
onde &lt;span class=&#34;math inline&#34;&gt;\(T_{n-1}\)&lt;/span&gt; designa uma
distribuição &lt;span class=&#34;math inline&#34;&gt;\(T_{n-1}\)&lt;/span&gt; de Student com
&lt;span class=&#34;math inline&#34;&gt;\(n-1\)&lt;/span&gt; graus de liberdade.
Notando que &lt;span class=&#34;math inline&#34;&gt;\(P(T_{n-1} &amp;lt; qt(\alpha,n-1)) = \alpha\)&lt;/span&gt;,
podemos obter por raciocínio análogo ao
desenvolvido na normal com variância conhecida que
&lt;span class=&#34;math display&#34;&gt;\[
P\left(\bar{X}-\frac{S}{\sqrt{n-1}}qt(1-0.5\alpha,n-1)
\leq  \mu \leq
\bar{X}-\frac{S}{\sqrt{n-1}}qt(0.5\alpha,n-1) \right) = 1
\]&lt;/span&gt;
Assim, se
&lt;span class=&#34;math inline&#34;&gt;\(l_1(X) = \bar{X}-\frac{S}{\sqrt{n-1}}qt(1-0.5\alpha,n-1)\)&lt;/span&gt; e
&lt;span class=&#34;math inline&#34;&gt;\(l_2(X) = \bar{X}-\frac{S}{\sqrt{n-1}}qt(0.5\alpha,n-1)\)&lt;/span&gt;, então
&lt;span class=&#34;math inline&#34;&gt;\([l_1(X),l_2(X)]\)&lt;/span&gt; é um intervalo de confiança &lt;span class=&#34;math inline&#34;&gt;\(1-\alpha\)&lt;/span&gt; para &lt;span class=&#34;math inline&#34;&gt;\(\mu\)&lt;/span&gt;.&lt;/p&gt;
&lt;/div&gt;
&lt;div id=&#34;interpretação&#34; class=&#34;section level2&#34;&gt;
&lt;h2&gt;Interpretação&lt;/h2&gt;
&lt;p&gt;Intervalos de confiança são interpretados
incorretamente com frequência. Por exemplo,
considere que, antes que a amostra seja observada
temos &lt;span class=&#34;math inline&#34;&gt;\(P(l_1(X) &amp;lt; \mu &amp;lt; l_2(X)) = 95\%\)&lt;/span&gt;, e
com base na amostra calculamos &lt;span class=&#34;math inline&#34;&gt;\(l_1(x) = 0.5\)&lt;/span&gt; e &lt;span class=&#34;math inline&#34;&gt;\(l_2(x)=0.7\)&lt;/span&gt;.
Dizemos que &lt;span class=&#34;math inline&#34;&gt;\([0.5, 0.7]\)&lt;/span&gt; tem confiança 95% para &lt;span class=&#34;math inline&#34;&gt;\(\mu\)&lt;/span&gt;.
Também é comum que se interprete que, com probabilidade 95%,
&lt;span class=&#34;math inline&#34;&gt;\(\mu\)&lt;/span&gt; está em &lt;span class=&#34;math inline&#34;&gt;\([0.5,0.7]\)&lt;/span&gt;. Contudo,
está interpretação está &lt;strong&gt;errada&lt;/strong&gt;!&lt;/p&gt;
&lt;p&gt;Note que a probabilidade de 95% no exemplo é
calculada antes de a amostra ter sido coletada.
Em outras palavras, podemos interpretar que,
se gerarmos vários bancos de dados independentes
da mesma população, então &lt;span class=&#34;math inline&#34;&gt;\(\mu\)&lt;/span&gt; pertencerá a
cerca de 95% dos intervalos gerados por
meio destes bancos de dados.
Contudo, após um particular banco de dados ser coletado,
ou &lt;span class=&#34;math inline&#34;&gt;\(\mu\)&lt;/span&gt; está dentro do intervalo calculado ou não está.
A confiança de um particular intervalo gerado
não é a probabilidade de que o parâmetro pertença a ele.
Para corrobar a interpretação correta,
o código abaixo gera &lt;span class=&#34;math inline&#34;&gt;\(10000\)&lt;/span&gt; bancos de dados
com &lt;span class=&#34;math inline&#34;&gt;\(100\)&lt;/span&gt; observações normais de média &lt;span class=&#34;math inline&#34;&gt;\(\mu=2\)&lt;/span&gt; e
desvio padrão &lt;span class=&#34;math inline&#34;&gt;\(\sigma=4\)&lt;/span&gt; e calcula
a proporção de bancos de dados em que &lt;span class=&#34;math inline&#34;&gt;\(\mu\)&lt;/span&gt;
pertence ao intervalo com confiança de &lt;span class=&#34;math inline&#34;&gt;\(95\%\)&lt;/span&gt; obtido.&lt;/p&gt;
&lt;pre class=&#34;r&#34;&gt;&lt;code&gt;mu = 2
sigma = 4
n = 100
num_experimentos = 10000
sucessos = 0
for(ii in 1:num_experimentos)
{
  dados = rnorm(n, mu, sigma)
  l1 = mean(dados) - sigma/sqrt(n) * qnorm(1-0.5*alpha)
  l2 = mean(dados) - sigma/sqrt(n) * qnorm(0.5*alpha)
  sucessos = sucessos + (mu &amp;gt; l1 &amp;amp; mu &amp;lt; l2)
}
sucessos/num_experimentos&lt;/code&gt;&lt;/pre&gt;
&lt;pre&gt;&lt;code&gt;## [1] 0.952&lt;/code&gt;&lt;/pre&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;div id=&#34;exercícios&#34; class=&#34;section level1&#34;&gt;
&lt;h1&gt;Exercícios&lt;/h1&gt;
&lt;ol style=&#34;list-style-type: decimal&#34;&gt;
&lt;li&gt;&lt;p&gt;Defina e interprete intervalo de confiança
em suas próprias palavras.&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;Um experimentalista experiente realizou &lt;span class=&#34;math inline&#34;&gt;\(9\)&lt;/span&gt; medições da
largura de um objeto usando um paquímetro.
A média destas observações foi de &lt;span class=&#34;math inline&#34;&gt;\(1.2 mm\)&lt;/span&gt;.
O desvio padrão do experimentalista
com o paquímetro é de &lt;span class=&#34;math inline&#34;&gt;\(0.2 mm\)&lt;/span&gt;.
Usando estas informações, construa intervalo com confiança
90%, 95% e 99% para a largura do objeto.&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;No exemplo da normal com variância conhecida, obtemos
que o comprimento do intervalo de confiança é
&lt;span class=&#34;math inline&#34;&gt;\(\frac{2\sigma_0 qnorm(1-0.5\alpha)}{\sqrt{n}}\)&lt;/span&gt;.
Isto ocorre pois &lt;span class=&#34;math inline&#34;&gt;\(qnorm(0.5\alpha)=1-qnorm(1-0.5\alpha)\)&lt;/span&gt;.
Interprete &lt;span class=&#34;math inline&#34;&gt;\(\sigma_0\)&lt;/span&gt;, &lt;span class=&#34;math inline&#34;&gt;\(\alpha\)&lt;/span&gt; e &lt;span class=&#34;math inline&#34;&gt;\(n\)&lt;/span&gt; e
como estas quantidades inluenciam no
tamanho do intervalo de confiança.&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;O caso da normal com variância populacional conhecida é
um caso especial do caso da normal com variância populacional desconhecida.
Em particular, o intervalo de confiança obtido
para a variância populacional desconhecida é válido
mesmo quando ela é conhecida. Apesar disso, é indesejável
usar este intervalo neste caso. Por quê?&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;Obtenha a linha de raciocínio completa para obter
o intervalo de confiança no caso da normal com variância desconhecida.&lt;/p&gt;&lt;/li&gt;
&lt;/ol&gt;
&lt;/div&gt;
</description>
    </item>
    
    <item>
      <title>Conceitos de testes de hipótese</title>
      <link>https://www.rafaelstern.science/courses/intro_stat/aulas/08_teste_conceitos/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>https://www.rafaelstern.science/courses/intro_stat/aulas/08_teste_conceitos/</guid>
      <description>
&lt;script src=&#34;https://www.rafaelstern.science/rmarkdown-libs/htmlwidgets/htmlwidgets.js&#34;&gt;&lt;/script&gt;
&lt;link href=&#34;https://www.rafaelstern.science/rmarkdown-libs/datatables-css/datatables-crosstalk.css&#34; rel=&#34;stylesheet&#34; /&gt;
&lt;script src=&#34;https://www.rafaelstern.science/rmarkdown-libs/datatables-binding/datatables.js&#34;&gt;&lt;/script&gt;
&lt;script src=&#34;https://www.rafaelstern.science/rmarkdown-libs/jquery/jquery-3.6.0.min.js&#34;&gt;&lt;/script&gt;
&lt;link href=&#34;https://www.rafaelstern.science/rmarkdown-libs/dt-core/css/jquery.dataTables.min.css&#34; rel=&#34;stylesheet&#34; /&gt;
&lt;link href=&#34;https://www.rafaelstern.science/rmarkdown-libs/dt-core/css/jquery.dataTables.extra.css&#34; rel=&#34;stylesheet&#34; /&gt;
&lt;script src=&#34;https://www.rafaelstern.science/rmarkdown-libs/dt-core/js/jquery.dataTables.min.js&#34;&gt;&lt;/script&gt;
&lt;link href=&#34;https://www.rafaelstern.science/rmarkdown-libs/crosstalk/css/crosstalk.min.css&#34; rel=&#34;stylesheet&#34; /&gt;
&lt;script src=&#34;https://www.rafaelstern.science/rmarkdown-libs/crosstalk/js/crosstalk.min.js&#34;&gt;&lt;/script&gt;


&lt;div id=&#34;testes-de-hipótese&#34; class=&#34;section level1&#34;&gt;
&lt;h1&gt;Testes de hipótese&lt;/h1&gt;
&lt;p&gt;É comum que queiramos saber o quanto
uma amostra corrobora uma hipótese científica.
Neste caso, podemos aplicar um teste de hipótese,
isto é, um procedimento que decidirá se
a hipótese é ou não rejeitada diante da amostra obtida.&lt;/p&gt;
&lt;p&gt;Por exemplo, considere que &lt;span class=&#34;math inline&#34;&gt;\(X_{1}, \ldots, X_{n}\)&lt;/span&gt; são
observações independentes realizadas com uma régua ao
medir um determinado objeto. Suponha que
&lt;span class=&#34;math inline&#34;&gt;\(X_{i} \sim N(\mu, \sigma_0^2)\)&lt;/span&gt;, onde &lt;span class=&#34;math inline&#34;&gt;\(\sigma_0^2\)&lt;/span&gt; é
conhecido e indica precisão das medidas feitas com a régua.
Uma pessoa poderia estar interessada na hipótese
de que o objeto tem &lt;span class=&#34;math inline&#34;&gt;\(15\)&lt;/span&gt; cm. Formalmente,
chamamos esta hipótese de &lt;strong&gt;hipótese nula&lt;/strong&gt; e
a representamos por &lt;span class=&#34;math inline&#34;&gt;\(H_0: \mu = 15\)&lt;/span&gt;.
Gostaríamos de saber se é possível
rejeitar &lt;span class=&#34;math inline&#34;&gt;\(H_0\)&lt;/span&gt; com base nos dados.&lt;/p&gt;
&lt;div id=&#34;tipos-de-erro&#34; class=&#34;section level2&#34;&gt;
&lt;h2&gt;Tipos de erro&lt;/h2&gt;
&lt;p&gt;Existem &lt;span class=&#34;math inline&#34;&gt;\(4\)&lt;/span&gt; possíveis resultados que
podem decorrer de um teste de hipótese.
Note que o teste de hipótese pode rejeitar ou
não rejeitar a hipótese nula e, também,
esta hipótese pode ser verdadeira ou falsa.
Assim, existem &lt;span class=&#34;math inline&#34;&gt;\(4\)&lt;/span&gt; combinações de resultados possíveis:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;(Acerto) A hipótese nula é verdadeira e não é rejeitada.&lt;/li&gt;
&lt;li&gt;(Acerto) A hipótese nula é falsa e é rejeitada.&lt;/li&gt;
&lt;li&gt;(Erro tipo I) A hipótese nula é verdadeira e é rejeitada.&lt;/li&gt;
&lt;li&gt;(Erro tipo II) A hipótese nula é falsa e não é rejeitada.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Estas combinações podem ser representadas na seguinte tabela:&lt;/p&gt;
&lt;div id=&#34;htmlwidget-1&#34; style=&#34;width:100%;height:auto;&#34; class=&#34;datatables html-widget&#34;&gt;&lt;/div&gt;
&lt;script type=&#34;application/json&#34; data-for=&#34;htmlwidget-1&#34;&gt;{&#34;x&#34;:{&#34;filter&#34;:&#34;none&#34;,&#34;vertical&#34;:false,&#34;data&#34;:[[&#34;Rejeita H&#34;,&#34;Não rejeita H&#34;],[&#34;Erro tipo I&#34;,&#34;Acerto&#34;],[&#34;Acerto&#34;,&#34;Erro tipo II&#34;]],&#34;container&#34;:&#34;&lt;table class=\&#34;display\&#34;&gt;\n  &lt;thead&gt;\n    &lt;tr&gt;\n      &lt;th&gt;&lt;\/th&gt;\n      &lt;th&gt;H é verdadeira&lt;\/th&gt;\n      &lt;th&gt;H é falsa&lt;\/th&gt;\n    &lt;\/tr&gt;\n  &lt;\/thead&gt;\n&lt;\/table&gt;&#34;,&#34;options&#34;:{&#34;dom&#34;:&#34;ti&#34;,&#34;columnDefs&#34;:[],&#34;order&#34;:[],&#34;autoWidth&#34;:false,&#34;orderClasses&#34;:false}},&#34;evals&#34;:[],&#34;jsHooks&#34;:[]}&lt;/script&gt;
&lt;p&gt;Note que existe um balanço entre
os erros tipo I e II.
Por exemplo, se quiséssemos
que a probabilidade de cometer
um erro tipo I fosse 0,
então poderíamos nunca rejeitar H.
Contudo, neste caso,
a probabilidade de cometer
um erro tipo II seria 1.
Analogamente, se sempre rejeitarmos H,
então as probabilidades de erro tipo I e II
serão, respectivamente, 1 e 0.
Na prática, rejeitamos &lt;span class=&#34;math inline&#34;&gt;\(H_0\)&lt;/span&gt; quando
os dados oferecem evidência contrária a este hipótese.
Assim, buscamos que as probabilidades de cometer
um erro tipo I ou um erro tipo II sejam baixas.&lt;/p&gt;
&lt;p&gt;Uma outra observação importante é que,
em geral, não sabemos se cometemos um erro em um teste de hipótese.
Para saber se &lt;span class=&#34;math inline&#34;&gt;\(H_0\)&lt;/span&gt; é verdadeiro ou não,
seria necessária observar a população.
Como apenas somos capazes de observar a amostra,
não somos capazes de determinar se &lt;span class=&#34;math inline&#34;&gt;\(H_0\)&lt;/span&gt; é verdadeiro ou não.
Assim, não sabemos se o resultado do teste de hipótese
foi um acerto ou um erro.&lt;/p&gt;
&lt;p&gt;Apesar da limitação acima, podemos controlar
as probabilidades de erro tipo I e II de um teste.
Isto é, podemos desenvolver testes que,
antes de observar o banco de dados, tenham
uma baixa probabilidade de cometer um erro.&lt;/p&gt;
&lt;p&gt;Convecionou-se que a hipótese nula deve
ser escolhida de tal forma que
o erro tipo I seja mais grave que o erro tipo II.
Por exemplo, é mais grave concluir que
um rio não está poluído quando ele está poluído
do que concluir que ele está poluído quando de fato não está.
Assim, neste caso, tomaríamos a hipótese nula como
aquela de que o rio está poluído, pois assim o
erro tipo I seria o de rejeitar que o rio está poluído
quando ele de fato está.&lt;/p&gt;
&lt;p&gt;Como o erro tipo I é o mais grave,
construímos testes de hipótese que diretamente
controlam a probabilidade de erro tipo I.
Formalmente, determinaremos testes de hipótese tais que
o erro tipo I seja menor que um valor pré-determinado, &lt;span class=&#34;math inline&#34;&gt;\(\alpha\)&lt;/span&gt;.
É comum que &lt;span class=&#34;math inline&#34;&gt;\(\alpha\)&lt;/span&gt; seja chamado de
&lt;strong&gt;nível de significância&lt;/strong&gt; do teste.&lt;/p&gt;
&lt;div id=&#34;exemplo-normal-com-variância-conhecida&#34; class=&#34;section level3&#34;&gt;
&lt;h3&gt;Exemplo: normal com variância conhecida&lt;/h3&gt;
&lt;p&gt;Considere que &lt;span class=&#34;math inline&#34;&gt;\(X_{1},\ldots,X_{n}\)&lt;/span&gt; são
observações independentes e tais que
&lt;span class=&#34;math inline&#34;&gt;\(X_{i} \sim N(\mu,\sigma_0^2)\)&lt;/span&gt;, onde
&lt;span class=&#34;math inline&#34;&gt;\(\sigma_0^2\)&lt;/span&gt; é conhecido. Por exemplo,
&lt;span class=&#34;math inline&#34;&gt;\(X_i\)&lt;/span&gt; pode ser o peso da &lt;span class=&#34;math inline&#34;&gt;\(i\)&lt;/span&gt;-ésima vaca
alimentada com uma determinada ração.
Deseja-se provar que o peso médio de
vacas alimentadas com esta ração é maior do que
&lt;span class=&#34;math inline&#34;&gt;\(500 kg\)&lt;/span&gt;, ou seja, a hipótese nula é
&lt;span class=&#34;math inline&#34;&gt;\(H_0: \mu \leq 500\)&lt;/span&gt;.&lt;/p&gt;
&lt;p&gt;Para capturar o quanta a evidência
os dados trazem contra &lt;span class=&#34;math inline&#34;&gt;\(H_0\)&lt;/span&gt;, podemos
calcular o quanto a média amostral supera
o valor de &lt;span class=&#34;math inline&#34;&gt;\(\mu_0\)&lt;/span&gt;, isto é,
&lt;span class=&#34;math inline&#34;&gt;\(\bar{X}-\mu_0\)&lt;/span&gt;. Gostaríamos de rejeitar
a hipótese nula quando &lt;span class=&#34;math inline&#34;&gt;\(\bar{X}\)&lt;/span&gt; é muito maior que &lt;span class=&#34;math inline&#34;&gt;\(\mu_0\)&lt;/span&gt;,
isto é, &lt;span class=&#34;math inline&#34;&gt;\(\bar{X}-\mu_0 &amp;gt; c\)&lt;/span&gt;, onde &lt;span class=&#34;math inline&#34;&gt;\(c\)&lt;/span&gt; é
escolhido de forma a controlar o erro tipo I.
A seguir, veremos como realizar este controle.&lt;/p&gt;
&lt;p&gt;O erro tipo I é a probabilidade de rejeitar
a hipótese nula quando ela é verdadeira.
Isto é, para obter o erro tipo I,
queremos calcular &lt;span class=&#34;math inline&#34;&gt;\(P(\bar{X} - \mu_0 &amp;gt; c)\)&lt;/span&gt; sob &lt;span class=&#34;math inline&#34;&gt;\(H_0\)&lt;/span&gt;.
Especificamente, gostaríamos que
&lt;span class=&#34;math inline&#34;&gt;\(P(\bar{X} - \mu_0 &amp;gt; c) \leq \alpha\)&lt;/span&gt; sob &lt;span class=&#34;math inline&#34;&gt;\(H_0\)&lt;/span&gt;.
Para realizar esta desigualdade, note que
decorre das propriedades da distribuição normal que,
sob o valor extremo o extremo da hipótese nula (&lt;span class=&#34;math inline&#34;&gt;\(\mu = \mu_0\)&lt;/span&gt;),
temos que &lt;span class=&#34;math inline&#34;&gt;\(\bar{X}-\mu_0 \sim N\left(0,\frac{\sigma_0^2}{n}\right)\)&lt;/span&gt;.
Assim, utilizando a padronização da distribuição normal, obtemos que
se &lt;span class=&#34;math inline&#34;&gt;\(\mu = 500\)&lt;/span&gt;,
&lt;span class=&#34;math display&#34;&gt;\[
Z := \frac{\bar{X}-\mu_0}{\sqrt{\frac{\sigma_0^2}{n}}} \sim N(0, 1)
\]&lt;/span&gt;
Portanto,
&lt;span class=&#34;math display&#34;&gt;\[
\begin{align*}
P(\bar{X}-\mu_0 &amp;gt; c)
&amp;amp;= P\left(\frac{\bar{X}-\mu_0}{\sqrt{\frac{\sigma_0^2}{n}}} &amp;gt; \frac{\sqrt{n}c}{\sigma_0}\right) \\
&amp;amp;= P\left(Z &amp;gt; \frac{\sqrt{n}c}{\sigma_0}\right) \\
&amp;amp;= 1 - P\left(Z \leq \frac{\sqrt{n}c}{\sigma_0}\right) \\
&amp;amp;= 1 - \text{pnorm}\left(\frac{\sqrt{n}c}{\sigma_0}\right)
\end{align*}
\]&lt;/span&gt;
Para controlar o erro tipo &lt;span class=&#34;math inline&#34;&gt;\(I\)&lt;/span&gt;,
desejamos que sob &lt;span class=&#34;math inline&#34;&gt;\(H_0\)&lt;/span&gt;,
&lt;span class=&#34;math inline&#34;&gt;\(P(\bar{X}-\mu_0 &amp;gt; c) = \alpha\)&lt;/span&gt;.
Utilizamos as equações acima, obtemos
&lt;span class=&#34;math display&#34;&gt;\[
\begin{align*}
\alpha &amp;amp;= 1 - \text{pnorm}\left(\frac{\sqrt{n}c}{\sigma_0}\right) \\
1- \alpha &amp;amp;= \text{pnorm}\left(\frac{\sqrt{n}c}{\sigma_0}\right) \\
\text{qnorm}(1-\alpha)
&amp;amp;=  \text{qnorm}\left(\text{pnorm}\left(\frac{\sqrt{n}c}{\sigma_0}\right)\right) \\
\text{qnorm}(1-\alpha)
&amp;amp;= \frac{\sqrt{n}c}{\sigma_0} \\
\frac{\text{qnorm}(1-\alpha)\sigma_0}{\sqrt{n}} &amp;amp;= c
\end{align*}
\]&lt;/span&gt;
Assim, para controlar o erro tipo I em &lt;span class=&#34;math inline&#34;&gt;\(\alpha\)&lt;/span&gt;,
rejeitamos a a hipótese nula &lt;span class=&#34;math inline&#34;&gt;\(H_0:\mu \leq \mu_0\)&lt;/span&gt; quando
&lt;span class=&#34;math display&#34;&gt;\[\bar{X}-\mu_0 &amp;gt; \frac{\text{qnorm}(1-\alpha)\sigma_0}{\sqrt{n}}.\]&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;Por exemplo, considere que observamos &lt;span class=&#34;math inline&#34;&gt;\(9\)&lt;/span&gt; vacas
alimentadas com a ração de interesse.
Sabemos que o desvio padrão nos pesos destas vacas é de &lt;span class=&#34;math inline&#34;&gt;\(50 kg\)&lt;/span&gt;
e, portanto, o peso de cada vaca é &lt;span class=&#34;math inline&#34;&gt;\(X_i \sim N(\mu, 50^2)\)&lt;/span&gt;.
O peso médio destas foi de &lt;span class=&#34;math inline&#34;&gt;\(530\)&lt;/span&gt;.
Se desejamos testar a hipótese &lt;span class=&#34;math inline&#34;&gt;\(H_0: \mu \leq 500\)&lt;/span&gt; a
um nível de &lt;span class=&#34;math inline&#34;&gt;\(\alpha = 5\%\)&lt;/span&gt;, podemos
realizar os cálculos no &lt;strong&gt;R&lt;/strong&gt; da seguinte forma:&lt;/p&gt;
&lt;pre class=&#34;r&#34;&gt;&lt;code&gt;mu0 = 500
n = 9
sigma0 = 50
media = 530
alpha = 0.05
qnorm(1-alpha)&lt;/code&gt;&lt;/pre&gt;
&lt;pre&gt;&lt;code&gt;## [1] 1.644854&lt;/code&gt;&lt;/pre&gt;
&lt;pre class=&#34;r&#34;&gt;&lt;code&gt;c = qnorm(1-alpha) * sigma0 / sqrt(n)
c&lt;/code&gt;&lt;/pre&gt;
&lt;pre&gt;&lt;code&gt;## [1] 27.41423&lt;/code&gt;&lt;/pre&gt;
&lt;pre class=&#34;r&#34;&gt;&lt;code&gt;media - mu0 &amp;gt; c&lt;/code&gt;&lt;/pre&gt;
&lt;pre&gt;&lt;code&gt;## [1] TRUE&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;Como a média amostral supera &lt;span class=&#34;math inline&#34;&gt;\(c\)&lt;/span&gt; a
um nível de &lt;span class=&#34;math inline&#34;&gt;\(0.05\)&lt;/span&gt;, rejeitamos a hipótese nula.
Note que, se exercemos um maior controle sobre
o erro tipo I, então não rejeitaremos
a hipótese nula. Por exemplo,
se tomássemos &lt;span class=&#34;math inline&#34;&gt;\(\alpha = 0.01\)&lt;/span&gt;,
então o teste de hipótese seria mais conservador e
não rejeitaríamos a hipótese nula.&lt;/p&gt;
&lt;pre class=&#34;r&#34;&gt;&lt;code&gt;alpha = 0.01
qnorm(1-alpha)&lt;/code&gt;&lt;/pre&gt;
&lt;pre&gt;&lt;code&gt;## [1] 2.326348&lt;/code&gt;&lt;/pre&gt;
&lt;pre class=&#34;r&#34;&gt;&lt;code&gt;c = qnorm(1-alpha) * sigma0 / sqrt(n)
c&lt;/code&gt;&lt;/pre&gt;
&lt;pre&gt;&lt;code&gt;## [1] 38.77246&lt;/code&gt;&lt;/pre&gt;
&lt;pre class=&#34;r&#34;&gt;&lt;code&gt;media - mu0  &amp;gt; c&lt;/code&gt;&lt;/pre&gt;
&lt;pre&gt;&lt;code&gt;## [1] FALSE&lt;/code&gt;&lt;/pre&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;div id=&#34;p-valor&#34; class=&#34;section level2&#34;&gt;
&lt;h2&gt;p-valor&lt;/h2&gt;
&lt;p&gt;Na amostra estudada no exemplo anterior,
verificamos que se fixássemos &lt;span class=&#34;math inline&#34;&gt;\(\alpha = 0.05\)&lt;/span&gt;,
então o teste rejeitaria a hipótese nula.
Por outro lado, se fixássemos &lt;span class=&#34;math inline&#34;&gt;\(\alpha = 0.01\)&lt;/span&gt;,
o teste não rejeitaria a hipótese nula.
Isto ocorre pois quanto menor o valor de &lt;span class=&#34;math inline&#34;&gt;\(\alpha\)&lt;/span&gt;,
mais o teste fica conservador em rejeitar &lt;span class=&#34;math inline&#34;&gt;\(H_0\)&lt;/span&gt;.
Decorre deste comportamento que,
enquanto que para valores “grandes” de &lt;span class=&#34;math inline&#34;&gt;\(\alpha\)&lt;/span&gt;,
o teste rejeitará &lt;span class=&#34;math inline&#34;&gt;\(H_0\)&lt;/span&gt;,
para valores “pequenos” de &lt;span class=&#34;math inline&#34;&gt;\(\alpha\)&lt;/span&gt;
o teste não rejeitará &lt;span class=&#34;math inline&#34;&gt;\(H_0\)&lt;/span&gt;.&lt;/p&gt;
&lt;p&gt;Um valor de interesse é o menor &lt;span class=&#34;math inline&#34;&gt;\(\alpha\)&lt;/span&gt;
tal que o teste rejeita &lt;span class=&#34;math inline&#34;&gt;\(H_0\)&lt;/span&gt; para a amostra observada.
Este &lt;span class=&#34;math inline&#34;&gt;\(\alpha^*\)&lt;/span&gt; é comumente chamado de &lt;strong&gt;p-valor&lt;/strong&gt;.
Este valor pode ser muito útil
para compartilhar resultados.
Note que, para a amostra observada,
se um pesquisador fixar um &lt;span class=&#34;math inline&#34;&gt;\(\alpha &amp;gt; \alpha^*\)&lt;/span&gt;,
então ele rejeitará &lt;span class=&#34;math inline&#34;&gt;\(H_0\)&lt;/span&gt;. Por outro lado,
se ele fixar &lt;span class=&#34;math inline&#34;&gt;\(\alpha &amp;lt; \alpha^*\)&lt;/span&gt;,
então não rejeitará &lt;span class=&#34;math inline&#34;&gt;\(H_0\)&lt;/span&gt;. Assim,
somente comparando o p-valor com o &lt;span class=&#34;math inline&#34;&gt;\(\alpha\)&lt;/span&gt; fixado,
é possível saber o resultado do teste.
Portanto, mesmo pesquisadores fixando
níveis de significância diferentes podem
saber o resultado do teste de hipótese apenas
observando o p-valor.&lt;/p&gt;
&lt;div id=&#34;p-valor-na-normal-com-variância-conhecida&#34; class=&#34;section level3&#34;&gt;
&lt;h3&gt;p-valor na normal com variância conhecida&lt;/h3&gt;
&lt;p&gt;No exemplo do teste de hipótese para
a média da normal com variância conhecida,
lembre que &lt;span class=&#34;math inline&#34;&gt;\(H_0: \mu \leq \mu_0\)&lt;/span&gt; é
rejeitado para todos os valores
de &lt;span class=&#34;math inline&#34;&gt;\(\alpha\)&lt;/span&gt; tais que:&lt;/p&gt;
&lt;p&gt;&lt;span class=&#34;math display&#34;&gt;\[\bar{X}-\mu_0 &amp;gt; \frac{\text{qnorm}(1-\alpha)\sigma_0}{\sqrt{n}}\]&lt;/span&gt;
Portanto, o menor valor de &lt;span class=&#34;math inline&#34;&gt;\(\alpha\)&lt;/span&gt; tal que &lt;span class=&#34;math inline&#34;&gt;\(H_0\)&lt;/span&gt;
é rejeitado, &lt;span class=&#34;math inline&#34;&gt;\(\alpha^*\)&lt;/span&gt; é tal que
&lt;span class=&#34;math display&#34;&gt;\[\bar{X}-\mu_0 = \frac{\text{qnorm}(1-\alpha^*)\sigma_0}{\sqrt{n}}\]&lt;/span&gt;
Com algumas manipulações aritméticas podemos determinar
o valor de &lt;span class=&#34;math inline&#34;&gt;\(\alpha^*\)&lt;/span&gt;, isto é, o p-valor:
&lt;span class=&#34;math display&#34;&gt;\[
\begin{align*}
\bar{X}-\mu_0
&amp;amp;= \frac{\text{qnorm}(1-\alpha^*)\sigma_0}{\sqrt{n}} \\
\frac{\sqrt{n}(\bar{X}-\mu_0)}{\sigma_0}
&amp;amp;= \text{qnorm}(1-\alpha^*) \\
\text{pnorm}\left(\frac{\sqrt{n}(\bar{X}-\mu_0)}{\sigma_0}\right)
&amp;amp;= \text{pnorm}(\text{qnorm}(1-\alpha^*)) \\
\text{pnorm}\left(\frac{\sqrt{n}(\bar{X}-\mu_0)}{\sigma_0}\right)
&amp;amp;= 1 - \alpha^* \\
1 - \text{pnorm}\left(\frac{\sqrt{n}(\bar{X}-\mu_0)}{\sigma_0}\right)
&amp;amp;= \alpha^*
\end{align*}
\]&lt;/span&gt;
Portanto, o p-valor neste caso é
o &lt;span class=&#34;math inline&#34;&gt;\(\alpha^*\)&lt;/span&gt; tal que
&lt;span class=&#34;math display&#34;&gt;\[
\alpha^* = 1 - \text{pnorm}\left(\frac{\sqrt{n}(\bar{X}-\mu_0)}{\sigma_0}\right)
\]&lt;/span&gt;&lt;/p&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;div id=&#34;exercícios&#34; class=&#34;section level1&#34;&gt;
&lt;h1&gt;Exercícios&lt;/h1&gt;
&lt;ol style=&#34;list-style-type: decimal&#34;&gt;
&lt;li&gt;&lt;p&gt;Descreva em suas próprias palavras: teste de hipótese,
erro tipo I, erro tipo II, nível de significância e p-valor.&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;Um cientista mede um objeto &lt;span class=&#34;math inline&#34;&gt;\(9\)&lt;/span&gt; vezes com um paquímetro e
observa os valores em mm de:
1.2, 1.4, 1.7, 1.3, 1.5, 1.1, 1.8, 1.4, 1.1.
Se as medições com o paquímetro tem desvio padrão de 0.2 mm,
o pesquisador consegue rejeitar a hipótese de que
o comprimento do objeto é menor do que &lt;span class=&#34;math inline&#34;&gt;\(1.3 mm\)&lt;/span&gt;?
Qual o p-valor para esta hipótese na amostra observada?&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;Considere o caso da normal com variância conhecida.
Ou seja, cada observação é tal que &lt;span class=&#34;math inline&#34;&gt;\(X_{i} \sim N(\mu,\sigma_0^2)\)&lt;/span&gt;.
Considere que desejamos testar &lt;span class=&#34;math inline&#34;&gt;\(H_0: \mu \geq \mu_0\)&lt;/span&gt;.
Neste caso, faria sentido calcular como evidência contra &lt;span class=&#34;math inline&#34;&gt;\(H_0\)&lt;/span&gt;
o quanto &lt;span class=&#34;math inline&#34;&gt;\(\bar{X}\)&lt;/span&gt; é menor que &lt;span class=&#34;math inline&#34;&gt;\(\mu_0\)&lt;/span&gt;?
Se sim, rejeitaríamos &lt;span class=&#34;math inline&#34;&gt;\(H_0\)&lt;/span&gt; quando &lt;span class=&#34;math inline&#34;&gt;\(\bar{X}-\mu_0 &amp;lt; c\)&lt;/span&gt;.
Utilizando passos análogos ao da seção da normal com variância conhecida,
o valor de &lt;span class=&#34;math inline&#34;&gt;\(c\)&lt;/span&gt; tal que
a probabilidade de erro tipo I é controlada por &lt;span class=&#34;math inline&#34;&gt;\(\alpha\)&lt;/span&gt;.
Determine o p-valor deste teste.&lt;/p&gt;&lt;/li&gt;
&lt;li&gt;&lt;p&gt;Considere novamente o caso da normal com variância conhecida,
ou seja, cada observação é tal que &lt;span class=&#34;math inline&#34;&gt;\(X_{i} \sim N(\mu,\sigma_0^2)\)&lt;/span&gt;.
A medida &lt;span class=&#34;math inline&#34;&gt;\(|\bar{X}-\mu_0|\)&lt;/span&gt; captura evidência contra &lt;span class=&#34;math inline&#34;&gt;\(H_0: \mu = \mu_0\)&lt;/span&gt;?
Se desejamos rejeitar &lt;span class=&#34;math inline&#34;&gt;\(H_0\)&lt;/span&gt; quando &lt;span class=&#34;math inline&#34;&gt;\(|\bar{X}-\mu_0| &amp;gt; c\)&lt;/span&gt;,
determine o valor de &lt;span class=&#34;math inline&#34;&gt;\(c\)&lt;/span&gt; que controla o erro tipo I em &lt;span class=&#34;math inline&#34;&gt;\(\alpha\)&lt;/span&gt;.
Determine o p-valor deste teste.&lt;/p&gt;&lt;/li&gt;
&lt;/ol&gt;
&lt;/div&gt;
</description>
    </item>
    
    <item>
      <title>Testes para uma população</title>
      <link>https://www.rafaelstern.science/courses/intro_stat/aulas/10_teste_1_pop/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>https://www.rafaelstern.science/courses/intro_stat/aulas/10_teste_1_pop/</guid>
      <description>
&lt;script src=&#34;https://www.rafaelstern.science/rmarkdown-libs/htmlwidgets/htmlwidgets.js&#34;&gt;&lt;/script&gt;
&lt;link href=&#34;https://www.rafaelstern.science/rmarkdown-libs/datatables-css/datatables-crosstalk.css&#34; rel=&#34;stylesheet&#34; /&gt;
&lt;script src=&#34;https://www.rafaelstern.science/rmarkdown-libs/datatables-binding/datatables.js&#34;&gt;&lt;/script&gt;
&lt;script src=&#34;https://www.rafaelstern.science/rmarkdown-libs/jquery/jquery-3.6.0.min.js&#34;&gt;&lt;/script&gt;
&lt;link href=&#34;https://www.rafaelstern.science/rmarkdown-libs/dt-core/css/jquery.dataTables.min.css&#34; rel=&#34;stylesheet&#34; /&gt;
&lt;link href=&#34;https://www.rafaelstern.science/rmarkdown-libs/dt-core/css/jquery.dataTables.extra.css&#34; rel=&#34;stylesheet&#34; /&gt;
&lt;script src=&#34;https://www.rafaelstern.science/rmarkdown-libs/dt-core/js/jquery.dataTables.min.js&#34;&gt;&lt;/script&gt;
&lt;link href=&#34;https://www.rafaelstern.science/rmarkdown-libs/crosstalk/css/crosstalk.min.css&#34; rel=&#34;stylesheet&#34; /&gt;
&lt;script src=&#34;https://www.rafaelstern.science/rmarkdown-libs/crosstalk/js/crosstalk.min.js&#34;&gt;&lt;/script&gt;


&lt;div id=&#34;testes-para-uma-população-sigma2-desconhecido&#34; class=&#34;section level1&#34;&gt;
&lt;h1&gt;Testes para uma população (&lt;span class=&#34;math inline&#34;&gt;\(\sigma^2\)&lt;/span&gt; desconhecido)&lt;/h1&gt;
&lt;p&gt;Considere uma amostra independente,
&lt;span class=&#34;math inline&#34;&gt;\(X_{1}, \ldots, X_{n}\)&lt;/span&gt; tal que
&lt;span class=&#34;math inline&#34;&gt;\(X_{i} \sim N(\mu, \sigma^2)\)&lt;/span&gt;,
onde &lt;span class=&#34;math inline&#34;&gt;\(\mu\)&lt;/span&gt; e &lt;span class=&#34;math inline&#34;&gt;\(\sigma^2\)&lt;/span&gt; são desconhecidos.
Note que, ao contrário das aulas anteriores,
consideramos que &lt;span class=&#34;math inline&#34;&gt;\(\sigma^2\)&lt;/span&gt; é desconhecido.
Neste contexto, comumente estamos interessados
em testar as hipóteses:
&lt;span class=&#34;math display&#34;&gt;\[
\begin{align*}
H_0:
\begin{cases}
  (a) \text{ } \mu \leq \mu_0 &amp;amp; \\
  (b) \text{ } \mu \geq \mu_0 &amp;amp; \\
  (c) \text{ } \mu = \mu_0 &amp;amp;
\end{cases}
\end{align*}
\]&lt;/span&gt;&lt;/p&gt;
&lt;div id=&#34;regiões-críticas&#34; class=&#34;section level2&#34;&gt;
&lt;h2&gt;Regiões críticas&lt;/h2&gt;
&lt;p&gt;Similarmente às aulas passadas,
desejamos rejeitar &lt;span class=&#34;math inline&#34;&gt;\(H_0\)&lt;/span&gt; para
os casos (a), (b) e (c) quando, respectivamente,
&lt;span class=&#34;math display&#34;&gt;\[
\begin{cases}
(a) \text{ } \bar{X}-\mu_0 &amp;gt; k_{a} &amp;amp; \\
(b) \text{ } \bar{X}-\mu_0 &amp;lt; k_{b} &amp;amp; \\
(c) \text{ } |\bar{X}-\mu_{0}| &amp;gt; k_{c}
\end{cases}
\]&lt;/span&gt;&lt;/p&gt;
&lt;p&gt;Nestes testes,
determinamos os valores de
&lt;span class=&#34;math inline&#34;&gt;\(k_{a}\)&lt;/span&gt;, &lt;span class=&#34;math inline&#34;&gt;\(k_{b}\)&lt;/span&gt; e &lt;span class=&#34;math inline&#34;&gt;\(k_{c}\)&lt;/span&gt; utilizando
a condição de que a probabilidade
de erro tipo &lt;span class=&#34;math inline&#34;&gt;\(I\)&lt;/span&gt; é &lt;span class=&#34;math inline&#34;&gt;\(\alpha\)&lt;/span&gt;.
Para usar esta condição,
em aulas anteriores padronizamos
a quantidade &lt;span class=&#34;math inline&#34;&gt;\(\bar{X}-\mu_0\)&lt;/span&gt;
dividindo-a por &lt;span class=&#34;math inline&#34;&gt;\(\frac{\sigma}{n}\)&lt;/span&gt;.
Contudo, agora consideramos que
&lt;span class=&#34;math inline&#34;&gt;\(\sigma\)&lt;/span&gt; é desconhecido e, portanto,
não é possível realizar esta padronização.
Ao contrário, utilizamos a padronização
alternativa de que, quando &lt;span class=&#34;math inline&#34;&gt;\(\mu = \mu_0\)&lt;/span&gt;,
&lt;span class=&#34;math inline&#34;&gt;\(\frac{\sqrt{n-1}(\bar{X}-\mu_0)}{S} \sim T_{n-1}\)&lt;/span&gt;.
Assim, tomando &lt;span class=&#34;math inline&#34;&gt;\(\mu = \mu_0\)&lt;/span&gt;, calculamos a
probabilidade de erro tipo I da seguinte forma
&lt;span class=&#34;math display&#34;&gt;\[
\begin{align*}
P(\bar{X}-\mu_0 &amp;gt; k_a)
&amp;amp;= P\left(\frac{\sqrt{n-1}(\bar{X}-\mu_0)}{S} &amp;gt; \frac{\sqrt{n-1}k_a}{S}\right) \\
&amp;amp;= P\left(T_{n-1} &amp;gt; \frac{\sqrt{n-1}k_a}{S} \right) \\
&amp;amp;= 1- pt\left(\frac{\sqrt{n-1}k_a}{S}, df = n-1\right)
\end{align*}
\]&lt;/span&gt;
Semelhamentemente, obtemos
&lt;span class=&#34;math display&#34;&gt;\[
\begin{align*}
P(\bar{X}-\mu_0 &amp;lt; k_b)
&amp;amp;= pt\left(\frac{\sqrt{n-1}k_b}{S}, df = n-1\right) \\
P(|\bar{X}-\mu_0| &amp;gt; k_c)
&amp;amp;= 2pt\left(-\frac{\sqrt{n-1}k_c}{S}, df = n-1\right)
\end{align*}
\]&lt;/span&gt;
Os valores de &lt;span class=&#34;math inline&#34;&gt;\(k_a\)&lt;/span&gt;, &lt;span class=&#34;math inline&#34;&gt;\(k_b\)&lt;/span&gt; e &lt;span class=&#34;math inline&#34;&gt;\(k_C\)&lt;/span&gt;
são determinados de forma que,
sob a hipótese nula, a
probabilidade de rejeição seja &lt;span class=&#34;math inline&#34;&gt;\(\alpha\)&lt;/span&gt;.
Assim, por exemplo, para &lt;span class=&#34;math inline&#34;&gt;\(H_0: \mu \leq \mu_0\)&lt;/span&gt;,
obtemos a equação
&lt;span class=&#34;math display&#34;&gt;\[
\begin{align*}
1- pt\left(\frac{\sqrt{n-1}k_a}{S}, df = n-1\right) &amp;amp;= \alpha \\
pt\left(\frac{\sqrt{n-1}k_a}{S}, df = n-1\right) &amp;amp;= 1-\alpha \\
\frac{\sqrt{n-1}k_a}{S} &amp;amp;= qt(1-\alpha, df=n-1) \\
k_a &amp;amp;= \frac{qt(1-\alpha, df=n-1) S}{\sqrt{n-1}}
\end{align*}
\]&lt;/span&gt;
Similarmente, obtemos
&lt;span class=&#34;math display&#34;&gt;\[
\begin{align*}
k_b &amp;amp;= \frac{qt(\alpha, df=n-1) S}{\sqrt{n-1}} \\
k_c &amp;amp;= \frac{qt(1-0.5\alpha, df=n-1) S}{\sqrt{n-1}}
\end{align*}
\]&lt;/span&gt;
Portanto, as hipóteses em (a), (b) e (c)
são rejeitadas, respectivamente, quando
&lt;span class=&#34;math display&#34;&gt;\[
\begin{cases}
\text{(a) } \bar{X}-\mu_0 &amp;gt; \frac{qt(1-\alpha, df=n-1) S}{\sqrt{n-1}} \\
\text{(b) } \bar{X}-\mu_0 &amp;lt; \frac{qt(\alpha, df=n-1) S}{\sqrt{n-1}} \\
\text{(c) } |\bar{X}-\mu_0| &amp;gt; \frac{qt(1-0.5\alpha, df=n-1) S}{\sqrt{n-1}}
\end{cases}
\]&lt;/span&gt;&lt;/p&gt;
&lt;/div&gt;
&lt;div id=&#34;exemplo&#34; class=&#34;section level2&#34;&gt;
&lt;h2&gt;Exemplo&lt;/h2&gt;
&lt;p&gt;Considere que um pesquisador inexperiente com o paquímetro
mede um objeto &lt;span class=&#34;math inline&#34;&gt;\(9\)&lt;/span&gt; vezes e observa os valores em milímetros:&lt;/p&gt;
&lt;pre class=&#34;r&#34;&gt;&lt;code&gt;dados = c(1.1, 1.3, 1.3, 1.4, 1.6, 1.8, 1.8, 1.9, 2.2)&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;Considere que o pesquisador deseja testar
a um nível de &lt;span class=&#34;math inline&#34;&gt;\(\alpha = 0.01\)&lt;/span&gt; se
o cumprimento do objeto é 1.5 milímetros, isto é,
&lt;span class=&#34;math inline&#34;&gt;\(H_0: \mu_0 = 1.5\)&lt;/span&gt;. Para tal, ele usará
a região critica identificada em (c),
que pode ser calculada no R da seguinte forma&lt;/p&gt;
&lt;pre class=&#34;r&#34;&gt;&lt;code&gt; mu_0 = 1.5
 alpha = 0.01
 n = length(dados)
 S = sd(dados) * sqrt(n-1)/sqrt(n)
 media = mean(dados)
 lado_esquerdo = abs(media - mu_0)
 lado_esquerdo&lt;/code&gt;&lt;/pre&gt;
&lt;pre&gt;&lt;code&gt;## [1] 0.1&lt;/code&gt;&lt;/pre&gt;
&lt;pre class=&#34;r&#34;&gt;&lt;code&gt; lado_direito = qt(1-0.5*alpha, df=n-1)*S/sqrt(n-1)
 lado_direito&lt;/code&gt;&lt;/pre&gt;
&lt;pre&gt;&lt;code&gt;## [1] 0.3954362&lt;/code&gt;&lt;/pre&gt;
&lt;pre class=&#34;r&#34;&gt;&lt;code&gt; lado_esquerdo &amp;gt; lado_direito&lt;/code&gt;&lt;/pre&gt;
&lt;pre&gt;&lt;code&gt;## [1] FALSE&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;Note que o cálculo em &lt;em&gt;lado_esquerdo&lt;/em&gt; no código
corresponde a &lt;span class=&#34;math inline&#34;&gt;\(|\bar{X}-\mu_0|\)&lt;/span&gt; e o &lt;em&gt;lado_direito&lt;/em&gt;
no código corresponde a
&lt;span class=&#34;math inline&#34;&gt;\(\frac{qt(1-0.5\alpha, df=n-1) S}{\sqrt{n-1}}\)&lt;/span&gt;.
Como obtemos que é falso que o lado esquerdo é
maior que o lado direito, não rejeitamos
a hipótese nula.&lt;/p&gt;
&lt;p&gt;Este teste também já está implementado no
&lt;strong&gt;R&lt;/strong&gt; e podemos obter o resultado que buscamos
digitando diretamente&lt;/p&gt;
&lt;pre class=&#34;r&#34;&gt;&lt;code&gt;t.test(dados, 
       alternative = &amp;quot;two.sided&amp;quot;, 
       mu = 1.5, 
       conf.level = 1-alpha)&lt;/code&gt;&lt;/pre&gt;
&lt;pre&gt;&lt;code&gt;## 
##  One Sample t-test
## 
## data:  dados
## t = 0.84853, df = 8, p-value = 0.4208
## alternative hypothesis: true mean is not equal to 1.5
## 99 percent confidence interval:
##  1.204564 1.995436
## sample estimates:
## mean of x 
##       1.6&lt;/code&gt;&lt;/pre&gt;
&lt;p&gt;Como o p-valor é &lt;span class=&#34;math inline&#34;&gt;\(0.42\)&lt;/span&gt; e
&lt;span class=&#34;math inline&#34;&gt;\(\alpha = 0.05\)&lt;/span&gt; é menor que o p-valor,
não rejeitamos a hipótese de que
&lt;span class=&#34;math inline&#34;&gt;\(H_0: \mu = 1.5\)&lt;/span&gt;.&lt;/p&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;div id=&#34;exercícios&#34; class=&#34;section level1&#34;&gt;
&lt;h1&gt;Exercícios&lt;/h1&gt;
&lt;ol style=&#34;list-style-type: decimal&#34;&gt;
&lt;li&gt;Para que um rio tenha água salubre,
a concentração de uma determinada substância deve
ser inferior a 10 mg/L. Uma amostra de água foi
tomada em &lt;span class=&#34;math inline&#34;&gt;\(9\)&lt;/span&gt; pontos distintos do rio,
observando-se concentrações da substância em
mg/L de: 2, 2, 5, 6, 6, 7, 8, 8, 12.
Deseja-se testar se a água do rio e salubre.&lt;/li&gt;
&lt;/ol&gt;
&lt;ol style=&#34;list-style-type: lower-alpha&#34;&gt;
&lt;li&gt;Descreve os erros que podem ser cometidos neste teste. Qual o mais grave?&lt;/li&gt;
&lt;li&gt;Qual a hipótese nula a ser testada?&lt;/li&gt;
&lt;li&gt;Teste a hipótese nula a um nível de significância de &lt;span class=&#34;math inline&#34;&gt;\(\alpha = 0.05\)&lt;/span&gt;.&lt;/li&gt;
&lt;li&gt;Calcule o p-valor deste teste.&lt;/li&gt;
&lt;/ol&gt;
&lt;div id=&#34;htmlwidget-1&#34; style=&#34;width:100%;height:auto;&#34; class=&#34;datatables html-widget&#34;&gt;&lt;/div&gt;
&lt;script type=&#34;application/json&#34; data-for=&#34;htmlwidget-1&#34;&gt;{&#34;x&#34;:{&#34;filter&#34;:&#34;none&#34;,&#34;vertical&#34;:false,&#34;data&#34;:[[0.025,0.05,0.95,0.975],[-2.31,-1.86,1.86,2.31]],&#34;container&#34;:&#34;&lt;table class=\&#34;display\&#34;&gt;\n  &lt;thead&gt;\n    &lt;tr&gt;\n      &lt;th&gt;alpha&lt;\/th&gt;\n      &lt;th&gt;qt&lt;\/th&gt;\n    &lt;\/tr&gt;\n  &lt;\/thead&gt;\n&lt;\/table&gt;&#34;,&#34;options&#34;:{&#34;dom&#34;:&#34;t&#34;,&#34;columnDefs&#34;:[{&#34;className&#34;:&#34;dt-right&#34;,&#34;targets&#34;:[0,1]}],&#34;order&#34;:[],&#34;autoWidth&#34;:false,&#34;orderClasses&#34;:false}},&#34;evals&#34;:[],&#34;jsHooks&#34;:[]}&lt;/script&gt;
&lt;ol start=&#34;2&#34; style=&#34;list-style-type: decimal&#34;&gt;
&lt;li&gt;Considere que &lt;span class=&#34;math inline&#34;&gt;\(X_{1},\ldots,X_{n}\)&lt;/span&gt; são independentes e
&lt;span class=&#34;math inline&#34;&gt;\(X_{i} \sim N(\mu,\sigma_0^2)\)&lt;/span&gt;, onde &lt;span class=&#34;math inline&#34;&gt;\(\sigma_0^2\)&lt;/span&gt; é conhecido.
Desejamos testar a hipótese &lt;span class=&#34;math inline&#34;&gt;\(H_0: \mu \leq \mu_0\)&lt;/span&gt;.
Note que, a princípio, poderíamos aplicar
tanto o teste com variância populacional conhecida,
quanto o teste com variância populacional desconhecida.
Qual é a vantagem de aplicar o teste com
variância populacional conhecida?
Você pode utilizar a seguinte amostra
onde &lt;span class=&#34;math inline&#34;&gt;\(\sigma_0^2 = 1\)&lt;/span&gt; e &lt;span class=&#34;math inline&#34;&gt;\(\mu_0 = 0.5\)&lt;/span&gt;
para embasar a sua resposta considere que &lt;span class=&#34;math inline&#34;&gt;\(S = 1\)&lt;/span&gt;.
Os seguintes valores podem ser úteis:&lt;/li&gt;
&lt;/ol&gt;
&lt;div id=&#34;htmlwidget-2&#34; style=&#34;width:100%;height:auto;&#34; class=&#34;datatables html-widget&#34;&gt;&lt;/div&gt;
&lt;script type=&#34;application/json&#34; data-for=&#34;htmlwidget-2&#34;&gt;{&#34;x&#34;:{&#34;filter&#34;:&#34;none&#34;,&#34;vertical&#34;:false,&#34;data&#34;:[[0.025,0.05,0.95,0.975],[-1.96,-1.64,1.64,1.96]],&#34;container&#34;:&#34;&lt;table class=\&#34;display\&#34;&gt;\n  &lt;thead&gt;\n    &lt;tr&gt;\n      &lt;th&gt;alpha&lt;\/th&gt;\n      &lt;th&gt;qnorm&lt;\/th&gt;\n    &lt;\/tr&gt;\n  &lt;\/thead&gt;\n&lt;\/table&gt;&#34;,&#34;options&#34;:{&#34;dom&#34;:&#34;t&#34;,&#34;columnDefs&#34;:[{&#34;className&#34;:&#34;dt-right&#34;,&#34;targets&#34;:[0,1]}],&#34;order&#34;:[],&#34;autoWidth&#34;:false,&#34;orderClasses&#34;:false}},&#34;evals&#34;:[],&#34;jsHooks&#34;:[]}&lt;/script&gt;
&lt;div id=&#34;htmlwidget-3&#34; style=&#34;width:100%;height:auto;&#34; class=&#34;datatables html-widget&#34;&gt;&lt;/div&gt;
&lt;script type=&#34;application/json&#34; data-for=&#34;htmlwidget-3&#34;&gt;{&#34;x&#34;:{&#34;filter&#34;:&#34;none&#34;,&#34;vertical&#34;:false,&#34;data&#34;:[[0.025,0.05,0.95,0.975],[-2.31,-1.86,1.86,2.31]],&#34;container&#34;:&#34;&lt;table class=\&#34;display\&#34;&gt;\n  &lt;thead&gt;\n    &lt;tr&gt;\n      &lt;th&gt;alpha&lt;\/th&gt;\n      &lt;th&gt;qt&lt;\/th&gt;\n    &lt;\/tr&gt;\n  &lt;\/thead&gt;\n&lt;\/table&gt;&#34;,&#34;options&#34;:{&#34;dom&#34;:&#34;t&#34;,&#34;columnDefs&#34;:[{&#34;className&#34;:&#34;dt-right&#34;,&#34;targets&#34;:[0,1]}],&#34;order&#34;:[],&#34;autoWidth&#34;:false,&#34;orderClasses&#34;:false}},&#34;evals&#34;:[],&#34;jsHooks&#34;:[]}&lt;/script&gt;
&lt;/div&gt;
</description>
    </item>
    
    <item>
      <title>Testes para duas populações</title>
      <link>https://www.rafaelstern.science/courses/intro_stat/aulas/12_teste_2_pop/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>https://www.rafaelstern.science/courses/intro_stat/aulas/12_teste_2_pop/</guid>
      <description>


&lt;div id=&#34;testes-para-duas-populações&#34; class=&#34;section level1&#34;&gt;
&lt;h1&gt;Testes para duas populações&lt;/h1&gt;
&lt;p&gt;É comum que testarmos relações entre duas populações.
Por exemplo, considere que gado pode ser alimentado
por dois tipos de ração: &lt;span class=&#34;math inline&#34;&gt;\(A\)&lt;/span&gt; ou &lt;span class=&#34;math inline&#34;&gt;\(B\)&lt;/span&gt;. Neste caso,
poderíamos testar, por exemplo, se o gado alimentado
com a ração &lt;span class=&#34;math inline&#34;&gt;\(B\)&lt;/span&gt; é, em média, mais pesado que aquele
alimentado com a ração &lt;span class=&#34;math inline&#34;&gt;\(A\)&lt;/span&gt;.&lt;/p&gt;
&lt;p&gt;Para testarmos este tipo de hipótese,
obtemos uma amostra de cada uma das populações.
Formalmente, consideramos que
&lt;span class=&#34;math inline&#34;&gt;\(X_{1,1},\ldots,X_{1,n}\)&lt;/span&gt; são independentes e
&lt;span class=&#34;math inline&#34;&gt;\(X_{1,i} \sim N(\mu_1,\sigma^2_1)\)&lt;/span&gt; e
&lt;span class=&#34;math inline&#34;&gt;\(X_{2,1},\ldots,X_{2,m}\)&lt;/span&gt; são independentes e
&lt;span class=&#34;math inline&#34;&gt;\(X_{2,i} \sim N(\mu_2, \sigma^2_2)\)&lt;/span&gt;.
Cada &lt;span class=&#34;math inline&#34;&gt;\(X_{1,i}\)&lt;/span&gt; é uma observação
da primeira observação e cada &lt;span class=&#34;math inline&#34;&gt;\(X_{2,i}\)&lt;/span&gt; é
uma observação da segunda população.
Neste contexto, é comum testarmos
&lt;span class=&#34;math display&#34;&gt;\[
\begin{align*}
H_0: &amp;amp;
\begin{cases}
  \text{(a) } \mu_1 - \mu_2 \leq 0 &amp;amp; \\
  \text{(b) } \mu_1 - \mu_2 \geq 0 &amp;amp; \\
  \text{(c) } \mu_1 - \mu_2 = 0 &amp;amp;
\end{cases}
\end{align*}
\]&lt;/span&gt;
O teste a ser realizado depende das
suposições sobre as populações.
A seguir, estudamos algumas
suposições que são utilizadas com frequência&lt;/p&gt;
&lt;div id=&#34;populações-independentes-com-mesma-variância&#34; class=&#34;section level2&#34;&gt;
&lt;h2&gt;Populações independentes com mesma variância&lt;/h2&gt;
&lt;p&gt;Considere que as observações da primeira população
são independentes das observações da segunda população.
Além disso, também suponha que ambas as populações tem
a mesma variância, isto é, &lt;span class=&#34;math inline&#34;&gt;\(\sigma_1^2 = \sigma_2^2 = \sigma^2\)&lt;/span&gt;.
Neste caso, é razoável rejeitarmos as hipóteses em (a), (b) e (c),
quando, respectivamente,
&lt;span class=&#34;math display&#34;&gt;\[
\begin{cases}
\text{(a) } \bar{X}_1 - \bar{X}_2 &amp;gt; k_a \\
\text{(b) } \bar{X}_1 - \bar{X}_2 &amp;lt; k_b \\
\text{(c) } |\bar{X}_1 - \bar{X}_2| &amp;gt; k_c
\end{cases}
\]&lt;/span&gt;
Para controlar o erro tipo I em &lt;span class=&#34;math inline&#34;&gt;\(\alpha\)&lt;/span&gt;, note que
&lt;span class=&#34;math inline&#34;&gt;\(\bar{X}_1-\bar{X}_2 \sim N\left(\mu_1-\mu_2,\frac{\sigma^2}{n}+\frac{\sigma^2}{m}\right)\)&lt;/span&gt;.
Portanto, se definirmos
&lt;span class=&#34;math display&#34;&gt;\[
\begin{align*}
\bar{X} &amp;amp;= \frac{X_{1,1}+\ldots,X_{1,n}+X_{2,1}+\ldots+X_{2,m}}{n+m} \\
S^2 &amp;amp;= \frac{(X_{1,1}-\bar{X})^2+\ldots+(X_{1,n}-\bar{X})^2
+(X_{2,1}-\bar{X})^2+\ldots+(X_{2,n}-\bar{X})^2}{n+m}
\end{align*}
\]&lt;/span&gt;
então obtemos que, sob &lt;span class=&#34;math inline&#34;&gt;\(\mu_1 = \mu_2\)&lt;/span&gt;,
&lt;span class=&#34;math display&#34;&gt;\[
\frac{\sqrt{nm(n+m-1)}(\bar{X}_1-\bar{X}_2)}{(n+m)S} \sim T_{n+m-1}
\]&lt;/span&gt;
Assim, o erro tipo I é controlado
em &lt;span class=&#34;math inline&#34;&gt;\(\alpha\)&lt;/span&gt; se rejeitamos &lt;span class=&#34;math inline&#34;&gt;\(H_0\)&lt;/span&gt;
nas situações (a), (b) e (c),
respectivamente quando
&lt;span class=&#34;math display&#34;&gt;\[
\begin{cases}
\text{(a) } \bar{X}_1 - \bar{X}_2 &amp;gt; \frac{qt(1-\alpha, df=n+m-1)S(n+m)}{\sqrt{nm(n+m-1)}} \\
\text{(b) } \bar{X}_1 - \bar{X}_2 &amp;lt; \frac{qt(\alpha, df=n+m-1)S(n+m)}{\sqrt{nm(n+m-1)}} \\
\text{(c) } |\bar{X}_1 - \bar{X}_2| &amp;gt; \frac{qt(1-0.5\alpha, df=n+m-1)S(n+m)}{\sqrt{nm(n+m-1)}}
\end{cases}
\]&lt;/span&gt;&lt;/p&gt;
&lt;/div&gt;
&lt;div id=&#34;populações-independentes-com-variâncias-diferentes&#34; class=&#34;section level2&#34;&gt;
&lt;h2&gt;Populações independentes com variâncias diferentes&lt;/h2&gt;
&lt;p&gt;Se &lt;span class=&#34;math inline&#34;&gt;\(\sigma_1^2 \neq \sigma_2^2\)&lt;/span&gt;,
então não é possível combinar as
amostras de cada população para
realizar uma única estimativa da variância.&lt;/p&gt;
&lt;/div&gt;
&lt;div id=&#34;populações-dependentes-pareadas&#34; class=&#34;section level2&#34;&gt;
&lt;h2&gt;Populações dependentes pareadas&lt;/h2&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;div id=&#34;exercícios&#34; class=&#34;section level1&#34;&gt;
&lt;h1&gt;Exercícios&lt;/h1&gt;
&lt;/div&gt;
</description>
    </item>
    
    <item>
      <title>Introdução à ANOVA</title>
      <link>https://www.rafaelstern.science/courses/intro_stat/aulas/13_anova_intro/</link>
      <pubDate>Mon, 01 Jan 0001 00:00:00 +0000</pubDate>
      <guid>https://www.rafaelstern.science/courses/intro_stat/aulas/13_anova_intro/</guid>
      <description>


&lt;pre class=&#34;r&#34;&gt;&lt;code&gt;library(tidyverse)
milho = read.csv(&amp;quot;./data/milho.csv&amp;quot;)
milho = as_tibble(milho)

teste_aov = aov(Colheita ~ Variedade, data = milho)
teste_aov&lt;/code&gt;&lt;/pre&gt;
&lt;pre&gt;&lt;code&gt;## Call:
##    aov(formula = Colheita ~ Variedade, data = milho)
## 
## Terms:
##                 Variedade Residuals
## Sum of Squares     56.375    34.500
## Deg. of Freedom         3         4
## 
## Residual standard error: 2.936835
## Estimated effects may be unbalanced&lt;/code&gt;&lt;/pre&gt;
&lt;pre class=&#34;r&#34;&gt;&lt;code&gt;teste_tukey = TukeyHSD(x = teste_aov,
                       c(&amp;quot;Variedade&amp;quot;),
                       conf.level=0.9)
teste_tukey&lt;/code&gt;&lt;/pre&gt;
&lt;pre&gt;&lt;code&gt;##   Tukey multiple comparisons of means
##     90% family-wise confidence level
## 
## Fit: aov(formula = Colheita ~ Variedade, data = milho)
## 
## $Variedade
##     diff        lwr       upr     p adj
## B-A  2.5  -7.024103 12.024103 0.8291950
## C-A -1.5 -11.024103  8.024103 0.9522488
## D-A  5.5  -4.024103 15.024103 0.3636471
## C-B -4.0 -13.524103  5.524103 0.5778444
## D-B  3.0  -6.524103 12.524103 0.7479312
## D-C  7.0  -2.524103 16.524103 0.2222893&lt;/code&gt;&lt;/pre&gt;
&lt;pre class=&#34;r&#34;&gt;&lt;code&gt;agua = read.csv(&amp;quot;./data/agua.csv&amp;quot;)
agua = as.tibble(agua)&lt;/code&gt;&lt;/pre&gt;
&lt;pre&gt;&lt;code&gt;## Warning: `as.tibble()` was deprecated in tibble 2.0.0.
## Please use `as_tibble()` instead.
## The signature and semantics have changed, see `?as_tibble`.
## This warning is displayed once every 8 hours.
## Call `lifecycle::last_lifecycle_warnings()` to see where this warning was generated.&lt;/code&gt;&lt;/pre&gt;
&lt;pre class=&#34;r&#34;&gt;&lt;code&gt;teste_aov = aov(Tempo ~ Tipo, data = agua)
teste_aov&lt;/code&gt;&lt;/pre&gt;
&lt;pre&gt;&lt;code&gt;## Call:
##    aov(formula = Tempo ~ Tipo, data = agua)
## 
## Terms:
##                     Tipo Residuals
## Sum of Squares  102.0833  236.1667
## Deg. of Freedom        1        10
## 
## Residual standard error: 4.859698
## Estimated effects may be unbalanced&lt;/code&gt;&lt;/pre&gt;
&lt;pre class=&#34;r&#34;&gt;&lt;code&gt;#teste_tukey = TukeyHSD(x = teste_aov,
#                       c(&amp;quot;Variedade&amp;quot;),
#                       conf.level=0.9)
#teste_tukey&lt;/code&gt;&lt;/pre&gt;
</description>
    </item>
    
  </channel>
</rss>
