Coleta de Dados

Para aprendermos sobre a população, geralmente observamos apenas alguns de seus elementos. Este subconjunto é chamado de amostra. Cada elemento da amostra é chamado de unidade amostral.

Desenho de um estudo

Observações que podem falsear ou corroborar a teoria conjecturada
- Experimentos vs. Dados Observacionais

Coletando dados

Em estudos, observamos características de cada unidade amostral. Chamamos estas características de variáveis.
Um banco de dados é uma estrutura em que guardamos as observações de cada unidade amostral.
Um banco de dados Tidy (arrumado) (Wickham 2014) é um banco de dados em formato de matriz em que cada linha corresponde a uma unidade amostral, cada coluna corresponde a uma variável, e a posição na intersecção entre a linha “i” e a coluna “j” corresponde à observação da variável “j” para a unidade amostral “i”. Como regra geral, anote todas as variáveis que foram observadas para cada unidade amostral. Em geral, é mais fácil remover uma variável inútil do banco de dados do que adicionar uma nova variável que foi esquecida.
Um dicionário é um conjunto de verbetes e descrições que indicam o significado de cada variável em um banco de dados e os possíveis valores que esta variável pode assumir. Como o experimentalista que coleta os dados e os analista de dados podem ser pessoas diferentes, o dicionário é uma ferramenta essencial para facilitar a comunicação entre eles.

Atenção: Para que um banco de dados seja útil, aquele que o compila deve especificar de antemão os possíveis valores que cada variável pode assumir e se ater a estes valores. Por exemplo, digamos que uma variável seja o “número de litisconsortes passivos na ação”. Observações como “2”, “4” e “7” são números e estão dentro das especificações. Por outro lado, seria prejudicial anotar no banco de dados “5, dos quais 2 são pessoas físicas e 3 são pessoas jurídicas”. A inserção de texto em uma variável que deveria ser um número quebra padrões e torna muito mais difícil a análise do banco de dados.

Exemplo de banco de dados tidy

(Corrêa and Stern 2025) avalia o tempo transcorrido até a primeira sentença em casos civis ajuizados no Fórum Central João Mendes. Para tal, o DataJud (Conselho Nacional de Justiça 2020) foi utilizado para obter dados sobre 6888 ações cíveis ajuizadas no Fórum Central entre 2020 e o \(1^o\) semestre de 2025:

require(tidyverse)
require(readxl)
data = read_xlsx("./dados_civeis.xlsx") %>% 
  select(-processo_por_dependencia)

Um dicionário para este banco de dados poderia ser escrito da seguinte forma:

numeProcesso: Número CNJ da ação
dataRecebimento: Data de propositura
data_movimentacao_sentenca: Data da primeira sentença, caso exista
ultima_movimentacao: Data da última movimentação
evento: Categoria da ultima movimentação
Time: Duração do processo de sua propositura até o primeiro dentre a data da sentença e a data da coleta dos dados
valor_numerico: Valor da causa
assunto_info: Assunto processual
classe_info: Classe processual

Tipos de variáveis

É comum dividirmos as variáveis em 4 categorias: identificação, não-estruturada, qualitativas e quantitativas. Estas categorias são úteis para entendermos que tipos de análise podemos fazer em cada variável:

Variáveis de identificação: Assume um valor distinto para cada unidade amostral. Por exemplo, para ações judiciais, o número CNJ pode ser usado como uma variável de identificação. Este tipo de variável é útil para permitir o uso simultâneo de dados obtidos de diversas fontes. Por exemplo, se obtivéssemos informações tanto do DataJud quanto do sistema interno do TJSP, o número CNJ permitiria que cruzássemos todas as informações que foram obtidas sobre cada ação analisada.
Variáveis não-estruturadas: Assumem valores não-numéricos de forma tão variada que tornam difícil o emprego direto de métodos estatísticos. Apesar desta dificuldade, estas variáveis podem ser úteis, na medida em que trazem muita informação sobre a unidade amostral. Assim, é comum que elas sejam refinadas em outros tipos de variável, assim permitindo a análise estatística. Por exemplo, uma variável pode conter a integridade do texto de uma sentença. É difícil empregar métodos estatísticos diretamente em um texto. Contudo, é possível refinar a sentença e criar uma nova variável que indica se a ação foi julgada procedente ou não. Similarmente, não é comum que uma variável textual com o endereço completo do réu possa ser usada diretamente em uma análise estatística. Por outro lado, é possível extrair coordenadas GPS deste texto, que são mais favoráveis à análise estatística. Similarmente, é comum que variáveis com imagens e arquivos digitais sejam consideradas não-estruturadas.
Variáveis qualitativas: Assumem valores não-numéricos dentro de uma lista fixada. Podem ser divididas em 2 grupos:
- ordinais: Há uma ordenação dentre os valores assumidos pela variável. Por exemplo, poderíamos criar uma variável que assume o nome “Pandemia”, caso uma ação tenha sido proposta entre 2020 e 2021, “Transição”, caso tenha sido proposta em 2022, e “Pós-Pandemia”, caso tenha sido proposta de 2023 em diante. Observando sua construção, estes nomes estão ordenados no tempo. Variáveis ordinais também são comuns em pesquisas de satisfação. Se clientes podem escolher entre as categorias: “insatisfeito”, “satisfeito” e “muito satisfeito”, existe uma ordem entre estes valores, dado que “insatisfeito” é menos satisfeito que “satisfeito” que, por sua vez, é menos satisfeito que “muito satisfeito”. É importante observar que apesar de existir uma ordem neste tipo de variável, ele não tem todas as propriedades de um número. Por exemplo, não sabemos como a variação de satisfação da categoria “insatisfeito” para “satisfeito” se compara aquela de “satisfeito” para “muito satisfeito”.
- categóricas: Não há uma ordenação dentre os valores assumidos pela variável. Por exemplo, no banco de dados de ações cíveis estudado, a variável classe_info é categórica pois seu valor é um nome dentre as possibilidades: “Procedimento Comum Cível”, “Procedimento do Juizado Especial Cível”, “Produção Antecipada da Prova”, e “Carta Precatória Cível”. Um número relativamente pequeno de categorias em relação ao tamanho da amostra é a característica que permite o emprego de métodos estatíticos a este tipo de variável. Quando este não é o caso, podemos estar diante de uma variável não-estruturada. Por exemplo, em um conjunto de dados pequeno, a classificação integral de uma ação na TPU pode ser uma variável não-estruturada.
Variáveis quantitativas: Assumem valores numéricos. Podem ser divididas em 2 grupos:
- contagem: Referem-se a uma determinada contagem. Por exemplo, o Relatório Justiça em Números (Conselho Nacional de Justiça 2004) apresenta o número de ações judiciais baixadas por mês. Neste caso, há uma variável de contagem para cada mês. Similarmente, considere um banco de dados de ações judiciais que contém uma variável não-estruturada com o texto da sentença. Pode-se obter uma nova variável quantitativa de contagem que indica o número de usos da palavra “usucapião” na sentença.
- contínuas: Assumem números reais, o que inclui valores com precisão decimal. Por exemplo, o valor da causa medido em reais da primeira ação em (Corrêa and Stern 2025) é “10.673,97”. Assim, o valor da causa é uma variável contínua. Similarmente, o Relatório Justiça em Números indica que a Taxa de Congestionamento da Justiça Estudal em junho de 2025 é de 65.71%. Taxas de Congestionamento são variáveis quantitativas contínuas.

Estas categorias nem sempre são óbvias e podem depender do uso que é dado para cada variável. Por exemplo, ainda que seja comum considerarmos o número de CNJ como uma variável de identificação, ela também pode ser um dado não-estruturado. Por exemplo, é possível refinar o número CNJ para obter o ano de propositura da ação. Similarmente, datas podem ser usadas tanto como variáveis qualitativas ordinais, quanto como quantitativas contínuas.

Exercícios

Classifique o tipo de cada uma das variáveis em (Corrêa and Stern 2025).
Dentre uma população de alunos, observamos as seguintes variáveis: intenção de voto nas eleições de 2018, altura, peso, número de matrícula, filme favorito, endereço de residência, coordenadas GPS do endereço de residência, média final nas matéria do semestre passado, data de nascimento e grau de satisfação com cursos realizados. Classifique cada uma das variáveis de acordo com seu tipo.
O banco de dados a seguir está “Tidy”? Por quê?

db = tibble(pais = c("Brasil", "Brasil", "Canada", "Canada"),
            tipo = c("populacao", "territorio", "populacao", "territorio"),
            valor = c(207.7, 8.514, 36.2, 9.984))
print(db)

## # A tibble: 4 × 3
##   pais   tipo        valor
##   <chr>  <chr>       <dbl>
## 1 Brasil populacao  208.  
## 2 Brasil territorio   8.51
## 3 Canada populacao   36.2 
## 4 Canada territorio   9.98

Um pesquisador deseja determinar se as modificações na Lei de Improbidade Administrativa em 2021 trouxe impacto sobre a taxa de procedência em ações baseadas nesta lei. Indique possíveis populações, unidades amostrais, e variáveis coletadas para avaliar este questionamento.

Referências

Conselho Nacional de Justiça. 2004. “Justiça Em Números.” https://www.cnj.jus.br/pesquisas-judiciarias/justica-em-numeros/.

———. 2020. “DataJud.” https://www.cnj.jus.br/sistemas/datajud/.

Corrêa, Fernando, and Rafael Stern. 2025. “Another Note on the Censoring Problem: A State of the Art Assessment and a Review of Methods for Case Duration Analyses.” Available at SSRN 5340259.

Wickham, Hadley. 2014. “Tidy Data.” Journal of Statistical Software 59 (10): 1–23.

Last updated on Jan 1, 0001