BIOESTATÍSTICA
Juliane Silveira Freire da Silva
Elaboração e análise de
relatórios estatísticos
Objetivos de aprendizagem
Ao final deste texto, você deve apresentar os seguintes aprendizados:
Descrever os métodos e técnicas utilizados para análises de dados
lançados em relatórios estatísticos.
Identificar métodos de coleta, armazenamento e tratamento estatístico
indicados para a análise de diferentes dados gerenciais.
Demonstrar por meio de planilhas as projeções e metas de indicadores
estatísticos.
Introdução
Neste capítulo, você aprenderá quais técnicas são possíveis de utilizar em
bancos de dados estatísticos, bem como conhecerá um pouco mais sobre
estatística descritiva e estatística inferencial. Além disso, saberá sobre os
erros que podem ser cometidos em testes de hipóteses e como analisa-
mos esses testes. Por fim, verá como realizar uma análise de correlação.
Análise de dados
A primeira definição que precisamos ter em mente é de que a estatística se
divide em duas grandes áreas — estatística descritiva e a estatística inferencial
—, que podem ter suas subdivisões.
A estatística descritiva corresponde à coleta, à organização e ao resumo de
dados (com diagramas e gráficos ou utilizando um valor numérico resumido)
(DOANE; SEWARD, 2014). Já a estatística inferencial refere-se a generalizar
resultados de uma amostra para uma população, estimar parâmetros desco-
nhecidos, chegar a conclusões e tomar decisões (DOANE; SEWARD, 2014).
A estatística descritiva pode ser aplicada a dados amostrais e populacionais,
ao passo que estatística inferencial pode ser aplicada a uma amostra quando se
2 Elaboração e análise de relatórios estatísticos
deseja inferir sobre uma população. Por meio da estatística descritiva, podemos
fazer uso de algumas análises para resumir dados, como, por exemplo, média,
mediana e desvio-padrão dentro das medidas de posição e de variabilidade,
bem como podemos fazer uso de tabelas e gráficos. Por meio da estatística
inferencial, podemos fazer uso de técnicas estatísticas mais avançadas, como
testes de hipóteses, intervalos de confiança, probabilidades, previsões.
É importante lembrar que as variáveis estatísticas se dividem em dois grandes grupos:
as variáveis qualitativas, que podem ser nominais ou ordinais, e as variáveis quantitativas,
que podem ser discretas ou contínuas. Dependendo da classificação da variável,
podemos verificar quais técnicas estão disponíveis a cada um dos tipos.
A seguir, veremos algumas técnicas estatísticas presentes na estatística
descritiva e na estatística inferencial.
Medidas de posição e de variabilidade
Como medidas de posição, temos a média, a moda e a mediana. A média
é calculada somando-se todos os elementos da amostra ou da população e
dividindo-se pelo número de elementos. Representamos a média de uma
população com a letra grega µ (mi), e a média amostral, por x. Em geral,
utilizamos letras gregas para representar resumos numéricos da população
(parâmetros) e letras do alfabeto latino para representar resumos numéricos
da amostra (estatísticas ou estimadores).
Outra medida de posição importante é a mediana, a qual divide a distribui-
ção de dados (ordenado) ao meio, sendo 50% menores ou iguais a esse valor, e
os outros 50% maiores ou iguais a esse valor. Do conceito da mediana, temos
outras duas medidas importantes: os quartis, que dividem a distribuição em
4, e os percentis, que dividem em 10 partes iguais. A moda, por sua vez, é a
medida de posição com menor poder estatístico. Ela representa o valor (ou os
valores) que mais se repete em uma distribuição de dados.
Quanto às medidas de variabilidade, temos as mais utilizadas como sendo
a amplitude, a variância, o desvio-padrão e o coeficiente de variação. Conse-
guimos obter a amplitude diminuindo do maior valor da distribuição de dados
Elaboração e análise de relatórios estatísticos 3
o menor valor. O desvio-padrão mede as distâncias ao quadrado de cada um
dos valores em relação à média. Como elevamos as distâncias ao quadrado, a
unidade de medida também é matematicamente elevada ao quadrado, então
precisamos tirar a raiz quadrada da variância, e esse valor passa a se chamar
desvio-padrão.
O coeficiente de variação é uma variabilidade percentual, em que dividimos
o desvio-padrão pela média e multiplicamos por 100. Ele é útil quando queremos
comparar a homogeneidade de dois ou mais grupos de dados e as médias ou
as unidades de medida são diferentes. Quanto menor o valor do coeficiente de
correlação, mais homogêneos são os dados. As medidas de posição também
chamadas de medidas de tendência central, as quais indicam a posição que a
distribuição de dados está; já as medidas de variabilidade indicam a distância
dos valores ao redor da média.
Testes de hipóteses
Os testes de hipóteses fazem parte da estatística inferencial, e, com eles, pode-
mos elaborar hipóteses e verificar se a hipótese testada é significativa ou não.
Existem testes para se verificar um valor médio de uma amostra com um
valor de referência, testes para comparar as médias de duas amostras distintas,
testes para comparações de antes e depois de um evento, testes para comparar
mais de duas médias de grupos diferentes, testes de associação de variáveis,
testes de homogeneidade de variâncias, entre outros. Todavia, independente-
mente do teste de hipótese utilizado, os componentes que fazem parte de cada
um dos testes é o mesmo. Em resumo, para se aplicar um teste de hipóteses,
precisamos primeiro formular as hipóteses, depois calcular a estatística de
teste e, por fim, verificar a significância do teste (valor p) e compará-la com
o nível de significância estabelecido para.
Veremos, agora, os elementos dos testes de hipóteses em mais detalhes.
Primeiro, precisamos formular as hipóteses: teremos a chamada hipótese nula
e a hipótese alternativa. Uma hipótese estatística é uma afirmação ou conjec-
tura sobre um parâmetro (ou parâmetros) de uma população (ou populações);
pode também se referir ao tipo ou à natureza da população (ou populações)
(FREUND, 2006).
Uma hipótese estatística é uma afirmação sobre o valor de um parâmetro da
população na qual estamos interessados. Um teste de hipótese é uma decisão
entre duas hipóteses competitivas, mutuamente excludentes e coletivamente
exaustivas sobre o valor do parâmetro (DOANE; SEWARD, 2014). A hipótese
nula representa a ausência de diferença entre os parâmetros (a igualdade sempre
4 Elaboração e análise de relatórios estatísticos
estará na hipótese nula). Já a hipótese alternativa é o posto complementar do
que é definido na hipótese nula.
Podemos ter as hipóteses de um teste bilateral quando a hipótese nula é
da igualdade, e a alternativa, da diferença:
Ou, então, um teste unilateral, que pode ser unilateral à esquerda ou uni-
lateral à direita:
A Figura 1, a seguir, apresenta modelos de regiões críticas de um teste de
hipóteses.
Figura 1. Regiões críticas de um teste de hipóteses.
Fonte: Doane e Seward (2014, p. 345).
Elaboração e análise de relatórios estatísticos 5
O teste mais comum é o teste bilateral. Claro que, de acordo com o teste
utilizado, a maneira de escrever os parâmetros pode mudar, mas a lógica
dos sinais continua a mesma. Quando se realiza um teste de hipóteses, ao
rejeitarmos ou aceitarmos uma hipótese, estaremos cometendo um erro. Os
testes foram organizados para aceitar ou rejeitar H0, e, ao aceitar ou rejeitar
a hipótese nula, podemos cometer dois tipos de erro.
Erro do tipo I: quando rejeitamos H0 e, na realidade, essa seria a hipótese
verdadeira. Por exemplo, seria como dizer que determinado medicamento
para o diabetes é eficaz, quando, na verdade, não é. Representamos o erro
tipo I pela letra grega α (alfa).
Erro tipo II: quando aceitamos H0 e, na realidade, essa seria a hipótese
falsa. Representamos o erro do tipo II pela letra grega β (beta).
A Tabela 1, a seguir, apresenta uma relação entre os tipos de erro.
Tabela 1. Tipos de erro
H0 Falsa H0Verdadeira
Rejeita H0 Decisão correta Erro tipo I (α)
Aceita H0 Erro tipo II (β) Decisão correta
Podemos minimizar esses erros ao aumentarmos o tamanho da amostra.
Outro elemento de um teste de hipóteses é a estatística de teste, por meio
da qual encontramos a significância, ou seja, o valor p, para, posteriormente,
podermos comparar com o nível de significância (α) estabelecido.
O próximo passo do teste de hipóteses é comparar o valor p com o nível
de significância.
Se valor p > nível de significância α → Aceitamos a hipótese nula H0
— o teste não é significativo.
Se valor p < nível de significância α → Rejeitamos a hipótese nula H0
— o teste é significativo.
Como na linguagem cotidiana, o termo significante é comumente utilizado
com o sentido de significativo, ou importante, mas deve ficar subentendido
que o estamos empregando aqui como um termo técnico. Especificamente,
a palavra significante é empregada nas situações em que a hipótese nula é
rejeitada (FREUND, 2006).
Por fim, temos a conclusão experimental, ao rejeitarmos ou não a hipótese nula.
6 Elaboração e análise de relatórios estatísticos
Coleta, armazenamento e tratamento de dados
Quando iniciamos uma pesquisa, o primeiro passo é delimitarmos bem
a população a ser pesquisada, defi nindo os parâmetros que precisam ser
observados na coleta de dados. Depois de bem defi nida a população de
acordo com os objetivos, optamos pelo tipo de pesquisa: quantitativa ou
qualitativa.
A pesquisa qualitativa analisa as unidades amostrais de forma mais
profunda, com roteiros feitos para investigar um tema em maior profundi-
dade. Todavia, esse tipo de pesquisa não permite uma análise sem a análise
descritiva dos dados, e uma pesquisa qualitativa nunca servirá para a in-
ferência estatística. É na pesquisa quantitativa, por sua vez, que podemos
fazer os resumos numéricos, criar tabelas e gráficos e, ainda, se a amostra
for representativa, podemos fazer inferências. A pesquisa quantitativa tem
técnicas de seleção das unidades amostrais, as quais podem ser probabilísticas
ou não probabilísticas.
Uma amostra não probabilística ocorre quando o julgamento da seleção
de uma unidade amostral depende, pelo menos em parte, do julgamento
do pesquisador. No caso de uma amostragem não probabilística, algumas
unidades amostrais têm probabilidade zero de compor a amostra. Já em uma
amostra probabilística, todas as unidades da população têm uma probabi-
lidade diferente de zero de compor a amostra. As unidades amostrais são
escolhidas de forma aleatória.
Os tipos de amostragem probabilística são: amostragem aleatória simples,
amostragem sistemática, amostragem por conglomerados e amostragem
estratificada. A amostragem aleatória simples e a amostragem sistemática
são métodos de seleção de unidades amostrais. Já a amostragem por con-
glomerados e a amostragem estratificada são métodos de agrupamento da
população. As técnicas de amostragem probabilística podem ser utiliza-
das em conjunto. A Tabela 2, a seguir, apresenta os tipos de amostragem
probabilística.
Elaboração e análise de relatórios estatísticos 7
Tabela 2. Tipos de amostragem probabilística
Amostragem Seleciona as unidades amostrais em forma de sorteio
aleatória simples
Amostragem Seleciona as unidades amostrais de forma sistemática,
sistemática escolhendo uma unidade a cada k elementos
Amostragem por Divide a população em grupos que sejam
conglomerados heterogêneos dentro de cada conglomerado
Amostragem Divide a população em grupos que sejam
estratificada homogêneos dentro de cada estrato
Após a coleta de dados da amostra, precisamos armazenar os dados, e,
muitas vezes, a coleta é feita por intermédio de fichas, anotações, questionários.
No mundo digital, não podemos mais deixar os dados soltos, devemos, então,
armazenar em uma planilha todos os dados amostrais coletados.
Para que os dados fiquem corretamente armazenados, precisamos organizar
os dados em uma planilha, sendo cada uma das colunas referente a cada uma das
variáveis pesquisada, e cada uma das linhas referente a cada uma das respostas
das unidades amostrais ou populacionais (Figura 2). Em geral, digitamos esses
dados em planilhas eletrônicas, como, por exemplo, Excel e similares. Essas
planilhas nos fornecem uma boa gama de opções de análises estatísticas e,
além disso, podem ser exportadas para softwares estatísticos mais específicos.
Figura 2. Estrutura banco de dados.
8 Elaboração e análise de relatórios estatísticos
É com os dados armazenados dessa maneira e mantido o sigilo da amostra
que se pode iniciar as análises estatísticas e a geração de tabelas, gráficos e
medidas numéricas, sempre observando o tipo de variável e a qual delas se
aplica cada técnica. A partir daí, podemos utilizar muitas vezes a estatística
inferencial e analisarmos os dados disponíveis mais detalhadamente. Verifi-
caremos, agora, a aplicação de dois tipos de testes de hipóteses, ambos testes
para igualdade de médias.
Para a comparação de duas médias, temos o teste t. Nesse teste, temos duas
amostras provenientes de duas populações diferentes, e devemos comparar a
igualdade ou não dessas duas médias. O teste t é o procedimento estatístico
mais comum na literatura médica; pode-se esperar que este apareça em mais
do que a metade dos artigos que se lê provenientes da literatura médica geral.
Além de ser utilizado para comparar as médias de dois grupos, é amplamente
utilizado corretamente na comparação de grupos múltiplos, executando-se
todas as comparações par a par (GLANTZ, 2014).
As hipóteses podem ser formuladas da seguinte maneira:
OU OU
A estatística de teste é simples para ser calculada manualmente, mas po-
demos ter a análise de um resultado oriundo do software estatístico Statistical
Package for the Social Sciences (SPSS) (Tabelas 3 e 4).
Tabela 3. Teste t: estatísticas de grupo
Desvio-
N Média -padrão Erro-padrão da média
Sexo Peso
Feminino 26 66,35 8,385 1,645
Masculino 23 78,48 10,887 2,270
Tabela 4. Teste t: teste de amostras independentes
Teste de Levene
para igualdade
de variâncias Teste t para igualdade de médias
Intervalo de confiança
Erro- de 95% da diferença
Sig. (2 Diferença -padrão de
Z Sig. t df extremidades) média diferença Inferior Superior
Peso — Variâncias 1,808 ,185 -4,398 47 ,000 -12,132 2,759 -17,682 -6,582
iguais assumidas
Peso — Variâncias -4,328 41,171 ,000 -12,132 2,803 -17,793 -6,472
iguais não
assumidas
Elaboração e análise de relatórios estatísticos
9
10 Elaboração e análise de relatórios estatísticos
O valor da estatística de teste é igual a –4,398, e a sua respectiva signifi-
cância é igual a 0,000.
Comparando à significância do teste, o valor p = 0,000 tem nível de sig-
nificância de 5% (0,05). Rejeitamos a hipótese nula. O teste foi significativo,
pois podemos inferir que existe uma diferença entre os dois grupos.
Outro teste bastante importante na bioestatística é o teste ANOVA (Análise
de variância), o qual também se presta a testar médias, porém, enquanto o
teste t compara apenas duas médias, o teste ANOVA pode testar mais de duas
médias de grupos diferentes. Esse teste verifica se existe alguma diferença
entre os grupos, mas não consegue afirmar quais são os grupos que diferem.
Para verificarmos qual grupo difere de qual, podemos utilizar o teste t para
comparar duas a duas as médias das amostras.
As hipóteses formuladas para o teste ANOVA são as seguintes:
H0: as médias são iguais.
H1: pelo menos uma das médias difere.
A estatística de teste é um pouco mais complicada e extensa do que a
do teste t, mas podemos analisá-la por meio da saída do software estatístico
SPSS (Tabelas 5 e 6).
Tabela 5. Teste ANOVA
Peso
Soma dos Quadrado
quadrados df médio F Sig.
Entre 2006,373 2 1003,187 10,411 ,000
grupos
Nos 7130,302 74 96,355
grupos
Total 9136,675 76
Tabela 6. Teste descritivo
Peso
Intervalo de confiança
de 95% para média
Desvio- Erro- Limite Limite
N Média -padrão -padrão inferior superior Mínimo Máximo
Grupo A 23 78,48 10,887 2,270 73,77 83,19 55 93
Grupo B 26 66,35 8,385 1,645 62,96 69,73 55 89
Grupo C 28 68,61 10,119 1,912 64,68 72,53 55 93
Total 77 70,79 10,964 1,250 68,30 73,28 55 93
Elaboração e análise de relatórios estatísticos
11
12 Elaboração e análise de relatórios estatísticos
A estatística de teste resultou em 10,411 e sua respectiva significância é
igual a 0,000.
Comparando-se a significância do teste – valor p, tem-se 0,000, inferior ao
nível de significância de 0,05. O teste é significativo. Podemos, então, concluir
que, em pelo menos um dos grupos, a média é diferente. Para verificar qual
ou quais são diferentes, é necessário realizar mais testes (p. ex., podemos
aplicar teste t dois a dois).
Para qualquer teste de hipóteses que utilizarmos, sempre precisaremos
observar a significância do teste para podermos obter a nossa conclusão
experimental.
Análise de correlação e regressão
A análise de regressão analisa a correlação entre variáveis. Pode ser entre
mais de duas variáveis, em que teremos a regressão múltipla, ou então entre
apenas duas variáveis, o que chamamos de correlação bivariada.
Na correlação bivariada, temos a correlação linear, em que podemos resumir
os dados com uma reta de regressão e, posteriormente, fazer previsões para
valores futuros. A regressão linear simples é analisada com duas variáveis,
a variável x, que chamamos de variável independente, e a variável y, que
chamamos de variável dependente.
Primeiro, precisamos calcular o coeficiente de correlação de Pearson, um
valor entre –1 e 1, que mede a intensidade e a direção da correlação. Quanto
mais próximo de um, mais forte será a correlação, e ela será positiva, direta.
Quanto mais próximo de menos um, mais forte será a correlação, porém o
sinal negativo indicará uma correlação inversa, negativa (Figura 3).
Elaboração e análise de relatórios estatísticos 13
Figura 3. Diagramas de dispersão.
Quanto mais próximo de zero, mais fraca será a correlação, e, se for igual
a zero, será inexistente.
Na análise de correlação, ainda podemos utilizar para a análise o coeficiente
de determinação, que mede o poder explicativo da variável x. Para obtermos
esse valor, elevamos ao quadrado o resultado do coeficiente de correlação
de Pearson. Para validarmos a correlação, realizamos um teste de hipóteses
para verificar se a correlação é significativa. Sendo significativa, podemos
resumir os dados com uma equação de reta, caso os coeficientes dessa reta
também sejam significativos.
Podemos utilizar para esse teste o software SPSS, atualmente perten-
cente à IBM, o qual tem disponíveis muitas análises estatísticas descritivas
e inferenciais.
14 Elaboração e análise de relatórios estatísticos
Um exemplo de saída do software SPSS é descrito nas Tabelas 7 a 10,
a seguir.
Tabela 7. SPSS — Regressão: variáveis inseridas/removidasa
Variáveis Variáveis
Modelo inseridas removidas Método
1 QIb . Inserir
a. Variável dependente: prova.
b. Todas as variáveis solicitadas inseridas.
Tabela 8. SPSS — Regressão: resumo do modelo
R quadrado Erro-padrão
Modelo R R quadrado ajustado da estimativa
1 ,534a ,285 ,270 8,78784
a. Preditores: (constante), QI.
Tabela 9. SPSS — Regressão: ANOVAa
Soma dos Quadrado
Modelo quadrados df médio F Sig.
1 Regressão 1447,430 1 1447,430 18,743 ,000b
Resíduo 3629,632 47 77,226
Total 5077,061 48
a. Variável dependente: prova.
b. Preditores: (constante), QI.
Elaboração e análise de relatórios estatísticos 15
Tabela 10. SPSS — Regressão: coeficientesa
Coeficientes não Coeficientes
padronizados padronizados
Erro-
Modelo B -padrão Beta t Sig.
1 (constante) 40,249 9,440 ,534 4,264 ,000
Q1 ,309 ,071 4,329 ,000
a. Variável dependente: prova.
Nessa saída, o valor do coeficiente de correlação de Pearson é igual a
0,534, o que indica uma correlação mediana e positiva. O coeficiente de
determinação é igual a 0,285, que é o poder explicativo da variável x. Mesmo
a correlação sendo mediana, podemos observar na Tabela 5 ANOVA que essa
correlação é significativa e, sendo assim, podemos resumir os dados em uma
reta de regressão.
Verificamos, então, na última tabela da análise, os coeficientes que também
são significativos e, podemos, então, escrever a equação da reta para esses
dados como y = 40,249 + 0,309x. Com essa reta, podemos estimar um valor
para a variável dependente com qualquer valor da variável dependente.
Como vimos neste capítulo, existem muitas maneiras testarmos os dados.
Isso depende dos objetivos da pesquisa e das necessidades levantadas pelo
profissional pesquisador. Sendo o senso analítico um grande diferencial nas
mais diversas áreas do conhecimento, o pensamento analítico embasado
em técnicas estatísticas descritivas e/ou inferências traz destaque para os
profissionais que trabalham com análise de relatórios, de modo que estes
não realizem apenas tarefas funcionais pré-definidas, transformando-os em
profissionais questionadores.
16 Elaboração e análise de relatórios estatísticos
DOANE, D. P.; SEWARD, L. E. Estatística aplicada à administração e economia. 4. ed. Porto
Alegre: Bookman, 2014.
FREUND, J. E. Estatística aplicada: economia, administração e contabilidade. 11. ed.
Porto Alegre: Bookman, 2006.
GLANTZ, S. A. Princípios de bioestatística. 7. ed. Porto Alegre: AMGH, 2014.
Leituras recomendadas
NAVIDI, W. Probabilidade e estatística para ciências exatas. Porto Alegre: AMGH, 2012.
SPIEGEL, M. R.; STEPHENS, L. J. Estatística. 4. ed. Porto Alegre: Bookman, 2009. (Coleção
Schaum).