EPIDEMILOGIA

EPIDEMILOGIA

(Parte 5 de 11)

Análise univariada Quando diante de um conjunto de dados, uma vez conhecendo que variáveis temos (nominais, intervalares etc.), devemos analisá-las separadamente, checando-se a qualidade dos mesmos (erros de digitação, preenchimento etc.), variabilidade (valores extremos ?), distribuição estatística etc. Listagem de freqüências

A análise das tabelas I e I nos permite tirar várias importantes conclusões : a) Na tabela I, vemos que aproximadamente 60% dos pacientes possuem 1 lesão ou menos. Este fato nos obriga a refletir seriamente acerca da distribuição em estudo (como será visto adiante), ou seja, a média provavelmente não será uma boa representante desta. b) Idades acima de 59 anos estão pouco freqüentes, o que nos poderá sugerir uma futura reclassificação (60 anos ou mais). Crianças abaixo de 9 anos nos diz muito pouco, visto que existem inúmeras possibilidades de risco nas diferentes idades aí englobadas (menores de 1 ano, menores de 5, etc.). Podemos na verdade dizer, que no momento inicial de análise, tal categorização poderia ser considerado um erro técnico, visto que antes de categorizar, seria bastante recomendável estudar a distribuição pura e

Universidade Federal do Rio de Janeiro Núcleo de Estudos em Saúde Coletiva (NESC) Saúde Coletiva - Fisioterapia

AUTORIA: MAURÍCIO DE ANDRADE PÉREZ 25 simples da idade. Por outro lado, observa-se também que a distribuição é razoavelmente uniforme, ao contrário do observado na tabela I. Desta forma, não seria surpreendente se encontrarmos uma média etária, ao redor dos 30 anos.

Gráficos

Os gráficos em barra (gráfico I) são ideais para dados nominais ou ordinais (principalmente quando envolvem 5 ou mais categorias).

Valid

Total

Frequency Percent ValidPercent Cumulative Percent

TABELA I - NÚMERO DE LESÕES MUCOSAS, EM PACIENTES COM LEISHMANIOSE TEGUMENTAR, INTERNADOS NO HEC, 1976-1996

Universidade Federal do Rio de Janeiro Núcleo de Estudos em Saúde Coletiva (NESC) Saúde Coletiva - Fisioterapia

AUTORIA: MAURÍCIO DE ANDRADE PÉREZ 26

Valid

Total

Frequency Percent ValidPercent Cumulative Percent

TABELA I - FAIXA ETÁRIA DOS PACIENTES COM LEISHMANIOSE TEGUMENTAR, ATENDIDOS NO HEC, 1976-1996

Neste gráficos geralmente um espaço separa cada barra, reforçando sua natureza ordinal ou nominal (ver adiante em histogramas). Obviamente, os estilos dependerão do bom senso do investigador. Entretanto algumas dicas de bom senso serão sempre úteis:

⇒ Categorias com nomes muito extensos, devem ser acomodados em gráficos com formatos específicos para este fim (ver gráfico I). Repare que muitas das categorias aí expostas são, na verdade, desnecessárias (pela sua inexpressiva representação).

⇒ As inúmeras alternativas em disposição pelos programas gráficos, tornam tentador a possibilidade de enfeitarmos nossos gráficos (3 dimensões, milhares de cores, etc.). Repare entretanto que dependendo do pacote utilizado, a compreensão de gráficos muito elaborados torna-se as vezes difícil.

⇒ A acurácia do gráfico é importante, isto é, mostre-o para diversas pessoas, verifique se a interpretação é homogênea.

⇒ É sempre interessante respeitar alguns princípios visuais básicos, isto é, se você necessita de tracejamentos em seus gráficos, utilize cores claras nos mesmos, reservando as escuras para suas linhas, barras etc. Realce os pontos importantes !

Histogramas são semelhantes (apenas na aparência) aos gráficos em barra (gráfico I), entretanto sua aplicação é feita principalmente nas variáveis intervalares e de razão (apesar de poderem ser utilizadas, algumas vezes nas ordinais). As barras do histograma são colocadas lado a lado, de tal forma que cada uma de suas áreas representam as freqüências(numérica ou percentual) da categoria em questão. Cada histograma terá portanto uma área final, que será igual a freqüência total observada em nossos dados. Sua importância será melhor detalhada quando discutirmos o próximo ponto (estatísticas univariadas).

Universidade Federal do Rio de Janeiro Núcleo de Estudos em Saúde Coletiva (NESC) Saúde Coletiva - Fisioterapia

AUTORIA: MAURÍCIO DE ANDRADE PÉREZ 27

F r equ en c y

Std. Dev = 12,57 Mean = 119,5 N = 375,0

PA SISTÓLICA NA 1ª VISITA

F r equ en c y

Estatística descritiva para análises univariadas

Como vimos na seção anterior, gráficos ou tabelas ilustram, muitas vezes de forma elegante, os dados obtidos em dada pesquisa. Existe entretanto a necessidade de se conhecer (ou resumir ) nossos dados em 4 características básicas de todas as variáveis intervalares (ou de razão). Essas características são denominadas de tendência central, variabilidade, skewness e kurtosis.

Medidas de tendência central São geralmente as mais conhecidas pelos clínicos e englobam a média, mediana e moda. A média localiza o

Universidade Federal do Rio de Janeiro Núcleo de Estudos em Saúde Coletiva (NESC) Saúde Coletiva - Fisioterapia

AUTORIA: MAURÍCIO DE ANDRADE PÉREZ 28 centro de gravidade de uma distribuição, o que a torna tremendamente suscetível a valores extremos da mesma. Ela, que neste texto será representada como µ, é definida como a soma de todos os números da distribuição, dividida pelo n.º de observações realizadas.

µ = Χ i

Supondo-se que nossos dados consistem de 3 contagens de leucócitos (5.0, 50 e 12.0). A

++ = 7500. Repare que esta foi influenciada por um valor extremo (12.0), não sendo portanto uma boa representante dos dados.

A mediana corresponde ao ponto médio de uma distribuição, caso esta fosse ordenada (de forma crescente ou decrescente). Utilizando o mesmo exemplo fornecido acima, a mediana seria de 50, pois dos 3 valores existentes, o segundo (50) é que está eqüidistante dos outros dois. Se acrescentássemos mais um valor em nosso exemplo (6.500), deixaremos de ter um valor eqüidistante (o que só ocorrerá com amostras ímpares de dados). A solução é a de selecionar os dois números centrais (em nosso caso, 5.500 e 6500) e

.. + = 6.0. Repare que a mediana é uma representante muito mais fidedigna da contagem leucocitária, do que a média anteriormente calculada. Isso se deve ao fato de nossa distribuição ser desviada (skewed) para um lado (o valor extremo 12.0 - ver também tabela I). Atribuímos à moda, o valor mais freqüentemente observado. Se todos os valores forem diferentes (tal como em nosso exemplo), dizemos que não há moda; se dois ou mais valores tiverem simultaneamente a freqüência mais alta, dizemos que a distribuição é multimodal.

Resumo De todas as medidas de tendência central, a média é a mais utilizada. Sua preferência se deve ao fato dela ser a pedra inaugural de uma série de estatísticas, muitas das quais não podem ser calculadas quando utilizamos a mediana ou moda. A única justificativa para abandoná-la, é quando estamos diante de grandes desvios na distribuição (ver tabela I), bem como diante de amostras relativamente pequenas (menos de 30 pacientes). Na tabela e gráfico I, temos um exemplo de como a média e a mediana se mostraram relativamente próximas, apesar da ocorrência de valores extremos, No mundo clínico real entretanto, nem sempre é factível obter uma amostra “grande” o suficiente (falta de recursos, falta de pacientes, falta de tempo, etc.). Questões específicas do estudo (pacientes que permanecem vivos após o mesmo; que tempo utilizar ?), estarão sempre postas ao clínico. Por outro lado, serve de pouco consolo o fato de se saber que ao retirarmos infinitas amostras (pequenas) de uma população, a medida que chegarmos próximos ao infinito, a “média” de nossas infinitas “médias”, se aproximará do valor real que se quer observar. A solução para esse dilema está em, se possível, calcular uma amostra de tamanho adequado. Na ausência dessa possibilidade, torcer para que os dados sejam mais ou menos homogêneos. Caso nada dê certo, devemos então estar alertas de que nossa distribuição apresenta características “especiais” e que os testes estatísticos a serem aplicados deverão levar em conta estas características (ver adiante).

Medidas de variabilidade

A análise das medidas de variabilidade são fundamentais para a correta interpretação dos dados e não devem ser negligenciadas. As 3 mais importantes são o desvio padrão, percentis (ou medidas interprecentis) e a amplitude. Ao contrário das médias, onde os valores tentam representar um valor central, as medidas de variabilidade devem ser interpretadas como distâncias numa escala de valores.

Universidade Federal do Rio de Janeiro Núcleo de Estudos em Saúde Coletiva (NESC) Saúde Coletiva - Fisioterapia

AUTORIA: MAURÍCIO DE ANDRADE PÉREZ 29

Valid MissingN

Mean Median Mode Std. Deviation Minimum Maximum

Std. Dev = 1692,04 Mean = 7209,5 N = 374,0

LEUCÓCITOS NA 1ª

GRÁFICO I: CONTAGEM DE LEUCÓCITOS EM UMA AMOSTRA GRANDE (N=374)

Frequency desvio padrão, que é a mais conhecidas dessas medidas, é calculado como:

(fórmula 2)

(Parte 5 de 11)

Comentários