(Parte 4 de 5)

7.2.6. Desenho Esquemático ou Diagrama de Caixas (Box-Plot)

Representa os dados utilizando os três quartis (Q1, Q2 ou mediana e Q3), o mínimo e o máximo em uma caixa retangular, alinhada verticalmente. A caixa inclui o intervalo-interquartil para o cálculo das linhas extremas.

* (Outlier ou Ponto Discrepante ou Ponto Aberrante)

Figura 7.10: Desenho esquemático geral.

“M áximo”

Q3 Me diana

“M áximo”

Q3 Me diana

“M áximo”

Q3 Me diana

O diagrama de caixas ou desenho esquemático ou box-plot é útil na comparação de duas ou mais amostras. Para ilustrar considere os dados da Tabela 7.6, retirados de Hines et al (2006), que representam leituras de viscosidade em três misturas diferentes de uma matéria-prima usada em uma linha de produção. Um dos objetivos do estudo que Hines et al discutem é comparar as três misturas.

Tabela 7.6: Medidas de viscosidade para três misturas

Mistura 1 Mistura 2 Mistura 3

A Figura 7.1 a seguir apresenta os box-plot para os dados da viscosidade. Essa apresentação permite uma interpretação fácil dos dados. A mistura 1 tem viscosidade mais alta do que a mistura 2, e esta tem viscosidade mais alta que a mistura 3. A distribuição da viscosidade não é simétrica, porque as linhas superior e inferior e os comprimentos das caixas superior e inferior em torno da linha mediana não são iguais. O valor da viscosidade máxima da mistura 3 parece alta, em comparação com os demais valores da mistura 3 e, também, é maior que os valores das demais misturas 1 e 2. Essa observação é um outlier, e ela exige exame e análise mais aprofundados.

Viscosidade ( c en t i p o i s e)

Mistura 3Mistura 2Mistura 1

Figura 7.1: Diagramas de caixas para os dados de viscosidade da mistura na Tabela 7.6.

7.3. Exercícios – Parte I – A1

1) Faça o gráfico de barras, o de composição em setores e o de Pareto para os dados fornecidos na Tabela 7.7.

Tabela 7.7: Defeitos em elementos estruturais da porta

Tipo de Defeito Frequência Absoluta Partes Salientes 5 Fora do Contorno 30 Partes mal aparadas 25 Total 60

colocando no eixo x, os meses (janeiro,, dezembro) e no eixo y, consumo de energia (em kWh).

2) Observe a sua conta de luz de 2007 e construa um gráfico temporal e um gráfico de barras,

3) Desenhe o ramo-e-folhas, box-plot e o dot plot para os dados das taxas médias geométricas de incremento anual (por 100 habitantes) dos 30 maiores municípios do Brasil abaixo:

4) Construa uma tabela de classes de freqüências para os dados do exercício 3, com intervalos de amplitude 1, de 0 a 10, isto é:

[0, 1)
[1, 2)
[2, 3)
[3, 4)
[4, 5)
[5, 6)
[6, 7)
[7, 8)
[8, 9)
[9, 10]

Taxas Freqüência Absoluta Proporção Densidade em seguida, faça o histograma.

8. CORRELAÇÃO E REGRESSÃO

8.1. Estudo da relação entre variáveis

O objetivo é investigar a presença ou ausência de relação linear sob três pontos de vista:

(a) Inspeção visual: diagrama de dispersão (b) Quantificando a força dessa relação: coeficiente de correlação. (c) Explicitando a forma dessa relação: ajuste de uma reta.

Exemplos: 1) Idade e altura das crianças; 2) Tempo de prática de esportes e ritmo cardíaco; 3) Tempo de estudo e nota na prova; 4) Taxa de desemprego e taxa de criminalidade; 5) Expectativa de vida e taxa de analfabetismo.

8.2. Diagrama de Dispersão

Utilizado para estudar a relação entre duas variáveis quantitativas, fornecendo uma representação gráfica das duas variáveis.

Exemplo: Nota na Prova e Tempo de Estudo

X: tempo de estudo (em horas) Y: nota obtida na prova

Tabela 8.1: Pares de observações (Xi, Yi) Tempo Nota

Construção do Gráfico de Dispersão

No Excel podemos fazer:

Coluna A: Valores de X (Tempo) Coluna B: Valores de Y (Notas)

Selecione as duas colunas e clique no ícone “Assistente de Gráfico”. Selecione o gráfico de “Dispersão (XY)”.

Not a

Figura 8.1: Diagrama de Dispersão para as variáveis Tempo e Nota

Exemplo: Estudo da Renda Bruta Mensal pela Porcentagem da Renda Bruta Anual gasta com Assistência Médica.

Numa pesquisa feita com 1 famílias com renda bruta mensal entre 10 e 60 salários mínimos mediram-se:

X: renda bruta mensal (em salários mínimos) Y: porcentagem da renda bruta anual gasta com assistência médica

Tabela 8.2 X Y X Y

Porcent agem da Rend a Bruta Anual g asta com

Assist . Médic

Figura 8.2: Diagrama de Dispersão para as variáveis Renda Bruta Mensal e Porcentagem da Renda Bruta Anual gasta com Assistência Médica.

Nesta Figura 8.2, temos o diagrama de dispersão de X (Renda Bruta Mensal) e Y

(Porcentagem da Renda Bruta Anual gasta com Assist. Médica). Podemos notar que, conforme aumenta a renda bruta mensal, a porcentagem da renda bruta anual gasta com assistência médica diminui. Nota-se também uma tendência linear decrescente.

Fazendo apenas uma mudança na escala do eixo Y da Figura 8.2, obtemos a Figura 8.3, que ilustra com maior clareza essa tendência linear decrescente.

Por cent age m da Renda

Brut a A nua l gas ta c o m As si st. M é di ca

Figura 8.3: Diagrama de Dispersão para as variáveis Renda Bruta Mensal e Porcentagem da Renda Bruta Anual gasta com Assistência Médica.

8.3. Coeficiente de Correlação O coeficiente de correlação linear é definido como:

i i i i

SSn

YXnYX

SSn

==(9.1)

onde X e Ysão as médias amostrais das variáveis X e Y, respectivamente. xS e yS são os desvios padrão das variáveis X e Y, respectivamente

Recordando: 1

S n i

S n i

Propriedades do coeficiente de correlação linear

O valor do coeficiente de correlação linear situa no intervalo [-1, 1], ou seja, 1≤≤−r

Classificação da correlação 1. 1=r indica correlação linear positiva e perfeita; 2. 1−=r indica correlação linear negativa e perfeita; 3. 0=r indica inexistência de correlação linear;

4. 01≤≤−r indica correlação linear negativa; 5. 10≤≤r indica correlação linear positiva.

Gráficos - Exemplos da classificação da correlação 1=r, correlação linear positiva e perfeita 1−=r, correlação linear negativa e perfeita

0≅r, inexistência de correlação linear Y

-1 ≤ r ≤ 0, correlação linear negativa 0 ≤ r ≤ 1, correlação linear positiva.

O valor do coeficiente de correlação não depende da escala que medimos as variáveis. Para as duas figuras abaixo o valor do coeficiente de correlação é 46,0=r.

O coeficiente de correlação linear mede apenas o grau de associação LINEAR.

01,0≅r O coeficiente de correlação linear é sensível a valores discrepantes.

Exemplo: Considere o Estudo da Renda Bruta Mensal pela Porcentagem da Renda Bruta Anual gasta com Assistência Médica. Obter o coeficiente de correlação com os dados da Tabela 8.2.

Medidas Descritivas com os dados da Tabela 8.2

YXnYX

r yx

Podemos observar uma correlação negativa entre a renda bruta mensal e a porcentagem da renda bruta anual gasta com assistência médica, isto é quanto maior for a renda bruta mensal, menor é a porcentagem de sua renda gasta com assistência médica.

8.4. Regressão Linear Simples

Objetivo: ajustar uma reta entre duas variáveis quantitativas.

Reta Ajustada A reta ajustada de duas variáveis quantitativas Y e X é dado por bXaY +=) Definição de a e b a: intercepto; b: inclinação da reta.

Interpretação de b: Para cada aumento de uma unidade em X, temos um aumento médio de b unidades em Y.

Podemos calcular a e b utilizando o método de mínimos quadrados, que visa encontrar os valores de a e b, que minimiza a soma dos quadrados dos erros (ou desvios)

i i i i bXaYebaSQ 1 21

O problema agora se restringe a encontrar o mínimo de uma função de duas variáveis, a e b. Derivando e igualando a zero, observamos que as soluções de a e b devem satisfazer:

n i i

Reta Ajustada - Uso do Excel Coluna A: variável Y; Coluna B: variável X.

Para pedir à reta que se ajusta aos dados devemos utilizar os seguintes comandos: =INTERCEPÇÃO(A1:An;B1:Bn): Mostrará o intercepto (a);

=INCLINAÇÃO(A1:An;B1:Bn): Mostrará a inclinação (b).

Exemplo: Consumo de cerveja e temperatura

As variáveis foram observadas em nove localidades com as mesmas características demográficas e sócio-econômicas.

Y: consumo de cerveja em um dia (em 100 litros) X: temperatura máxima (em ºC) Os dados amostrais estão dispostos na Tabela 8.3.

Tabela 8.3

Temperatura Consumo Temperatura Consumo

37 406

16 290 36 370 31 374 36 365 38 393 2 320 39 425 15 270 A correlação entre X e Y é:

X= xS= Y= yS= ∑=n i iiYX1

A reta ajustada para este exemplo é:

y = 5,2194x + 200,42

C o n s u mo d e C erv ej a

Figura 8.4: Diagrama de Dispersão para as variáveis Temperatura Máxima e Consumo de Cerveja, juntamente com a Reta de Regressão

(a) Qual a interpretação de b para o exemplo consumo de cerveja e temperatura?

(b) Qual o consumo previsto para uma temperatura de 25ºC? 8.5. Coeficiente de Determinação

A quantidade r2 = (quadrado do coeficiente de correlação x 100%) chama-se coeficiente de determinação e é, em geral, usada para julgar-se a adequação de um modelo de regressão. Claramente, 0 ≤ r2 ≤ 100. Na prática, nos referimos a r2 de modo mais informal como a quantidade de variabilidade nos dados explicada pelo, ou devido ao, modelo de regressão.

Exemplo: Considere o estudo da renda bruta mensal pela porcentagem da renda bruta anual gasta com assistência médica, onde o coeficiente de correlação deu aproximadamente -0,9399, com os dados da Tabela 8.2, logo, o coeficiente de determinação será r2 ≅ 8,35%, isto é, 8,35% da variabilidade nos dados é explicada pelo modelo de regressão y = 7,7212 – 0,04x.

y = -0,04x + 7,7212 R = 0,8835 por c e nt a g e m da r e nda b r ut a a nual ga sta co m a s s i s t ê nc ia m é di c a

8.6. Exercícios – Parte I – A1

1) Considere o exemplo das variáveis Nota na Prova e Tempo de Estudo

X : tempo de estudo (em horas) Y : nota obtida na prova

(a) Faça o Gráfico de Dispersão. (b) Obtenha o Coeficiente de Correlação. (c) Calcule a Reta de Regressão e represente no Gráfico de Dispersão. (d) Obtenha o coeficiente de determinação.

Lista de Exercícios 1

1) Identifique a população e a amostra correspondente à: A fim de avaliar a intenção de voto para presidente dos brasileiros, 122 pessoas foram entrevistadas em Brasília.

2) Classifique as seguintes variáveis: a) Conceitos obtidos na Disciplina Estatística (R:Ruim, M:Médio, B:Bom e O:Ótimo); b) Bacias Hidrográficas (A:Amazônica, P:Platina, SF:São Francisco, N:do Nordeste, L:do Leste, S:do Sul); c) Número de sementes germinadas (0, 1, 2, 3, 4, 5); d) Renda;

3) Selecione uma amostra de tamanho 10 dentre 80 funcionários, utilizando as técnicas de amostragem aleatória simples e sistemática. Depois, levando em conta que o sexo dos funcionários é importante na pesquisa, obtenha uma amostra de mesmo tamanho utilizando amostragem estratificada proporcional considerando que dos 80 funcionários, 30 são mulheres e 50 são homens. (Utilize a primeira linha da tabela de números aleatórios, quando for necessário)

4) Uma certa cidade possui N = 200 zonas eleitorais. Uma empresa destinada a fazer uma pesquisa eleitoral vai selecionar aleatoriamente n = 15 zonas e entrevistar todos os elementos que estão dentro dessas zonas eleitorais, isto é, foi utilizada amostragem por conglomerado. Apresentem quais serão as 15 zonas eleitorais amostradas. (Utilize a primeira linha da tabela de números aleatórios, quando for necessário)

5) Os dados a seguir referem-se aos conceitos obtidos de n = 60 alunos, na disciplina de Estatística na Escola E.

Tabela 1: Dados Brutos

R : Ruim M : Médio B: Bom O : Ótimo a) Organize os dados abaixo em uma Tabela de Freqüências, com título, freqüências absoluta e relativa, porcentagens e interpretação.

b) Faça os gráficos de barras,o de composição em setores e o de Pareto para os dados da Tabela 1.

6) Os dados abaixo se referem ao comprimento de 31 canos PVC vendidos em uma loja de material de construção.

a) Obtenha as medidas de posição: mínimo, máximo, média, moda, mediana, Q1 e Q3. b) Obtenha as medidas de dispersão: amplitude, variância, desvio-padrão e intervalo-interquartil.

c) Organize os dados da Tabela 2 em uma Tabela de Classes de Freqüências, com título, freqüências absoluta e relativa, porcentagem e interpretação. Utilize uma amplitude de 2 para as classes.

d) Faça o histograma utilizando os dados agrupados em (c), baseados na Tabela 2. e) Construa o dot-plot, box-plot e o ramo-e-folhas para os dados da Tabela 2.

7) Medidas da pulsação de 15 índios nativos dos Alpes Peruanos estão apresentadas a seguir:

Tabela 3: Medidas da pulsação 64 64 68 68 76 60 72 68 80 60 72 8 60 8 60 a) Calcule: Média, Mediana. Comente os resultados; b) Calcule: Mínimo, Q1, Q3 e Máximo. Interprete estas 4 estatísticas; c) Calcule: Variância e Desvio Padrão. Comente. d) Construa o gráfico de barras para os dados de pulsação dos índios.

8) Um órgão do governo do estado está interessado em determinar padrões sobre o investimento em educação, por habitante, realizado pelas prefeituras. De um levantamento de dez cidades, foram obtidos os valores (codificados) da tabela abaixo:

Tabela 4: Valores codificados do investimento em educação

Cidade A B C D E F G H I J

Investimento20 16 14 7 19 15 14 16 19 18 a) Calcule a média e o desvio-padrão das observações; b) Receberão um programa especial às cidades com valores de investimento inferiores à média menos duas vezes o desvio padrão. Alguma cidade receberá o programa? c) Será considerado como investimento básico a média das observações compreendidas entre a média original menos dois desvios padrão e a média original mais dois desvios padrão. Calcule o investimento básico e compare com a média obtida no item a). Justifique a diferença encontrada.

9) Três medicamentos para cicatrização estão sendo testados e um experimento é feito para estudar o tempo (em dias) do completo fechamento em cortes provenientes de cirurgia. Os resultados abaixo mostram o tempo de cicatrização em cobaias submetidas a um dos três tratamentos (A, B, C):

Tabela 5: Tempo (em dias) do completo fechamento em cortes provenientes de cirurgia

A 13 14 15 13 15 14 15 15 14 14 B 14 12 13 13 14 14 13 14

C 12 12 13 13 12 13 1 1 Analise os dados descritivamente utilizando todas as medidas apresentadas em aula e comente.

10) A seguir, temos informações do número de peixes-boi mortos e o número de barcos de turismo (em milhares) que circulam em seu habitat na Flórida-EUA.

Tabela 6: Dados Brutos

a) Observe o diagrama de dispersão e comente sobre a relação linear dessas duas variáveis. b) Verifique se a correlação é significativa (através do coeficiente de correlação (r)).

c) Obtenha a reta de regressão, considerando o número de peixes mortos a variável dependente e o número de barcos como a variável independente.

d) Interprete o coeficiente de determinação (r2).

1) É esperado que a massa muscular de uma pessoa diminua com a idade. Para estudar essa relação uma nutricionista selecionou 18 mulheres com idade entre 40 e 79 anos, e observou em cada uma delas a idade (X) e a massa muscular (Y).

a) Faça o diagrama de dispersão dos dados.

b) Calcule o coeficiente de correlação linear entre X e Y e interprete-o.

c) Ajuste uma reta de regressão para mostrar a relação linear entre as variáveis Y: massa muscular (dependente) e X: idade (independente) e interprete os coeficientes.

Alguns resultados: n = 18; 1108 18

iYX.

Observação: O gabarito da Lista de Exercícios 1 encontra-se no Apêndice A

9. PROBABILIDADE

9.1. Processo ou Experimento Aleatório

Definição 1: Qualquer fenômeno que gere resultado incerto ou casual é chamado de Processo ou Experimento Aleatório.

Exemplos: 1) Jogar uma moeda duas vezes e observar a seqüência obtida de caras e coroas;

(Parte 4 de 5)

Comentários