Apostila Planejamento Fatorial - Estatística

Apostila Planejamento Fatorial - Estatística

(Parte 2 de 12)

A variabilidade total dos dados é dada a partir da soma de quadrados totais

(3.3)

Mas pode-se particionar de forma que:

(3.4)

Demonstração: Ver Montogomery 2001.

A relação em (3.4), mostra que a variabilidade total nos dados, medida pela soma de quadrados total, pode ser particionada em uma soma de quadrados das diferenças entre as médias dos tratamentos e a média geral, e na soma de quadrados das diferenças entre as observações dentro de cada tratamento e a média do respectivo tratamento. Diferenças entre médias de tratamentos observadas e a média geral quantificam diferenças entre tratamentos, enquanto diferenças das observações dentro de um tratamento e a média do tratamento podem ser devidas apenas a um erro aleatório.

Dessa forma, reescrevemos (3.4) como

, onde:

: Soma dos quadrados total.

: Soma dos quadrados devido aos tratamentos.

: Soma dos quadrados dos erros.

Calculando os valores esperados de e tem-se :

(3.5)

Demonstração: Ver Montgomery (2001)

Sob verdadeira, temos que

Se é verdadeira, então

A razão é chamada média quadrática dos tratamentos. Logo, se é verdadeira, é um estimador não-viciado de , enquanto que, se é verdadeira, estima mais um termo positivo que incorpora a variação devida à diferença entre as médias dos tratamentos.

Da mesma forma, tem-se que

(3.6)

Então a média quadrática dos erros é um estimador não-viciado de , independente de ser ou não verdadeira.

Analisaremos também a partição dos graus de liberdade.

: tem graus de liberdade

: tem graus de liberdade

: tem graus de liberdade

Supondo que cada uma das populações possa ser modelada com uma distribuição normal. Com essa suposição pode-se mostrar que, sob , então:

(3.7)

Se é verdadeira e são estimadores não viciados de , mas se é falsa então será maior que , assim sob a hipótese alternativa, será grande. Dessa forma um teste de hipótese é construído. Devemos rejeitar se o valor da estatística é grande, isso implica em uma região crítica unilateral superior. Então rejeita-se se . No geral utiliza-se o seguinte quadro para ANOVA.

Tabela 3.2 - Quadro da Anova

Fonte de Variação

Entre Tratamentos

Dentro dos Tratamentos (Erro)

Total

Estimativas dos efeitos dos tratamentos:

,

3.2 Análise de Resíduos.

O modelo matemático de um planejamento completamente aleatorizado, considera que as observações sejam distribuidas de forma normal, com mesma variância. Essas suposições podem ser verificadas através da análise de resíduos.

Um resíduo é a diferença entre uma observação e seu valor estimado (ou ajustado) a partir do modelo estatístico que esta sendo utilizado, denotado por . Para o modelo específico temos que , com cada resíduo sendo , ou seja, a diferença entre uma observação e a média correspondente observada do tratamento.

Para identificar se as suposições estão sendo violadas utilizamos básicamente três tipos de gráficos: Resíduos X Ordem de Coleta, Resíduos X Tratamentos (médias ) e Gráfico de probabilidade normal dos Resíduos.

O gráfico de Resíduos X Ordem de Coleta busca identificar algum tipo de associação dos resíduos com a ordem de coleta das observações. A identificação de algum tipo de associação viola a suposição de indepêndencia entre os dados, portanto espera-se em uma análise de resíduos que não haja associoação entre resíduos e ordem de coleta. O gráfico deve apresentar uma configuração aleatória entre resíduos e ordem de coleta.

Figura 3.1: Gráfico Resíduo X Ordem

Na Figura 3.1, tem-se uma típica configuração aleatória entre ordem X resíduos, validando a suposição de independência entre as observações.

O gráfico de Resíduos X Tratamento, busca identificar algum tipo de alteração na dispersão dos resíduos para cada tratamento. Se houver dispersões muito diferentes entre tratamentos pode significar que a variação não é constante, e uma importante suposição do modelo estará violada. O gráfico deve apresentar uma configuração de dispersão semelhante para todos os tratamentos.

Figura 3.2: Resíduo X Média dos Tratamentos

Na Figura 3.2, verifica-se um caso típico de não violação da suposição de igualdade da variância.

O gráfico de probabilidade normal dos resíduos identifica se os dados apresentam uma distribuição normal. Os resíduos plotados contra os quantils de uma distribuição normal devem ficar de forma aproximada ao longo de uma reta. Neste caso pode-se usar um teste estatístico baseado no coeficiente de correlação para identificar uma possível lineariedade.

Figura 3.3: Gráfico de Probabilidade Normal para os Resíduos.

Em situações como na Figura 3.3, percebemos que pontos centrais estavam localizados, de forma aproximada, ao longo de uma reta, o que indica que os componentes do erro do modelo seguiam uma distribuição normal. No entanto para confirmar essa hipótese sugere-se utilizar um teste para normalidade.

3.3 Comparações Multiplas

A análise de variância nós indica que há uma diferença entre as médias, mas ela não diz qual média que difere.Existem procedimentos específicos chamados de procedimentos de comparação múltipla, para testar as diferenças entre as médias específicas seguindo uma análise de variância. Dentre os testes mais conhecidos destacamos o teste Tukey (Montgomery,2001).

3.3.1 Teste de Tukey

O teste de Tukey, está baseado na amplitude total estudentizada e pode ser usado para comparar todos os pares de contrastes que envolvem diferenças de médias.

O teste é exato de nível quando o número de repetições é o mesmo para todos tratamentos e aproximado quando o número de repetições é diferente para os tratamentos. Este teste pode ainda ser usado para a construção de intervalos de confiança para a difernça entre as médias dos tratamentos.

O procedimento está baseado na distribuição de amplitude total estudentizada (studentized range statistic) dada por:

(3.8)

onde e são as maiores e menores médias amostrais respectivamente, calculadas para um grupo de amostras. A distribuição de , com sendo o percentil superior de pontos de com graus de liberdade, associado ao estimador é calculada computacionalmente.

Para um número igual de repetições, o teste Tukey detecta diferenças significativas entre pares de duas médias se o valor absoluto da diferenças das médias amostrais execeder

De forma equivalente, constrói-se intervalos de de confiança para todos os pares de médias dada por:

, .

Para tamanhos amostrais diferentes (diferente n° de repetições), temos:

e

, respectivamente.

3.4- Análise Estatística de um Planejamento Completamente Aleatorizado com o uso do Software R.

Neste tópico vamos ilustrar a utilização do software R na análise de dados para o modelo de planejamento de experimento completamente aleatorizado.

3.4.1- Descrição do Programa

O software R, que é uma linguagem e ambiente para computação estatística e gráfica de domínio público (VENABLES e SMITH, 2001), atualmente muito difundido nos grandes centros.

A linguagem R é derivada da linguagem do Software S-plus. Sua sintaxe é semelhante com a linguagem C, e sua estrutura é de linguagem funcional. A tela inicial do programa está ilustrada na figura abaixo:

Figura 3.4 : Tela Inicial do Software R.

(Parte 2 de 12)

Comentários