(Parte 1 de 6)

ANÁLISE MULTIVARIADA Daniel Furtado Ferreira

LAVRAS, MG 1996

SUMÁRIO Pág. 1. Aspectos da análise multivariada 1 1.1. Introdução 1 1.2. Aplicação das técnicas multivariadas 3 1.3. Organização de dados 5 1.4. Distâncias 15 1.5. Exercícios 24

2. Álgebra vetorial e matricial 25 2.1. Introdução 25 2.2. Elementos de álgebra vetorial 26 2.3. Elementos de álgebra matricial 34 2.4. Exercícios 82

3. Amostragem multivariada 89 3.1. Introdução 89 3.2. Geometria amostral 90

3.3. Amostras aleatórias e esperanças do vetor de média e da matriz de covariância amostral. 101

3.4. Variância generalizada 104 3.5. Variância generalizada de variáveis generalizadas 113 3.6. Outra generalização da variância 116 3.7. Exercícios 117

4. Distribuição normal multivariada 119 4.1. Introdução 119 4.2. Pressuposições das análises multivariadas 120 4.3. Densidade normal multivariada e suas propriedades 121 4.4. Distribuição normal bivariada 125

4.5. Distribuição amostral de X e S 133

4.6. Distribuições amostral derivada da distribuição normal multivariada 138

4.7. Verificando a normalidade 143 4.8. Exercícios 169

5. Inferências sobre o vetor média 171 5.1. Introdução 171 5.2. Inferências sobre média de uma população normal 171

5.3. Região de confiança e comparações simultâneas de componentes de média 177

5.4. Inferências sobre proporções de grandes amostras 190 5.5. Comparações pareadas 192 5.6. Comparações de vetores de médias de duas populações 199 5.7. Exercícios 215

6. Análise de variância multivariada 219 6.1. Introdução 219 6.2. Delineamento de classificação simples 220

6.3. Intervalos de confiança simultâneos para o efeito de tratamentos 230

6.4. Exercícios 232

7. Componentes principais 233 7.1. Introdução 233 7.2. Componentes principais populacionais 234 7.3. Componentes principais amostrais 250 7.4. Gráficos dos componentes principais 256 7.5. Inferências para grandes amostras 259 7.6. Exercícios 282

8. Análise de agrupamento 285 8.1. Introdução 285 8.2. Medidas de parecença (similaridades e dissimilaridades) 286 8.3. Agrupamentos 296 8.4. Exercícios 308

9. Análise de fatores 309 9.1. Introdução 309 9.2. Modelo de fatores ortogonais 310 9.3. Estimação de cargas fatoriais 316 9.4. Rotação fatorial 342 9.5. Teste da falta de ajuste do modelo fatorial 346

9.6. Escores fatoriais 349 9.7. Exercícios 354

10. Análise de correlação canônica 355 10.1. Introdução 355 10.2. Variáveis canônicas e correlação canônica populacionais 356 10.3. Variáveis e correlações canônicas amostrais 371 10.4. Inferências para grandes amostras 380 10.5. Exercícios 386 1. Referencias bibliográficas 389

Apêndices 395 Índice remissivo 397

||[ ]||Aspectos da análise multivariada

1.1. Introdução

Nos trabalhos científicos, o problema de se inferir, a partir de dados mensurados pelo pesquisador, sobre os processos ou fenômenos físicos, biológicos ou sociais, que não se pode diretamente observar, é uma realidade constante. A pesquisa científica se constitui num processo interativo de aprendizado. Para explicação de um fenômeno, o pesquisador em geral coleta e analisa dados de acordo com uma hipótese. Por outro lado, a análise destes mesmos dados coletados de amostragem ou experimentação geralmente sugere modificações da explicação do fenômeno, além disso, devido à complexidade destes fenômenos, o pesquisador deve coletar observações de diferentes variáveis. Neste contexto, a inferência estatística é realizada de acordo com o paradigma hipotético-dedutivo (Bock, 1975). Devido aos fenômenos serem estudados a partir de dados coletados ou mensurados em muitas variáveis, os métodos estatísticos delineados para obter informações a partir destes conjuntos de informações, são denominados de métodos de análises multivariados. A necessidade de compreensão das relações

1. Aspectos da análise multivariada 2 entre as diversas variáveis faz com que as análises multivariadas sejam complexas ou até mesmo difíceis. O objetivo do presente material é apresentar a utilidade das técnicas multivariada de uma forma clara, usando exemplos ilustrativos e evitando o máximo de possível de cálculo.

Sendo assim, os objetivos gerais, para os quais a análise multivariada conduz são: a. redução de dados ou simplificação estrutural: o fenômeno sob estudo é representado da maneira mais simples possível, sem sacrificar informações valiosas e tornando as interpretações mais simples; b. ordenação e agrupamento: agrupamento de objetos (tratamentos) ou variáveis similares, baseados em dados amostrais ou experimentais; c. investigação da dependência entre variáveis: estudos das relações estruturais entre variáveis muitas vezes é de interesse do pesquisador; d. predição: relações entre variáveis devem ser determinadas para o propósito de predição de uma ou mais variável com base na observação de outras variáveis; e. construção e teste de hipóteses.

Os modelos multivariados possuem em geral, um propósito através do qual o pesquisador pode testar ou inferir a respeito de uma hipótese sobre um

Ferreira, D.F. Estatística multivariada 3 determinado fenômeno. No entanto a sua utilização adequada depende do bom conhecimento das técnicas e das suas limitações. A frase utilizada por Marriott (1974) descreve bem este fato: “Não há mágica com os métodos numéricos, e que apesar de serem uma importante ferramenta para análise e interpretação de dados, não devem ser utilizados como máquinas automáticas de encher lingüiça, transformando massas numéricas em pacotes de fatos científicos”.

1.2. Aplicação de técnicas multivariadas

As técnicas estatísticas constituem se uma parte integral da pesquisa científica e em particular as técnicas multivariadas tem sido regularmente aplicada em várias investigações científicas nas áreas de biologia, física, sociologia e ciências médicas. Parece, neste instante, ser apropriado descrever as situações em que as técnicas multivariadas têm um grande valor.

Medicina

Nos estudos onde as reações de pacientes a um determinado tratamento são mensuradas em algumas variáveis e possuem difícil diagnóstico, as técnicas multivariadas podem ser usadas para construir uma medida de resposta simples ao tratamento, na qual é preservada a maior parte da informação da amostra e das múltiplas variáveis respostas. Em outras situações as técnicas

1. Aspectos da análise multivariada 4 multivariadas podem ser usadas também quando a classificação de um paciente, baseada nos sintomas medidos em algumas variáveis, é difícil de ser realizada. Neste caso, uma técnica multivariada de classificação, em que se cria uma função que pode ser usada para separar as pessoas doentes das não doentes, pode ser implementada.

Sociologia

Em alguns estudos o inter-relacionamento e o agrupamento de indivíduos, cidades ou estados em grupos homogêneos em relação à mobilidade, número de estrangeiros nascidos e de segunda geração em determinado país é necessária em alguns estudos sociológicos. As técnicas de análise multivariada, conhecidas como análise de agrupamento (Cluster analysis), pode ser empregada com esta finalidade.

Biologia

No melhoramento de plantas é necessário, após o final de uma geração, selecionar aquelas plantas que serão os genitores da próxima geração. a seleção deve ser realizada de maneira que a próxima geração seja melhorada em relação à resposta média de uma série de características da geração anterior. O objetivo do melhorista consiste em maximizar o ganho genético em um espaço

Ferreira, D.F. Estatística multivariada 5 mínimo de tempo. As análises multivariadas podem ser usadas para converter uma série de características para um índice, na qual a seleção e escolha dos pais possam ser feitas.

Em algumas situações se deseja a separação de algumas espécies, e as técnicas multivariadas têm sido utilizadas com esta finalidade. Uma função é construída e os seus valores são usados para esta separação.

1.3. Organização de dados

Através deste material pretende-se tratar das análises realizadas em muitas características ou variáveis. Essas medidas, muitas vezes chamadas de dados, devem ser organizadas e apresentadas em várias formas. Por exemplo, a utilização de gráficos e arranjos tabulares são importantes auxiliares nas análises de dados. Por outro lado, números que resumem, ou seja, que descrevem quantitativamente certas características, são essenciais para a interpretação de os dados amostrais ou experimentais.

Arranjos

Os dados multivariados são provenientes de uma pesquisa em determinada área em que são selecionadas p ≥ 1 variáveis ou características para

1. Aspectos da análise multivariada 6 serem mensuradas. As medidas são tomadas em cada unidade da amostra ou do experimento. A representação destes dados é feita com a notação xjk para indicar um valor particular da j-ésima unidade amostral ou experimental e da k-ésima variável mensurada. Conseqüente, estas medidas de p variáveis em n unidades amostrais ou experimentais, podem ser representadas conforme o arranjo apresentado na Tabela 1.1.

Tabela 1.1. Representação de dados através da notação xjk para indicar um valor particular da k-ésima variável mensurada na j-ésima unidade amostral ou experimental.

Variáveis

Unidades amostrais

12 ... k ... p
1 X11X12... X1k... X1p
2 X21X22... X2k... X2p

ou experimentais

(Parte 1 de 6)

Comentários