Conceitos básicos e princípios de estatística

Conceitos básicos e princípios de estatística

(Parte 1 de 2)

Variável aleatória: é um número (ou vetor) determinado por uma resposta, isto é, uma função definida em pontos do espaço amostral. Uma variável aleatória pode ser discreta (como no lançamento de um dado) ou contínua (como na medição de temperatura).

Valor esperado (expectativa,significado): é a média ponderada dos possíveis valores de

X, cada valor ponderado por sua probabilidade. É representada por E(X) ou mx, sendo definida por

E(X) = Si xiP(X = xi),parai=1, 2,, n.

Variância: é uma medida da dispersão de X. É representada por Var(X) e por s2 e é definida por

Var X x f x E X ou

Var X E X i ix

S m m m

Desvio padrão: é a raiz quadrada não-negativa da variância. É representado por s.

Uma variável padronizada tem valor esperado igual a 0 e variância igual a 1 (desvio padrão igual a 1).

Teste amostral simples: constitui-se de uma sucessão de leituras tomadas sob condições idênticas (mesmo observador e mesmo instrumento de medição), exceto o tempo.

Teste multiamostral: ocorre quando são feitas medições repetidas de uma quantidade, utilizando diferentes instrumentos de medição e diferentes observadores. As trocas, tanto de observador como de instrumento, causam mudanças na distribuição dos erros e, consequentemente, tem-se um conjunto de variáveis aleatórias.

Distribuição multivariada: é a distribuição conjunta de duas ou mais variáveis aleatórias definidas no mesmo espaço amostral, própria de um teste multiamostral. Um exemplo é a distribuição associada com a observação simultânea de temperatura, pressão, direção e velocidade do vento. A função distribuição de uma distribuição bivariada é:

Valor verdadeiro de uma variável: é aquele que seria obtido na medição se não houvesse característica estocástica (aleatória) associada com a medição.

Erro aleatório: é um erro que representa a diferença entre o valor medido da variável aleatória e seu valor verdadeiro.

Erro sistemático: é um erro introduzido continuamente, devido, por exemplo, a erro de calibração, desvios instrumentais, erro de técnica e, também, devido à representação inadequada de um processo (como a não-consideração da ocorrência de vazamentos, depósitos).

Variáveis aleatórias independentes: um número finito de variáveis aleatórias X, Y,..., Z, num espaço amostral definido, são consideradas independentes se:

i)E(XY) = E(X) E(Y) i)Var(X+Y) = Var(X) + Var(Y) i)Cov(X,Y) = 0 onde Cov(X,Y) = covariância.

Covariância: é o conceito que relaciona duas variáveis aleatórias, X e Y, definidas num mesmo espaço amostral, representada por Cov(X,Y). É definida por

Coeficiente de correlação: fornece a correlação entre duas variáveis aleatórias, X e Y, definidas num mesmo espaço amostral, representada por rXY,. É definido por

Autocovariância: ao lidar com o registro contínuo da temperatura X(t) em função do tempo, pode-se estar interessado na relação entre X(t) nos tempos t1 e t2 .A covariância entre variáveis aleatórias X(t1) e X(t2), que representam pontos sobre um mesmo caminho, mas em diferentes tempos, é chamada de autocovariância .

Covariância cruzada: é a covariância entre dois processos estocásticos contínuos, sendo que um deles é referente a um ponto no tempo X(t1) e o outro a um ponto e tempo possivelmente diferentes, Y(t2).

2. A Variância e a Distribuição de Erros Aleatórios

Se uma medição experimental é repetida um número de vezes, os valores registrados das quantidades medidas diferem, quase sempre, uns dos outros. A dispersão de medições sucessivas de uma quantidade x é comumente expressa em termos da variância ou do desvio padrão do conjunto de medidas. Essas quantidades são definidas de forma que sejam úteis na estimativa da probabilidade de ocorrência de erros aleatórios de intensidade definida nas medidas.

A variância da amostra é simplesmente o desvio ao quadrado médio, de n valores medidos de x, em relação à média da amostra x:

(1)

onde a média (x) é obtida por x x

(2)

O desvio padrão é obtido através da variância: sa=2 (3)

Na definição da variância das Eq.(1), desvios positivos e negativos em torno da média não se cancelam uns aos outros. A última forma desta equação, que define a variância, é a mais conveniente, quando cálculos reais estão sendo feitos.

O valor da variância se torna mais confiável quanto mais medições forem obtidas e a exatidão real do procedimento de medição é indicada pelo valor da variância, calculada a partir de uma quantidade muito grande de dados. Quando o número de pontos experimentais obtido se tornar infinito, o conjunto infinito é chamado uma população de valores. Para tal população, a média da população (m) é definida como:

fi¥lim n e a variância da população s2 é definida como

O desvio padrão da população é a raiz quadrada não-negativa da variância da população.

A média da população é o melhor, ou mais provável, valor de x, desde que as variações de x sejam resultantes de efeitos pequenos, aleatórios, independentes e aditivos. Se, entretanto, erros de método e/ou erros não-aleatórios forem inerentes às medidas, então a média pode diferir substancialmente do valor verdadeiro de x.

Se em um conjunto infinito de dados, as variações de x forem aleatórias, diz-se que a distribuição de valores de x em torno da média é uma Distribuição Normal ou Gaussiana.

3.1 Distribuição Normal ou Gaussiana.

As distribuições de fenômenos observados assumem, frequentemente, uma forma simétrica em torno da média. Uma função desse tipo, de extrema importância em estatística, é chamada de Distribuição Normal ou Distribuição de Gauss, que é descrita pela função

œßø ŒºØ s

1 exp

De forma abreviada, se a variável aleatória x apresenta distribuição normal, com média m e variância s2, diz-se, simplesmente,

Do exame da função densidade, verifica-se que:

Quando a variável aleatória x é padronizada, ela passa a ter uma Distribuição Normal

Padronizada, que tem média zero e desvio padrão unitário, ou equivalentemente, uma distribuição N(0,1).

Os valores desta função distribuição são tabelados e com eles se tem um meio de obter as probabilidades associadas a qualquer variável normal, conhecidos a média e o desvio padrão e a definição de variável aleatória padronizada (z),

x x x xn

+ + +1 2

é normalmente distribuída, com média m e variância s2/n. Este resultado é muito importante e é chamado de Teorema do Limite Central. Em consequência, z x n= tem uma distribuição normal padronizada. Esta situação corresponde a um teste amostral simples.

A variância da população, definida pela Eq..5, é baseada numa amostra hipotética, contendo um número infinito de replicatas de uma medida. Todavia, para objetivos práticos, é necessário lidar com um número finito de valores da quantidade em questão.

A média da amostra (x) é a melhor estimativa da média da população (m). Entretanto, a variância da amostra (sa2) não é a melhor estimativa da variância da população (s2). A melhor estimativa da variância da população é dada por, x x n

n n n n n n

s(6)

Considerando, agora um teste multiamostral envolvendo n variáveis aleatórias

Z a X a X a Xn n= + + +1 1 2 2

Na hipótese de Z ser normalmente distribuída, sua média mz é a média ponderada das médias das variáveis aleatórias individuais, que podem ou não ser independentes, que é dada por

( )m m m mz n na a a= + + +1 1 2 2

A variância é dada por

( )s sz i i i

(Parte 1 de 2)

Comentários