quarta-feira, 30 de julho de 2014

Estatística

 Estatística:
É a parte da matemática em que se investigam  os processos de obtenção, organização e análise de dados  sobre uma população ou sobre uma coleção de seres quaisquer, e os métodos de tirar conclusões e fazer predições  com base nesses dados.
Objetivos: encontrar leis de comportamento para toda a população, ou universo, não se preocupa com cada elemento em particular.
Métodos estatísticos:
São métodos para tratamento de dados numéricos  e referem-se a dados coletados, cujo destino é permitir que os estatísticos chegue a conclusões sobre o que está estudando (pessoas ou coisas).
População:
É o conjunto de elementos que desejamos observar para determinados dados.
Fenômeno coletivo:
É aquele que se refere a um grande numero de elementos, sejam pessoas ou coisas, aos quais denominamos de população ou universo.
Amostra:
É o subconjunto de elementos retirados da população que estamos observando para obtermos determinados dados.
Estatística descritiva ou dedutiva:
Tem por objeto descrever e analisar determinada população, sem com isso, pretender tirar conclusões de caráter mais genérico. É a parte da estatística referente à coleta e a tabulação dos dados.
É, pois, um número que sozinho, descreve uma característica de um conjunto de dados, ou seja, é um número resumo que possibilita reduzir os dados a proporções mais facilmente interpretáveis.
Estatística indutiva ou inferência estatística:
É a parte da estatística que, baseando-se em resultados obtidos da analise de uma amostra da população, procura inferir, induzir ou estimar as leis de comportamento da população da qual a amostra foi retirada. Refere-se a um processo de generalização a partir de resultados particulares, é, portanto, a aparte  da estatística concernentes sobre as fontes de dados.
Logo, significa: admitirmos que os resultados obtidos na analise dos dados de uma amostra são válidos para toda população da qual aquela amostra foi retirada. Consiste na obtenção e generalização das conclusões.
Fases do método  (estatística descritiva):
Definição do problema, delimitação do problema, planejamento para obtenção dos dados, coleta dos dados, apuração dos dados, apresentação dos dados, analise dos dados e interpretação dos dados.
Dados brutos:
São a relação dos resultados obtidos em uma pesquisa e que foram transcritos aleatoriamente, ou seja, fora de qualquer ordem. São os dados originais, coletados em uma pesquisa,  e que ainda não se encontram prontos para analise por não estarem numericamente organizados.
Rol:
É a relação dos resultados obtidos em uma pesquisa e que foram colocados em ordem numérica, crescente ou descrente.
Ex. 3-4-4-4-4-5-5-5-6-6—7-7-7-7-7- etc..
Frequência  (f):
É o numero de vezes que um mesmo resultado acontece durante uma pesquisa.
Ex. 3-1 /4-4/ 5-3 etc...
Frequência absoluta acumulada ou frequência acumulada (fa):
É o somatório das frequências dos valores inferiores ou iguais ao valor dado.
Tabelas:
A estrutura de uma tabela é constituída de 3 partes: cabeçalho, corpo e rodapé.
Cabeçalho:
 é a parte da tabela que contém o suficiente para esclarecer o leitor quanto  ao que ela sintetiza. Ex.: notas da turma A em estatística 1. Bimestre /2006.
Corpo da tabela:
É constituído por linhas e colunas, nas quais são distribuídos os dados apurados na pesquisa.
Rodapé:
É o espaço no qual são colocadas as informações que permitem esclarecer a interpretação da tabela.Ex.: no rodapé colocamos a legenda e a fonte dos dados.
Maior interesse do pesquisador:
É conhecer o comportamento dessa variável, analisando a ocorrência de suas possíveis realizações.
Distribuição de frequências:
É a apresentação dos resultados de uma pesquisa por meio de uma tabela que mostra a frequência (o número de vezes) de ocorrência de cada resultado.
Classes ou intervalos:
É quando um número de resultados obtidos em uma pesquisa é demasiadamente grande, é comum agruparmos esses resultados em faixas de valores.
Ex. se um pesquisador deseja saber a idade das pessoas pesquisadas, ele as distribui em faixas etárias.
Obs.: se distribuirmos os valores individuais em intervalos ou classes estamos conscientes de que algum erro pode estar sendo inserido.
Limites inferiores  (li)
Valores da esquerda de cada faixa etária.
Limites superiores (ls): são os valores da direita das classes ou intervalos.
Símbolo p. 30;
Representa que a classe ou intervalo é fechado à esquerda, ou seja, o valor escrito à esquerda (limite inferior) pertence ao intervalo e como a classe ou intervalo é aberto à direita, o valor escrito à direita (limite superior) não pertence ao mesmo.
Amplitude do intervalo:
Se subtrairmos o limite inferior do limite superior de determinada classe ou intervalo.
Distribuição dos dados em classes ou intervalos:
É comum utilizarmos quando tem-se uma população grande para representar. Ex.: uma tabela com os resultados dos 50.000candidatos ao vestibular de determinada universidade federal, com as notas assumem, nesse caso, uma infinidade de valores, é conveniente agrupá-las em classes.
Quantas classes tem que ter uma tabela? 5 para não ficar poluído o visual. Sendo o numero máximo de classes 20.
Outras grandezas:
Salários, pesos e alturas.
Limites de um intervalo ou classe:
São os números extremos de cada intervalo ou classe. Ex. 20....25 da tabela 7, o limite a esquerda (20) é o limite inferior-(Li) e o limite à direita (25) o limite superior (Ls).
Obs. O 20 pertence ao intervalo, ou a classe, e o valor 25 não pertence. Um determinado valor só pode pertencer a um único intervalo ou classe. No caso, o 25 pertence ao intervalo que vai de 25 a 30.
Amplitude do intervalo u classe A:
É obtida subtraindo-se o limite superior do limite inferior de qualquer classe as série (A=Ls-Li). Ex. A=25-20=5
Ponto médio do intervalo, ou classe (Pm) :
Para todo intervalo o resultado é um valor único e igual ao ponto médio do respectivo intervalo. Ex.: para o intervalo cujo limite inferior é 20 e cujo superior é 25, o ponto médio do intervalo é: P= 20+25/2=22,5
Frequência relativa:
É dada pela formula: fr=f/n, em que n=Σf (é o somatório de f, isto é, f1= f2+...fn).
Séries estatísticas :
É a denominação que dá para uma tabela na qual há um critério distinto que a específica e a diferencia.
Classificação:
Temporais: ou cronológicas, evolutivas ou históricas.
Geográficas ou de localização, territorial ou espacial.
Especificas,  categóricas ou de qualidade
Conjugadas ou mistas
De distribuição de frequências.
As séries estatísticas diferenciam-se de acordo com a variação de um dos seguintes elementos: tempo (época, local (fator geográfico) e fato (fenômeno).
Representação gráfica:
É um complemento da apresentação dos dados em forma de tabelas, uma ez que permite uma rápida visualização do fato estudado.
Gráficos de colunas:
É utilizado para as séries temporais, geográficas e específicas.
*primeiro: traça os eixos ortogonais (sistema de eixos cartesianos):
a.eixo horizontal (eixo x): eixo das abscissas e a sua escala cresce da esquerda p/a direita, a partir da origem (interseção dos eixos horizintal e vertical).
b.eixo vertical (eixo y); chama-se eixo das ordenadas e a sua escala cresce de baixo para cima, a partir da origem.
Variáveis  qualitativas:
Podem ser classificadas em dois diferentes grupos: nominais e ordinais.
Variável qualitativa nominal: permite apenas a classificação dos dados, como é o caso da variável sexo e do ramo de atividade de uma empresa, entre outras.
Variável qualitativa ordinal: permite que se estabeleça uma ordem nos seus resutados como, por exemplo, o grau de instrução ou o status (classe) social de um grupo de pessoas.
Variáveis quantitativas: discretas e contínuas
Variável quant. Discreta:
Permite relacionar todos os possíveis valores que ela pode assumir. Apresenta lacunas entre os valores que pode tomar para si, tais como números de peças defeituosas produzidas por determinada máquina ou o numero de filhos dos empregados de determinada empresa.
Variável quant. Continua:
Pode assumir infinitos valores dentro de um intervalo de números reais de tal forma que não podemos previamente relacionar todos os possíveis resultados a encontrar na pesquisa.
Atribuir valores numéricos a uma determinada variável qualitativa e tratá-la como se fosse quantitativa: quando isso acontece, deve-se atribuir somente 2 possíveis valores.
Obs.: as variáveis quantitativas são medições e contagens. E as variáveis qualitativas descrevem  pertinência ao grupo.
Contínuas: com poucos valores repetidos
Discretas: com muito valores  repetidos.
Determinar o numero de classes ou intervalos:
Recomenda-se que o numero mínimo de intervalos seja igual a 5 e  número máximo igual a 20, o que facilita a construção da tabela e do respectivo gráfico, com um numero de precisão e de informação.
Media aritmética simples:
 É a soma dos resultados obtidos dividida pela quantidade de resultados.
Média aritmética ponderada:
Quando os dados numa distribuição de frequências, usamos  a média aritmética dos vaores x,x2,x3...xn, ponderamos pelas respectivas frequências absolutas f1,f2,f3,..,fn, ou seja, cada grandeza  envolvida no calcumo da média tem diferente importância ou aconteceu um numero diferente importância ou aconteceu  um numero diferente de vezes durante a coleta dos dados.
Mediana:
É o valor que ocupa a posição central desses dados, desde que sejam colocados em ordem crescente ou decrescente,  ou seja, em um rol.
Moda:
É o valor dos resultados de uma pesquisa que acontece com a maior frequência e a representaremos por Mo.
Valor modal :
É o elemento da série que apresenta a maior frequência e que portanto, é o valor que está na moda.
Método para determinar a moda:
É considerar como moda o ponto médio da classe que contem a moda, também dnominada de classe modal (moda bruta). Pode ser determinada também, pelas formulas ou gráficos, tais como: método de Czuber-emanuel Czuber
Medidas de dispersão (ou de afastamento) São medidas estatísticas utilizadas para verificar o quanto os valores encontrados em uma pesquisa estão dispersos ou afastados em relação á média ou em relação à mediana. Servem para verificar as medidas de tendência central resumem as informações fornecidas pelos dados obtidos em uma pesquisa.
Amplitude total (ou intervalo total):
É a diferença entre o maior e o menor valor de uma série de dados. Apresenta algumas restrições quanto ao seu uso, porque é muito instável.
Amplitude semi-interquartílica (ou desvio quartil):
É usada para verificar a dispersão em relação à mediana.
Quartis: permitem dividir a distribuição em quatro partes iguais.
Decis: dividem a distribuição em dez partes iguais
Percentis: em cem partes iguais
Desvio médio DM:
Quando se deseja analisar a dispersão (ou afastamento) dos valores de uma série em relação a media, é conveniente analisar essa dispersão de cada um dos valores, sem exceção. Logo, conclui-se que o desvio médio é a media aritmética dos desvios dos valores em relação a media, considerados em valor absoluto.
Variância (s2):
É a média aritmética dos quadrados dos desvios.
Desvio padrão S:
O calculo da variância é um passo intermediário para o cálculo.
O desvio padrão é a medida de dispersão mais utilizada na pratica, considerando, tal qual o desvio medo, os desvios em relação à media.
Cálculo do S: extrair a raiz quadrada da variância para compensar o fato de termos elevado ao quadrado os desvios em relação a media.
Curva de gauss ou curva em forma de sino:
Medidas de assimetria ou medidas de enviesamento :
Indicam o grau de deformação de uma curva de frequências.
Média: corresponde ao centro de gravidade dos dados
Variância e o desvio padrão: medem a variabilidade
Distribuição de frequências ideal:
É aquela em que a curva resultante é rigorosamente simétrica, o que dificilmente acontece na pratica. Nesse caso a media, mediana e moda seriam iguais.
Q1 e q3 ficariam equidistantes da mediana.
Deformidade à direita:  a curva é  assimétrica positiva
Deformidade à esquerda: a curva é negativa
Segundo coeficiente de assimetria de Pearson p.96
As =zero: a distribuição de frequências é simétrica
As é positivo: a distribuição é assimétrica positiva ou à direita.
As é negativo: a distribuição é assimétrica negativa ou à esquerda.
Medidas de curtose :
É o grau de achatamento ou de afilamento de uma distribuição de frequências, ou seja, do histograma correspondente. A curtose indica o quanto uma distribuição de frequências é a mais afilada do que uma curva padrão, chamada de curva normal.
Interpretar o resultado obtido pela utilização da fórmula de Pearson:
Quando k=0,263, o achatamento da curva é igual ao da curva normal (distribuição mesocúrtica).
Quando k>0,263, estamos longe de uma curva mais achatada (distribuição platicúrtica).
K<0,263, estamos diante de uma curva mais alongada (leptocúrtica).
Probabilidade:
É o estudo dos fenômenos aleatórios.
Diferenças entre a probabilidade e a estatística:
Na probabilidade sabe como um processo ou experimento funciona e o que se deseja predizer quais serão os resultados de tal processo.
Já na estatística, não se sabe como um processo funciona, mas, podem-se observar os resultados e utilizar as informações sobre os mesmos para conhecer a natureza do processo ou do aprendizado.
Logo: a estatística baseia-se em experimentos enquanto o cálculo de probabilidades baseia-se em postulados lógicos. O cálculo das probabilidades e a estatística estão relacionados por intermédio da chamada Lei dos Grandes Números.
Elemento aleatório:
É aquele que poderá ser repetido sob as mesmas condições indefinidamente.
Espaço amostral:
S é definido como sendo um conjunto de todos os possíveis resultados de um experimento E.
Evento:
Evento é qualquer conjunto de resultados de um experimento. Sendo o evento um subconjunto de S, indicaremos eventos por letras maiúsculas A,B, C, etc..
Evento simples:
É formado por um único elemento do espaço amostral.
Evento composto :
Possui mais de um elemento. {2,4,6}
Evento certo e evento impossível
É quando notamos que S (espaço amostral) e  (conjunto vazio) também são eventos respectivamente.
Probabilidade matemática :
É  a relação entre o numero de casos favoráveis e o numero de casos possíveis, desde que haja rigorosa equipossibilidade entre todos os casos.
Lei dos grandes números :
Em uma serie de observações de um conjunto natural, realizadas todas em circunstâncias idênticas, um atributo X, ocorre com frequência relativa, cujo valor é uma aproximação da probabilidade, aproximação essa tanto maior quanto maior for o numero de observações.
Dado honesto:
Significa um dado que não é viciado.  É um dado que em qualquer resultado tem a mesma probabilidade de ocorrer, para qualquer face.
Esperança matemática:
São os valores que em estatística denominamos de médias.
Espaços amostrais finitos ou equiprováveis :
Quando associamos a cada ponto amostral a mesma probabilidade de ocorrência.
Acontecimentos mutuamente exclusivos :
Quando um deles não pode ocorrer no outro. Ex. se lançarmos um dado aparecer o numero 4, então não pode ter aparecido o numero 5.
Acontecimentos composto:
Há acontecimentos independentes que podem ser simultâneos.
Ex. um baralho que queremos tirar uma carta de espadas e uma carta que seja uma figura.
Acontecimentos complexos:
Há, no entanto, acontecimentos independentes sucessivos. São os que exigem a ocorrência do primeiro fato para que possa existir a hipótese do segundo acontecimento.
Ex. em duas jogadas sucessivas de um dado, querendo conseguir apenas um determinado número.
Regra da multiplicação:
Se o primeiro de 2 experimentos admite ¨a¨ resultados possíveis e o segundo comporta ¨b¨ resultados possíveis, podendo ocorrer qualquer combinação desses resultados, então o numero total de resultados possíveis dos dois experimentos é a.b.
Distribuição de probabilidades:
É um modelo matemático para a distribuição real de frequências.
Obs.: a variável X é dita variável aleatória.
Variável aleatória:
É aquela cujos valores são determinados por processos acidentais, ao acaso, que não estão sob o controle do observador, podendo ser discreta ou de contínua.
Variável discreta:
Todos os possíveis valores da variável podem ser listados numa tabela com as probabilidades correspondentes.
Variável aleatória contínua:
Não podem  ser listados todos os possíveis valores fracionários da variável e dessa forma, as  probabilidades determinadas por uma função matemática são retratadas, por uma função densidade ou por uma curva de probabilidade. Podendo assumir qualquer valor numérico em um intervalo.
Ex. peso, altura e temperaturas.
Distribuição binominal:
É uma distribuição discerta de probabilidade, aplicável sempre que o processo de amostragem é do tipo de Bernoulli.
Processo de Bernoulli:
Em  cada tentativa existem dois resultados possíveis e mutuamente exclusivos, eles são denominados por conveniência, sucesso e insucesso (ou fracasso).
As séries de tentativas ou observações são constituídas de eventos independentes.
A probabilidade de sucesso, indicada por p, permanece constante de tentativa, ou seja, o processo é estacionário.
Parâmetros da distribuição binomial:
Distribuição de Poisson
Pode ser usada p/ determinar  a probabilidade de um numero de sucessos quando os eventos ocorrerem em um continum de tempo ou espaço. E similar ao Bernoulli, exceto que os eventos ocorrem em um continuum em vez de ocorrerem em tentativas ou observações fixadas.
Ex. a chegada de chamadas telefônicas em uma central telefônica.
Distribuição de probabilidade normal é importante n inferência estatística por 3 razões:
As medidas produzidas e diversos processos aleatórios seguem essa distribuição.
As probabilidades normais podem ser usadas frequentemente como aproximações de outras distribuições de probabilidade, tais como binominal e a Poisson.
As distribuições de estatísticas da amostra, tais como a media e a proporção, frequentemente seguem a distribuição normal independentemente da distribuição da população.
Curva de probabilidade para a vida útil do componente:
Parâmetros de destruição normal:
Obs.: toda a analise deve ser feita a partir da media, ou seja, a partir de z igual a zero.
Obs. A variável continua pode assumir qualquer valor real, inteiro ou fracionário, dentro de um intervalo definido de valores.
Grau de liberdade:
Cada uma das variáveis aleatórias normais atua como um numero que podemos escolher livremente, e como temos n desses números, é como se tivéssemos n diferentes escolhas livres.
Inferência estatística:
Para realizarmos a inferência, devemos trabalhar com conhecimentos que envolvam amostragem, estimação e intervalo de confiança.
Amostragem aleatória simples:
É a forma mais fácil de selecionar uma amostra probabilística. Todos os elementos da população tem igual probabilidade de serem selecionados.
Amostragem aleatória sistemática:
É uma variação da amostragem aleatória simples e muito utilizada em pesquisas de opinião.
Amostragem aleatória estratificada:
É uma população heterogênea, constituída por todos os funcionários de uma grande indústria.
Amostragem aleatória por conglomerados:
Quando desejamos saber como, por exemplo, a escolaridade dos moradores de um determinado bairro.
Amostragem não aleatória intencional:
A amostra é selecionada intencionalmente pelo pesquisador.
Exemplo: o pesquisador entrevista os usuários de uma biblioteca quanto ao seu preferido de leitura.
Amostragem não aleatória voluntária:
Os elementos da população se oferecem voluntariamente para fazer parte da amostra sem a interferência do pesquisador.
Amostragem não aleatória acidental:
Os elementos da população são escolhidos na medida em que aparecem, ou seja, são acidentalmente selecionados.
Estimador:
É uma grandeza baseada em observações feitas em uma amostra e que é considerada como indicador de um parâmetro populacional desconhecido.
Estimativa:
É o valor atribuído ao estimador.
Estimativa por  ponto:
É um valor obtido a partir de cálculos efetuados com os dados da amostra, que serve como uma aproximação do parâmetro estimado.
Estimativa por intervalo:
É uma faixa de valores possíveis e aceitos como verdadeiros, dentro da qual se estima que se encontre o parâmetro.
Obs. A estimativa por intervalo apresenta uma maior vantagem em relação à estimativa por ponto, pois ela nos permite diminuir a magnitude do erro que estamos cometendo. Quanto menor o comprimento do intervalo, maior a precisão dos nossos cálculos.
As estimativas por intervalo são denominadas de intervalos por confiança. Eles são baseados na distribuição amostral do estimador pontual.
Intervalo de confiança:
É um intervalo de valores obtidos a partir de observações de uma amostra e determinado de tal maneira que haja uma probabilidade de esse intervalo conter o valor desconhecido de um parâmetro que desejamos determinar. Geralmente, o calculo é feito quando existe a chance de 95% de conter um valor verdadeiro.
Nível de confiança:
É um numero que exprime o grau de confiança (ou porcentagem) associado a um intervalo de confiança.
Teste de hipótese:
É uma técnica  para inferência estatística. Ou seja, a partir de um teste realizado com os dados de uma amostra, pode-se inferir sobre a população a que essa amostra pertence. Logo, uma hipótese estatística é uma suposição quanto ao valor de um parâmetro populacional.
Obs. O teste de hipóteses é uma técnica que nos permite aceitar ou reijeitar a hipótese estatística, a partir dos dados da amostra dessa população.
Hipótese nula é a informação  (a hipótese) que será testada. É a informação a respeito do valor do parâmetro que desejamos avaliar.
Hipotese alternativa (h1) é a hipotese que afirma que a hipótese nula é falsa. É a informação a respeito do valor do paramtero que aceitaremos como verdadeiro, caso a hipótese nula seja rejeitada.
Região de aceitação e região crítica:
Formas de se realizar o teste de hipótese:
Nível de significância do teste:
É o nome dado à probabilidade de cometermos um erro do tipo 1.
Etapas de um teste de hipótese:
Enunciar a hipótese a ser testada Ho e enunciar qual a hipótese alternativa H1
A partir de H1, definir o tipo de teste que será usado para testar Ho.
Fixar o limite de erro , ou seja, fixar a probabilidade de cometer-se um erro do tipo 1.
Determinar a região de rejeição e a região de aceitação.
Com os elementos amostrais, calcular o estimador e verificar se ele se encontra ou na região de rejeição ou na região de aceitação.
Decidir, se o estimador estiver na região de aceitação, aceitar Ho, se o estimador estiver na região de rejeição, rejeitar Ho.
Análise da variância =anova (analysis of variance):
Permite comparar, simultaneamente as médias de varias amostras, desde que:
Tais amostras tenham sido extraídas de populações que tem distribuição normal.
As populações tenham o mesmo valor de variância
Tais amostras sejam aleatórias e independentes.
Obs. O método de analise da variância consiste em dividir a variância em componentes úteis.
Variância total:
É aquela que se obtém quando m amostras são reunidas de modo a constituir uma única composta da soma de todos os seus elementos.
Variância entre as amostras:
Mede a variação existente entre todas as m amostras que são reunidas.
Variância dentro das amostras:
Mmede a variância dentro das n amostras tomadas em conjunto.
Obs.: Se compraramos as médias de m amostras aleatórias de tamanho nn, os graus de liberdade do denominador e do numerador são, respectivamente m-1 e m (n-1).


Contato:
segaeducacional@hotmail.com
(98) 8166 7975 / 8742 2033