Estatística:
É a parte da matemática em
que se investigam os processos de
obtenção, organização e análise de dados
sobre uma população ou sobre uma coleção de seres quaisquer, e os
métodos de tirar conclusões e fazer predições
com base nesses dados.
Objetivos:
encontrar leis de comportamento para toda a população, ou universo, não se
preocupa com cada elemento em particular.
Métodos
estatísticos:
São métodos para tratamento
de dados numéricos e referem-se a dados
coletados, cujo destino é permitir que os estatísticos chegue a conclusões
sobre o que está estudando (pessoas ou coisas).
População:
É o conjunto de elementos
que desejamos observar para determinados dados.
Fenômeno
coletivo:
É aquele que se refere a um
grande numero de elementos, sejam pessoas ou coisas, aos quais denominamos de
população ou universo.
Amostra:
É o subconjunto de elementos
retirados da população que estamos observando para obtermos determinados dados.
Estatística
descritiva ou dedutiva:
Tem por objeto descrever e
analisar determinada população, sem com isso, pretender tirar conclusões de
caráter mais genérico. É a parte da estatística referente à coleta e a
tabulação dos dados.
É, pois, um número que
sozinho, descreve uma característica de um conjunto de dados, ou seja, é um
número resumo que possibilita reduzir os dados a proporções mais facilmente
interpretáveis.
Estatística
indutiva ou inferência estatística:
É a parte da estatística
que, baseando-se em resultados obtidos da analise de uma amostra da população,
procura inferir, induzir ou estimar as leis de comportamento da população da
qual a amostra foi retirada. Refere-se a um processo de generalização a partir
de resultados particulares, é, portanto, a aparte da estatística concernentes sobre as fontes
de dados.
Logo, significa: admitirmos
que os resultados obtidos na analise dos dados de uma amostra são válidos para
toda população da qual aquela amostra foi retirada. Consiste na obtenção e
generalização das conclusões.
Fases
do método (estatística descritiva):
Definição do problema,
delimitação do problema, planejamento para obtenção dos dados, coleta dos
dados, apuração dos dados, apresentação dos dados, analise dos dados e
interpretação dos dados.
Dados
brutos:
São a relação dos resultados
obtidos em uma pesquisa e que foram transcritos aleatoriamente, ou seja, fora
de qualquer ordem. São os dados originais, coletados em uma pesquisa, e que ainda não se encontram prontos para
analise por não estarem numericamente organizados.
Rol:
É a relação dos resultados
obtidos em uma pesquisa e que foram colocados em ordem numérica, crescente ou
descrente.
Ex.
3-4-4-4-4-5-5-5-6-6—7-7-7-7-7- etc..
Frequência (f):
É o numero de vezes que um
mesmo resultado acontece durante uma pesquisa.
Ex. 3-1 /4-4/ 5-3 etc...
Frequência
absoluta acumulada ou frequência acumulada (fa):
É o somatório das
frequências dos valores inferiores ou iguais ao valor dado.
Tabelas:
A estrutura de uma tabela é
constituída de 3 partes: cabeçalho, corpo e rodapé.
Cabeçalho:
é a parte da tabela que contém o suficiente
para esclarecer o leitor quanto ao que
ela sintetiza. Ex.: notas da turma A em estatística 1. Bimestre /2006.
Corpo
da tabela:
É constituído por linhas e
colunas, nas quais são distribuídos os dados apurados na pesquisa.
Rodapé:
É o espaço no qual são
colocadas as informações que permitem esclarecer a interpretação da tabela.Ex.:
no rodapé colocamos a legenda e a fonte dos dados.
Maior
interesse do pesquisador:
É conhecer o comportamento
dessa variável, analisando a ocorrência de suas possíveis realizações.
Distribuição
de frequências:
É a apresentação dos
resultados de uma pesquisa por meio de uma tabela que mostra a frequência (o
número de vezes) de ocorrência de cada resultado.
Classes
ou intervalos:
É quando um número de
resultados obtidos em uma pesquisa é demasiadamente grande, é comum agruparmos
esses resultados em faixas de valores.
Ex. se
um pesquisador deseja saber a idade das pessoas pesquisadas, ele as distribui
em faixas etárias.
Obs.:
se distribuirmos os valores individuais em intervalos ou classes estamos
conscientes de que algum erro pode estar sendo inserido.
Limites
inferiores (li)
Valores da esquerda de cada
faixa etária.
Limites
superiores (ls): são os valores da direita das classes ou
intervalos.
Símbolo
p.
30;
Representa que a classe ou
intervalo é fechado à esquerda, ou seja, o valor escrito à esquerda (limite
inferior) pertence ao intervalo e como a classe ou intervalo é aberto à
direita, o valor escrito à direita (limite superior) não pertence ao mesmo.
Amplitude
do intervalo:
Se subtrairmos o limite
inferior do limite superior de determinada classe ou intervalo.
Distribuição
dos dados em classes ou intervalos:
É comum utilizarmos quando
tem-se uma população grande para representar. Ex.: uma tabela com os resultados
dos 50.000candidatos ao vestibular de determinada universidade federal, com as
notas assumem, nesse caso, uma infinidade de valores, é conveniente agrupá-las
em classes.
Quantas
classes tem que ter uma tabela? 5 para não ficar poluído o
visual. Sendo o numero máximo de classes 20.
Outras
grandezas:
Salários, pesos e alturas.
Limites
de um intervalo ou classe:
São os números extremos de
cada intervalo ou classe. Ex. 20....25 da tabela 7, o limite a esquerda (20) é
o limite inferior-(Li) e o limite à direita (25) o limite superior (Ls).
Obs. O
20 pertence ao intervalo, ou a classe, e o valor 25 não pertence. Um
determinado valor só pode pertencer a um único intervalo ou classe. No caso, o
25 pertence ao intervalo que vai de 25 a 30.
Amplitude
do intervalo u classe A:
É obtida subtraindo-se o
limite superior do limite inferior de qualquer classe as série (A=Ls-Li). Ex.
A=25-20=5
Ponto
médio do intervalo, ou classe (Pm) :
Para todo intervalo o
resultado é um valor único e igual ao ponto médio do respectivo intervalo. Ex.:
para o intervalo cujo limite inferior é 20 e cujo superior é 25, o ponto médio
do intervalo é: P= 20+25/2=22,5
Frequência
relativa:
É dada pela formula: fr=f/n,
em que n=Σf (é o somatório de f, isto é, f1= f2+...fn).
Séries estatísticas :
É a denominação que dá para
uma tabela na qual há um critério distinto que a específica e a diferencia.
Classificação:
Temporais: ou cronológicas,
evolutivas ou históricas.
Geográficas ou de
localização, territorial ou espacial.
Especificas, categóricas ou de qualidade
Conjugadas ou mistas
De distribuição de
frequências.
As
séries estatísticas diferenciam-se de acordo com a variação de um dos seguintes
elementos: tempo (época, local (fator geográfico) e fato
(fenômeno).
Representação
gráfica:
É um complemento da
apresentação dos dados em forma de tabelas, uma ez que permite uma rápida
visualização do fato estudado.
Gráficos
de colunas:
É utilizado para as séries
temporais, geográficas e específicas.
*primeiro:
traça os eixos ortogonais (sistema de eixos cartesianos):
a.eixo
horizontal (eixo x): eixo das abscissas e a sua escala cresce da esquerda p/a
direita, a partir da origem (interseção dos eixos horizintal e vertical).
b.eixo
vertical (eixo y); chama-se eixo das ordenadas e a sua escala cresce de baixo
para cima, a partir da origem.
Variáveis qualitativas:
Podem ser classificadas em
dois diferentes grupos: nominais e ordinais.
Variável
qualitativa nominal: permite apenas a classificação dos dados,
como é o caso da variável sexo e do ramo de atividade de uma empresa, entre
outras.
Variável
qualitativa ordinal: permite que se estabeleça uma ordem nos seus
resutados como, por exemplo, o grau de instrução ou o status (classe) social de
um grupo de pessoas.
Variáveis
quantitativas: discretas e contínuas
Variável
quant. Discreta:
Permite relacionar todos os
possíveis valores que ela pode assumir. Apresenta lacunas entre os valores que
pode tomar para si, tais como números de peças defeituosas produzidas por
determinada máquina ou o numero de filhos dos empregados de determinada
empresa.
Variável
quant. Continua:
Pode assumir infinitos
valores dentro de um intervalo de números reais de tal forma que não podemos
previamente relacionar todos os possíveis resultados a encontrar na pesquisa.
Atribuir valores numéricos a
uma determinada variável qualitativa e tratá-la como se fosse quantitativa:
quando isso acontece, deve-se atribuir somente 2 possíveis valores.
Obs.: as
variáveis quantitativas são medições e contagens. E as variáveis qualitativas
descrevem pertinência ao grupo.
Contínuas: com
poucos valores repetidos
Discretas: com
muito valores repetidos.
Determinar
o numero de classes ou intervalos:
Recomenda-se que o numero
mínimo de intervalos seja igual a 5 e
número máximo igual a 20, o que facilita a construção da tabela e do
respectivo gráfico, com um numero de precisão e de informação.
Media
aritmética simples:
É a soma dos resultados obtidos dividida pela
quantidade de resultados.
Média
aritmética ponderada:
Quando os dados numa
distribuição de frequências, usamos a
média aritmética dos vaores x,x2,x3...xn, ponderamos pelas respectivas frequências
absolutas f1,f2,f3,..,fn, ou seja, cada grandeza envolvida no calcumo da média tem diferente
importância ou aconteceu um numero diferente importância ou aconteceu um numero diferente de vezes durante a coleta
dos dados.
Mediana:
É o valor que ocupa a
posição central desses dados, desde que sejam colocados em ordem crescente ou
decrescente, ou seja, em um rol.
Moda:
É o valor dos resultados de
uma pesquisa que acontece com a maior frequência e a representaremos por Mo.
Valor
modal :
É o elemento da série que
apresenta a maior frequência e que portanto, é o valor que está na moda.
Método
para determinar a moda:
É considerar como moda o
ponto médio da classe que contem a moda, também dnominada de classe modal (moda
bruta). Pode ser determinada também, pelas formulas ou gráficos, tais como: método
de Czuber-emanuel Czuber
Medidas
de dispersão (ou de afastamento) São medidas estatísticas
utilizadas para verificar o quanto os valores encontrados em uma pesquisa estão
dispersos ou afastados em relação á média ou em relação à mediana. Servem para
verificar as medidas de tendência central resumem as informações fornecidas
pelos dados obtidos em uma pesquisa.
Amplitude
total (ou intervalo total):
É a diferença entre o maior
e o menor valor de uma série de dados. Apresenta algumas restrições quanto ao
seu uso, porque é muito instável.
Amplitude
semi-interquartílica (ou desvio quartil):
É usada para verificar a
dispersão em relação à mediana.
Quartis:
permitem dividir a distribuição em quatro partes iguais.
Decis:
dividem a distribuição em dez partes iguais
Percentis: em
cem partes iguais
Desvio
médio DM:
Quando se deseja analisar a
dispersão (ou afastamento) dos valores de uma série em relação a media, é
conveniente analisar essa dispersão de cada um dos valores, sem exceção. Logo,
conclui-se que o desvio médio é a media aritmética dos desvios dos valores em
relação a media, considerados em valor absoluto.
Variância
(s2):
É a média aritmética dos
quadrados dos desvios.
Desvio
padrão S:
O calculo da variância é um
passo intermediário para o cálculo.
O desvio padrão é a medida
de dispersão mais utilizada na pratica, considerando, tal qual o desvio medo,
os desvios em relação à media.
Cálculo
do S: extrair a raiz quadrada da variância para compensar o
fato de termos elevado ao quadrado os desvios em relação a media.
Curva
de gauss ou curva em forma de sino:
Medidas
de assimetria ou medidas de enviesamento :
Indicam o grau de deformação
de uma curva de frequências.
Média:
corresponde ao centro de gravidade dos dados
Variância
e o desvio padrão: medem a variabilidade
Distribuição
de frequências ideal:
É aquela em que a curva
resultante é rigorosamente simétrica, o que dificilmente acontece na pratica.
Nesse caso a media, mediana e moda seriam iguais.
Q1 e q3 ficariam
equidistantes da mediana.
Deformidade
à direita: a curva é assimétrica positiva
Deformidade
à esquerda: a curva é negativa
Segundo
coeficiente de assimetria de Pearson p.96
As
=zero: a distribuição de frequências é simétrica
As
é positivo: a distribuição é assimétrica positiva ou à
direita.
As
é negativo: a distribuição é assimétrica negativa ou à
esquerda.
Medidas
de curtose :
É o grau de achatamento ou
de afilamento de uma distribuição de frequências, ou seja, do histograma
correspondente. A curtose indica o quanto uma distribuição de frequências é a
mais afilada do que uma curva padrão, chamada de curva normal.
Interpretar
o resultado obtido pela utilização da fórmula de Pearson:
Quando
k=0,263, o achatamento da curva é igual ao da curva normal
(distribuição mesocúrtica).
Quando
k>0,263, estamos longe de uma curva mais achatada
(distribuição platicúrtica).
K<0,263,
estamos diante de uma curva mais alongada (leptocúrtica).
Probabilidade:
É o estudo dos fenômenos
aleatórios.
Diferenças
entre a probabilidade e a estatística:
Na probabilidade sabe como
um processo ou experimento funciona e o que se deseja predizer quais serão os
resultados de tal processo.
Já na estatística, não se
sabe como um processo funciona, mas, podem-se observar os resultados e utilizar
as informações sobre os mesmos para conhecer a natureza do processo ou do
aprendizado.
Logo: a
estatística baseia-se em experimentos enquanto o cálculo de probabilidades
baseia-se em postulados lógicos. O cálculo das probabilidades e a estatística
estão relacionados por intermédio da chamada Lei dos Grandes Números.
Elemento
aleatório:
É aquele que poderá ser
repetido sob as mesmas condições indefinidamente.
Espaço
amostral:
S é definido como sendo um
conjunto de todos os possíveis resultados de um experimento E.
Evento:
Evento é
qualquer conjunto de resultados de um experimento. Sendo o evento um
subconjunto de S, indicaremos eventos por letras maiúsculas A,B, C, etc..
Evento
simples:
É formado por um único
elemento do espaço amostral.
Evento
composto :
Possui mais de um elemento.
{2,4,6}
Evento certo e evento
impossível
É quando notamos que S
(espaço amostral) e (conjunto vazio) também são eventos
respectivamente.
Probabilidade
matemática :
É
a relação entre o numero de casos favoráveis e o numero de casos
possíveis, desde que haja rigorosa equipossibilidade entre todos os casos.
Lei
dos grandes números :
Em uma serie de observações de um
conjunto natural, realizadas todas em circunstâncias idênticas, um atributo X,
ocorre com frequência relativa, cujo valor é uma aproximação da probabilidade,
aproximação essa tanto maior quanto maior for o numero de observações.
Dado
honesto:
Significa um dado que não é viciado. É um dado que em qualquer resultado tem a
mesma probabilidade de ocorrer, para qualquer face.
Esperança
matemática:
São os valores que em estatística
denominamos de médias.
Espaços
amostrais finitos ou equiprováveis :
Quando associamos a cada ponto amostral a
mesma probabilidade de ocorrência.
Acontecimentos
mutuamente exclusivos :
Quando um deles não pode ocorrer no
outro. Ex. se lançarmos um dado aparecer o numero 4, então não pode ter
aparecido o numero 5.
Acontecimentos
composto:
Há acontecimentos independentes que podem
ser simultâneos.
Ex. um baralho que queremos tirar uma
carta de espadas e uma carta que seja uma figura.
Acontecimentos
complexos:
Há, no entanto, acontecimentos
independentes sucessivos. São os que exigem a ocorrência do primeiro fato para
que possa existir a hipótese do segundo acontecimento.
Ex. em duas jogadas sucessivas de um
dado, querendo conseguir apenas um determinado número.
Regra
da multiplicação:
Se o primeiro de 2 experimentos admite
¨a¨ resultados possíveis e o segundo comporta ¨b¨ resultados possíveis, podendo
ocorrer qualquer combinação desses resultados, então o numero total de
resultados possíveis dos dois experimentos é a.b.
Distribuição
de probabilidades:
É um modelo matemático para a
distribuição real de frequências.
Obs.: a variável X é dita variável
aleatória.
Variável
aleatória:
É aquela cujos valores são determinados
por processos acidentais, ao acaso, que não estão sob o controle do observador,
podendo ser discreta ou de contínua.
Variável
discreta:
Todos os possíveis valores da variável
podem ser listados numa tabela com as probabilidades correspondentes.
Variável
aleatória contínua:
Não podem
ser listados todos os possíveis valores fracionários da variável e dessa
forma, as probabilidades determinadas
por uma função matemática são retratadas, por uma função densidade ou por uma
curva de probabilidade. Podendo assumir qualquer valor numérico em um
intervalo.
Ex. peso, altura e temperaturas.
Distribuição
binominal:
É uma distribuição discerta de
probabilidade, aplicável sempre que o processo de amostragem é do tipo de
Bernoulli.
Processo
de Bernoulli:
Em
cada tentativa existem dois resultados possíveis e mutuamente
exclusivos, eles são denominados por conveniência, sucesso e insucesso (ou
fracasso).
As séries de tentativas ou observações
são constituídas de eventos independentes.
A probabilidade de sucesso, indicada por
p, permanece constante de tentativa, ou seja, o processo é estacionário.
Parâmetros
da distribuição binomial:
Distribuição
de Poisson
Pode ser usada p/ determinar a probabilidade de um numero de sucessos
quando os eventos ocorrerem em um continum de tempo ou espaço. E similar ao
Bernoulli, exceto que os eventos ocorrem em um continuum em vez de ocorrerem em
tentativas ou observações fixadas.
Ex. a chegada de chamadas telefônicas em
uma central telefônica.
Distribuição
de probabilidade normal é importante n inferência estatística por 3 razões:
As medidas produzidas e diversos
processos aleatórios seguem essa distribuição.
As probabilidades normais podem ser
usadas frequentemente como aproximações de outras distribuições de
probabilidade, tais como binominal e a Poisson.
As distribuições de estatísticas da
amostra, tais como a media e a proporção, frequentemente seguem a distribuição
normal independentemente da distribuição da população.
Curva
de probabilidade para a vida útil do componente:
Parâmetros
de destruição normal:
Obs.: toda a analise deve ser feita a
partir da media, ou seja, a partir de z igual a zero.
Obs. A variável continua pode assumir
qualquer valor real, inteiro ou fracionário, dentro de um intervalo definido de
valores.
Grau
de liberdade:
Cada uma das variáveis aleatórias normais
atua como um numero que podemos escolher livremente, e como temos n desses
números, é como se tivéssemos n diferentes escolhas livres.
Inferência
estatística:
Para realizarmos a inferência, devemos
trabalhar com conhecimentos que envolvam amostragem, estimação e intervalo de
confiança.
Amostragem
aleatória simples:
É a forma mais fácil de selecionar uma
amostra probabilística. Todos os elementos da população tem igual probabilidade
de serem selecionados.
Amostragem
aleatória sistemática:
É uma variação da amostragem aleatória
simples e muito utilizada em pesquisas de opinião.
Amostragem
aleatória estratificada:
É uma população heterogênea, constituída
por todos os funcionários de uma grande indústria.
Amostragem
aleatória por conglomerados:
Quando desejamos saber como, por exemplo,
a escolaridade dos moradores de um determinado bairro.
Amostragem
não aleatória intencional:
A amostra é selecionada intencionalmente
pelo pesquisador.
Exemplo:
o pesquisador entrevista os usuários de uma biblioteca quanto ao seu preferido
de leitura.
Amostragem
não aleatória voluntária:
Os elementos da população se oferecem
voluntariamente para fazer parte da amostra sem a interferência do pesquisador.
Amostragem
não aleatória acidental:
Os elementos da população são escolhidos
na medida em que aparecem, ou seja, são acidentalmente selecionados.
Estimador:
É uma grandeza baseada em observações
feitas em uma amostra e que é considerada como indicador de um parâmetro
populacional desconhecido.
Estimativa:
É o valor atribuído ao estimador.
Estimativa
por ponto:
É um valor obtido a partir de cálculos
efetuados com os dados da amostra, que serve como uma aproximação do parâmetro
estimado.
Estimativa
por intervalo:
É uma faixa de valores possíveis e
aceitos como verdadeiros, dentro da qual se estima que se encontre o parâmetro.
Obs.
A estimativa por intervalo apresenta uma maior vantagem em relação à estimativa
por ponto, pois ela nos permite diminuir a magnitude do erro que estamos
cometendo. Quanto menor o comprimento do intervalo, maior a precisão dos nossos
cálculos.
As estimativas por intervalo são
denominadas de intervalos por confiança. Eles são baseados na distribuição
amostral do estimador pontual.
Intervalo
de confiança:
É um intervalo de valores obtidos a
partir de observações de uma amostra e determinado de tal maneira que haja uma
probabilidade de esse intervalo conter o valor desconhecido de um parâmetro que
desejamos determinar. Geralmente, o calculo é feito quando existe a chance de
95% de conter um valor verdadeiro.
Nível
de confiança:
É um numero que exprime o grau de
confiança (ou porcentagem) associado a um intervalo de confiança.
Teste
de hipótese:
É uma técnica para inferência estatística. Ou seja, a partir
de um teste realizado com os dados de uma amostra, pode-se inferir sobre a
população a que essa amostra pertence. Logo, uma hipótese estatística é uma
suposição quanto ao valor de um parâmetro populacional.
Obs.
O teste de hipóteses é uma técnica que nos permite aceitar ou reijeitar a
hipótese estatística, a partir dos dados da amostra dessa população.
Hipótese
nula
é a informação (a hipótese) que será
testada. É a informação a respeito do valor do parâmetro que desejamos avaliar.
Hipotese
alternativa (h1) é a hipotese que afirma que a
hipótese nula é falsa. É a informação a respeito do valor do paramtero que
aceitaremos como verdadeiro, caso a hipótese nula seja rejeitada.
Região
de aceitação e região crítica:
Formas
de se realizar o teste de hipótese:
Nível
de significância do teste:
É o nome dado à probabilidade de
cometermos um erro do tipo 1.
Etapas
de um teste de hipótese:
Enunciar a hipótese a ser testada Ho e
enunciar qual a hipótese alternativa H1
A partir de H1, definir o tipo de teste
que será usado para testar Ho.
Fixar o limite de erro , ou seja, fixar a probabilidade de
cometer-se um erro do tipo 1.
Determinar a região de rejeição e a
região de aceitação.
Com os elementos amostrais, calcular o
estimador e verificar se ele se encontra ou na região de rejeição ou na região
de aceitação.
Decidir, se o estimador estiver na região
de aceitação, aceitar Ho, se o estimador estiver na região de rejeição,
rejeitar Ho.
Análise
da variância =anova (analysis of variance):
Permite comparar, simultaneamente as
médias de varias amostras, desde que:
Tais amostras tenham sido extraídas de
populações que tem distribuição normal.
As populações tenham o mesmo valor de
variância
Tais amostras sejam aleatórias e independentes.
Obs.
O método de analise da variância consiste em dividir a variância em componentes
úteis.
Variância
total:
É aquela que se obtém quando m amostras
são reunidas de modo a constituir uma única composta da soma de todos os seus
elementos.
Variância
entre as amostras:
Mede a variação existente entre todas as
m amostras que são reunidas.
Variância
dentro das amostras:
Mmede a variância dentro das n amostras
tomadas em conjunto.
Obs.:
Se compraramos as médias de m amostras aleatórias de tamanho nn, os graus de
liberdade do denominador e do numerador são, respectivamente m-1 e m (n-1).
Contato:
segaeducacional@hotmail.com
(98) 8166 7975 / 8742 2033