Estatística parte 1
A estatística é parte importante da vida de um analista de dados.
Com ela, podemos fazer inferências e previsões com base em evidências, testar hipóteses, medir a confiabilidade e a precisão dos resultados, e comunicar informações de forma clara e objetiva.
Vamos utilizar duas ferramentas, o R e o Excel, para ilustrar conceitos básicos de estatística.
Dada uma série de dados, como a abaixo, no R podemos obter um sumário de informações com apenas alguns comandos.
serie1 = c(87, 39, 59, 51, 77, 71, 13, 48, 65, 39, 57, 62, 25, 75, 91, 30)
summary(serie1)
sd(serie1)
O “summary(serie1)” informa, o mínimo, primeiro quartil, mediana, média, terceiro quartil e máximo, respectivamente,
O “sd(serie1)” informa o desvio padrão.
No Excel:
A mesma série de dados é dada, no range “C6:C21”
Mínimo e Máximo
São referentes aos valores mínimo e máximo da série
- Obtenha o mínimo com a função “=MÍNIMO(RANGE)”
- Obtenha o máximo com a função “=MÁXIMO(RANGE)”
Qual a diferença entre média e mediana?
Ambas são medidas de tendência central, ou seja, referentes ao meio da distribuição.
- A média é dada por “=MÉDIA(RANGE)”
- A mediana é dada por “=MED(RANGE)”
Mediana:
A mediana é o valor que divide a distribuição ao meio. Começamos ordenando a série:
Serie1 (ordenada) = 13, 25, 30, 39, 39, 48, 51, 57, 59, 62, 65, 71, 75, 77, 87, 91
Como há 16 valores, os valores do meio são 57 e 59, portanto o valor 58 divide a distribuição em duas partes de igual tamanho.
13, 25, 30, 39, 39, 48, 51, 57, 59, 62, 65, 71, 75, 77, 87, 91
Média:
A média desse conjunto é calculada somando todos os números e dividindo pelo número de elementos, ou seja:
Média = (87 + 39 + 59 + 51 + 77 + 71 + 13 + 48 + 65 + 39 + 57 + 62 + 25 + 75 + 91 + 30)/16 = 55,56
É como se fosse o centro de gravidade da distribuição.
A mediana é menos sensível a outliers. Por exemplo, se a série acima fosse a renda das pessoas, e tivesse uma amostra a mais, o Bill Gates, a média iria subir enormemente, porém a mediana seria pouco ou nada afetada.
Primeiro e Terceiro Quartis
Se a mediana dividiu a série em duas, os quartis dividem em 4 pedaços.
Podemos usar a fórmula “=QUARTIL.INC(RANGE)”.
- O primeiro quartil é maior do que 25% da série.
- O segundo quartil é maior do que 50% da série — também é chamado de mediana.
- O terceiro quartil é maior do que 75% da série.
Há também a fórmula “=QUARTIL.EXC(RANGE)”. A diferença é que o QUARTIL.INC considera o ponto de 0% e 100% inclusos na lista, ao passo que o QUARTIL.EXC não considera.
Como são muito semelhantes, ficaremos com o primeiro, para fins práticos.
Desvio padrão
É dado por “=DESVPAD.A(RANGE)”. É uma medida de dispersão, mostra o quão “concentrados” ou “espalhados” os dados estão em relação à média.
Uma distribuição com desvio padrão pequeno vai estar próxima à média. Já um desvio padrão grande, vai estar mais distribuído, como no exemplo abaixo.
Há uma diferença entre “DESVPAD.A” e “DESVPAD.P”. A primeira é quando os dados são de uma amostra da população. O segundo, quando temos a população inteira do estudo.
No caso de uma variável aleatória normal, o intervalo entre (média — 1 desvio) e (média + 1 desvio) compreende 68% dos casos.
Uma boa recomendação é o livro a seguir, que explica conceitos de forma clara, sem fórmula alguma.
Originally published at http://ferramentasexcelvba.wordpress.com on November 19, 2023.