Estatística parte 1

Arnaldo Gunzi
4 min readNov 19, 2023

--

A estatística é parte importante da vida de um analista de dados.

Com ela, podemos fazer inferências e previsões com base em evidências, testar hipóteses, medir a confiabilidade e a precisão dos resultados, e comunicar informações de forma clara e objetiva.

Vamos utilizar duas ferramentas, o R e o Excel, para ilustrar conceitos básicos de estatística.

Dada uma série de dados, como a abaixo, no R podemos obter um sumário de informações com apenas alguns comandos.

serie1 = c(87, 39, 59, 51, 77, 71, 13, 48, 65, 39, 57, 62, 25, 75, 91, 30)

summary(serie1)

sd(serie1)

O “summary(serie1)” informa, o mínimo, primeiro quartil, mediana, média, terceiro quartil e máximo, respectivamente,

O “sd(serie1)” informa o desvio padrão.

No Excel:

A mesma série de dados é dada, no range “C6:C21”

Mínimo e Máximo

São referentes aos valores mínimo e máximo da série

- Obtenha o mínimo com a função “=MÍNIMO(RANGE)”

- Obtenha o máximo com a função “=MÁXIMO(RANGE)”

Qual a diferença entre média e mediana?

Ambas são medidas de tendência central, ou seja, referentes ao meio da distribuição.

- A média é dada por “=MÉDIA(RANGE)”

- A mediana é dada por “=MED(RANGE)”

Mediana:

A mediana é o valor que divide a distribuição ao meio. Começamos ordenando a série:

Serie1 (ordenada) = 13, 25, 30, 39, 39, 48, 51, 57, 59, 62, 65, 71, 75, 77, 87, 91

Como há 16 valores, os valores do meio são 57 e 59, portanto o valor 58 divide a distribuição em duas partes de igual tamanho.

13, 25, 30, 39, 39, 48, 51, 57, 59, 62, 65, 71, 75, 77, 87, 91

Média:

A média desse conjunto é calculada somando todos os números e dividindo pelo número de elementos, ou seja:

Média = (87 + 39 + 59 + 51 + 77 + 71 + 13 + 48 + 65 + 39 + 57 + 62 + 25 + 75 + 91 + 30)/16 = 55,56

É como se fosse o centro de gravidade da distribuição.

A mediana é menos sensível a outliers. Por exemplo, se a série acima fosse a renda das pessoas, e tivesse uma amostra a mais, o Bill Gates, a média iria subir enormemente, porém a mediana seria pouco ou nada afetada.

Primeiro e Terceiro Quartis

Se a mediana dividiu a série em duas, os quartis dividem em 4 pedaços.

Podemos usar a fórmula “=QUARTIL.INC(RANGE)”.

- O primeiro quartil é maior do que 25% da série.

- O segundo quartil é maior do que 50% da série — também é chamado de mediana.

- O terceiro quartil é maior do que 75% da série.

Há também a fórmula “=QUARTIL.EXC(RANGE)”. A diferença é que o QUARTIL.INC considera o ponto de 0% e 100% inclusos na lista, ao passo que o QUARTIL.EXC não considera.

Como são muito semelhantes, ficaremos com o primeiro, para fins práticos.

Desvio padrão

É dado por “=DESVPAD.A(RANGE)”. É uma medida de dispersão, mostra o quão “concentrados” ou “espalhados” os dados estão em relação à média.

Uma distribuição com desvio padrão pequeno vai estar próxima à média. Já um desvio padrão grande, vai estar mais distribuído, como no exemplo abaixo.

Há uma diferença entre “DESVPAD.A” e “DESVPAD.P”. A primeira é quando os dados são de uma amostra da população. O segundo, quando temos a população inteira do estudo.

No caso de uma variável aleatória normal, o intervalo entre (média — 1 desvio) e (média + 1 desvio) compreende 68% dos casos.

Uma boa recomendação é o livro a seguir, que explica conceitos de forma clara, sem fórmula alguma.

Originally published at http://ferramentasexcelvba.wordpress.com on November 19, 2023.

--

--

Arnaldo Gunzi
Arnaldo Gunzi

Written by Arnaldo Gunzi

Project Manager - Advanced Analytics, AI and Quantum Computing. Sensei of Analytics.

No responses yet