Boxplot
O Boxplot é uma forma gráfica de representar a mediana e os quartis de um conjunto de dados, sendo muito interessante para verificar se existem dados discrepantes, verificar a tendência dos dados à normalidade e simetria, além de comparar diferentes conjuntos dados.
Ele é composto pela mediana (geralmente através de um único ponto no centro ou uma linha), um retângulo (caixa) que representa a distância interquartílica, e linhas de intervalo entre \(Q_{1}-1,5DI\) e \(Q_{3}+1,5DI\). Este intervalo compreende uma região que abrange 99,3% dos dados de uma distribuição Normal.
Diversos autores atribuem a pontos que estão fora do intervalo \(Q_{1}-1,5DI\) e \(Q_{3} + 1,5DI\), como sendo considerados outliers. Entretanto, a presença destes dados pode ser um indicativo de que o conjunto de dados não segue uma distribuição Normal, que a distribuição não é centrada na média ou ainda que o tamanho amostral é pequeno.
Para desenhar um boxplot utilizando o matplotlib basta passar uma sequência (list
, tuple
, etc) para o plt.boxplot()
.
Por exemplo, para o conjunto de dados referente a altura de crianças com 11 anos:
plt.figure(figsize=(8,6))
plt.boxplot(altura_11_anos)
plt.show()
Figura 1 - Gráfico de boxplot para a altura das crianças de 11 anos.
Também é possível desenhar em um mesmo gráfico um série de boxplots de vários vários conjuntos de dados. Para isto, basta passar uma sequência de sequências (uma list
contendo lists
internas por exemplo). Para desenhar o boxplot comparando os dados da altura de crianças com 11 e 12 anos, basta os dois conjuntos dentro de uma list
:
plt.figure(figsize=(8,6))
plt.boxplot([altura_11_anos, altura_12_anos])
plt.show()
Figura 2 - Gráfico de boxplot para a altura das crianças de 11 e 12 anos.
Você encontra mais informações na documentação.