Capítulo 9 Outliers

Os valores extremos (outliers) nos dados podem distorcer as previsões. Os outliers também podem ser chamados de valores discrepantes. Acredito que é essencial entender o impacto deles nos seus testes de hipóteses.

Cabe ao melhor julgamento do análista decidir como fazer o tratamento de outliers.

Os outliers podem influenciar drasticamente as estimativas da variância. Além disso, se você está construindo um modelo, eles podem modificar a inclinação da Reta.

9.0.0.1 Exemplo da influência do outlier

Para entender melhor as implicações dos outliers, compararei o ajuste de um modelo de regressão linear simples no conjunto de dados de carros com e sem outliers.

Para distinguir claramente o efeito, vamos introduzir manualmente os outliers no conjunto de dados. Depois disso, vamos fazer uma regressão linear nos dois bancos de dados.

Impacto do outlier

Figura 9.1: Impacto do outlier

9.0.0.2 Como encontrar os outliers?

Método básico

Outliers

Figura 9.2: Outliers

## No Studentized residuals with Bonferroni p < 0.05
## Largest |rstudent|:
##    rstudent unadjusted p-value Bonferroni p
## 29  2.62339           0.013932       0.4319

Ok. não temos outliers, mas podemos ter observações influêntes?

A distância de Cook

A distância de Cook mede a influência da observação sobre todos os valores ajustados.

Outliers

Figura 9.3: Outliers

Outliers

Figura 9.4: Outliers

##       StudRes        Hat     CookD
## 15 -1.2707146 0.15816753 0.1485416
## 16 -0.7275545 0.14606554 0.0460183
## 29  2.6233896 0.06413611 0.1960559
## 30  2.4263435 0.04704242 0.1243523

Além da abordagem básica, os pacotes do R chamados de outliers e OutlierDetection podem ajuda-lo a decidir se uma observação é um outlier ou não

## 
##  chi-squared test for outlier
## 
## data:  CARROS_OUTLIERS$Preco
## X-squared = 5.7167, p-value = 0.0168
## alternative hypothesis: highest value 590 is an outlier
## 
##  chi-squared test for outlier
## 
## data:  CARROS$Preco
## X-squared = 3.7773, p-value = 0.05195
## alternative hypothesis: highest value 472 is an outlier
##   Preco  HP
## 1   160 110
## 2   160 110
## 3   108  93
## 4   258 110
## 5   360 175
## 6   225 105
## $`Outlier Observations`
## [1] 590 500
## 
## $`Location of Outlier`
## [1] 33 34
## 
## $`Scatter plot`
Outliers

Figura 9.5: Outliers

## $`Outlier Observations`
## [1] 686 690
## 
## $`Location of Outlier`
## [1] 33 34
## 
## $`Scatter plot`
Outliers

Figura 9.6: Outliers

## $`Outlier Observations`
##   Preco  HP
## 1   319 590
## 2   590 686
## 3   500 690
## 
## $`Location of Outlier`
##  1  2  3 
## 32 33 34 
## 
## $`Scatter plot`
Outliers

Figura 9.7: Outliers

Parece que o teste detectou que as observações 32,33, e 34 são outliers.