Transformação de dados Box-Cox

Author

Nívia

Transformação de variável tipo boxcox

A transformação de variável tipo Box-Cox é uma técnica utilizada na análise estatística para melhorar a adequação dos dados a pressupostos de normalidade e homogeneidade de variância. Essa transformação é aplicada a variáveis contínuas positivas que possuem assimetria ou heterogeneidade de variância. A transformação de Box-Cox é definida pela seguinte equação: y(lambda) = (x^lambda - 1) / lambda

Nessa equação, “x” representa a variável original, “y(lambda)” representa a variável transformada para um determinado valor de lambda e “lambda” é o parâmetro de transformação que varia de -∞ a +∞. O valor de lambda determina o tipo de transformação aplicada: Se lambda = 0, a transformação de Box-Cox é equivalente ao logaritmo natural (ln). Se lambda = 1, a transformação de Box-Cox é equivalente à transformação linear (sem transformação). Se lambda < 0, é aplicada uma transformação inversa.

Preparo pré-análise Para reakizar essse tipo de transformação, usa-se o pacote MASS.

library(MASS)

Dados para exemplificação: InsectSprays, do próprio R. A função boxcox() pode ser utilizada para calcular a transformação de Box-Cox e identificar o valor de lambda ótimo para uma determinada variável. Essa função retorna uma lista de resultados, incluindo o valor de lambda ótimo e gráficos de diagnóstico.

insects <- InsectSprays

b <- boxcox(lm(insects$count+0.1 ~1))

lambda <- b$x[which.max(b$y)]
lambda
[1] 0.4242424
insects$count2 <-(insects$count ^ lambda - 1) / lambda
hist(insects$count)

hist(insects$count2)

insects$count2
 [1]  3.903635  3.024469  6.043993  4.864268  4.864268  4.407118  3.903635
 [8]  6.557185  5.484274  6.043993  4.864268  4.640760  4.161975  5.484274
[15]  6.219699  4.161975  5.285168  4.864268  5.484274  5.484274  5.863153
[22]  6.219699  3.024469  4.640760 -2.357143  0.000000  3.024469  0.805831
[29]  1.399509  0.000000  0.805831  0.000000  1.399509 -2.357143  0.000000
[36]  1.887150  1.399509  2.308577  4.407118  2.683787  1.887150  1.399509
[43]  2.308577  2.308577  2.308577  2.308577  0.805831  1.887150  1.399509
[50]  2.308577  1.399509  2.308577  1.399509  2.683787  0.000000  0.000000
[57]  1.399509  0.805831  2.683787  1.887150  4.161975  3.629951  5.078760
[64]  6.390651  5.078760  5.285168  4.640760  3.903635  7.033117  7.033117
[71]  6.719601  4.640760