A presença da autocorrelação no gráfico de controle T2 de Hotelling

Roberto Campos Leoni1,2, Antônio Fernando Branco Costa1, Marcela Aparecida Guerreiro Machado1

1 Universidade Estadual Paulista - UNESP, Escola de Engenharia, Guaratinguetá

2 Academia Militar das Agulhas Negras - AMAN


RESUMO

A presença da autocorrelação viola a hipótese de independência de dados utilizados em gráficos estatísticos de controle no ambiente fabril. Este artigo avalia graficamente, utilizando a distância de Mahalanobis, o efeito da autocorrelação em duas características de qualidade mensuráveis X e Y, cujas estruturas de correlação e autocorrelação são de um modelo VAR(1). Com a avaliação gráfica, é possível compreender que a presença da autocorrelação não pode ser negligenciada pelos usuários que utilizam como ferramenta os gráficos estatísticos de controle para monitorar processos.

Palavra-chave: Autocorrelação; Gráfico de Controle; T2 de Hotelling.


INTRODUÇÃO

Os produtos de um processo industrial possuem requisitos de qualidade que são definidos por meio de variáveis, ou seja, grandezas mensuráveis. Graças à existência de um sistema composto de inúmeras causas aleatórias, economicamente inviáveis de serem eliminadas, é necessário controlar o processo por meio de informações extraídas de amostras coletadas durante a fabricação. Julga-se, com essas informações, o estado do processo: se em controle estatístico, isto é, apenas sob influência de causas aleatórias, ou se fora de controle estatístico, isto é, sob a influência não só de causas aleatórias, mas também de causas especiais que alteram as características do produto, contudo, possíveis de serem eliminadas (Costa et al., 2005).

O monitoramento das várias características de um processo se destaca no cenário industrial, pois pode afetar a qualidade final do produto. Estes processos são denominados processos multivariados. Uma das ferramentas mais utilizadas neste tipo de monitoramento são os gráficos de controle, que são ferramentas estatísticas que sinalizam alterações no processo com base no comportamento de uma ou de várias características de qualidade de interesse. Hotelling (1947) foi um precursor ao introduzir técnicas para monitorar simultaneamente duas ou mais características de qualidade a partir de gráficos de controle.

Monitorar individualmente essas características não é eficaz quando há dependência entre elas. A utilização de gráficos de controle univariados para cada variável de um processo é uma solução possível, porém pode não ter a mesma eficiência que o uso de um gráfico de controle multivariado, técnica em que há o monitoramento e controle simultâneo de várias variáveis relacionadas (Montgomery, 2004).

Embora muito conhecidas no ambiente fabril, as condições para uso dos gráficos de controle podem ser violadas em alguns casos. Montgomery (2004) descreve que basicamente todos os processos são regidos por elementos inerciais e quando o intervalo entre a retirada das amostras apresenta intervalos pequenos em relação a essas forças, as observações apresentam correlação ao longo do tempo. De acordo com Mason et Young (2002), muitas operações industriais de fluxo contínuo apresentam autocorrelação e uma das possíveis causas é o desgaste gradual de componentes críticos do processo. Kim et al. (2010) afirmam que a hipótese de independência entre as observações de uma variável pode ser violada pelas altas taxas de produção que geram correlação e dependência entre as observações de produtos vizinhos segundo o instante de fabricação.

O monitoramento de processos multivariados cujas observações são autocorrelacionadas aparece em publicações recentes. Mastrangelo et Forrest (2002) disponibilizaram um programa para gerar dados autocorrelacionados onde é possível simular deslocamento no valor da média da variável sob monitoramento. Kalgonda et Kulkarni (2004) apresentaram o gráfico de controle de Z para monitorar observações que seguem um modelo VAR(1). A vantagem do gráfico de Z é que ele identifica a característica de qualidade que sofre alteração em seu valor médio, ou seja, o gráfico sinaliza qual das características de qualidade foi afetada por uma causa especial que tenha provocado alteração no valor médio. Pan et Jarrett (2007) e Jarrett et Pan (2007) propuseram o uso de resíduos do modelo VAR(p) para monitorar processos autocorrelacionados. A técnica requer o ajuste do modelo aos dados do processo para posterior uso dos resíduos no gráfico de Símbolo. Arkat et al. (2007) fazem uso de redes neurais artificiais para monitorar processos multivariados autocorrelacionados. Issam et Mohamad (2008) propõem o uso do método SVR (support vector regression) para monitorar mudanças no vetor de médias em processos autocorrelacionados a partir do gráfico de controle MCUSUM. Hwarng et Wang (2010) estabelece o uso de redes neurais que são capazes de identificar deslocamentos no vetor de médias de processos autocorrelacionados. Há vários outros trabalhos sobre monitoramento de processos autocorrelacionados; Apley et Tsung (2002), Jiang (2004), Vargas et al. (2009) e Chen et Nembhard (2011) são alguns deles.

Portanto, este artigo tem como objetivo avaliar graficamente o efeito da autocorrelação em duas características de qualidade mensuráveis X e Y quando existe correlação entre as observações de X e Y e há dependência no tempo entre as observações de X e também entre as observações de Y e esta estrutura de correlação e autocorrelação é de um modelo VAR(1). Considerou-se na avaliação que o deslocamento na média seja o mais importante em todo o processo e que o vetor de médias e a matriz de covariância sejam conhecidos ou estimados com precisão.

O artigo está organizado da seguinte forma: na seção 2, descreve-se o modelo que representa as características de qualidade quando há autocorrelação no processo; Na seção 3 são apresentadas algumas características do gráfico T2 de Hotelling; O efeito da autocorrelação em processos bivariados é discutido e avaliado na seção 4 e, por fim, apresenta-se uma conclusão acerca do trabalho na seção 5.

MODELO QUE DESCREVE AS CARACTERÍSTICAS DE QUALIDADE

Os procedimentos clássicos de controle em processos multivariados consideram a hipótese básica de que as observações seguem distribuição normal multivariada e sejam independentes, com vetor de médias Símbolo e matriz de variância-covariância Símbolo.

Equação

em que Símbolo representa as observações a partir de um vetor de ordem p x 1 (p é o número de variáveis); Símbolo são vetores aleatórios independentes de ordem p x 1 com distribuição normal multivariada cuja média é zero e matriz de variância-covariância Símbolo.

A hipótese de independência é violada em muitos processos de manufatura, o que torna a equação (1) inadequada para representar tais observações. Vetores autoregressivos de primeira ordem, ou VAR(1), equação (2), vêm sendo usados para modelar processos multivariados com correlação temporal entre observações de uma mesma variável e correlação entre observações de diferentes características de qualidade (Mastrangelo et Forrest, 2002; Biller et Nelson, 2003; Kalgonda et Kulkarni, 2004; Arkat et Niaki, 2007; Jarrett et Pan, 2007; Issam et Mohamad, 2008; Pfaff, 2008; Niaki et Davoodi, 2009; Hwarng et Wang, 2010; Kim et al., 2010; Kalgonda, 2012).

Em processos multivariados autocorrelacionados, o modelo VAR(1) é representado por:

Equação

em que Símbolo é o vetor de dados de ordem p x 1; Símbolo é o vetor de médias de ordem p x 1 e Símbolo é uma matriz com os parâmetros autoregressivos de ordem p x p e Símbolo são vetores aleatórios independentes de ordem p x 1 com distribuição normal multivariada cuja média é zero e matriz de variância-covariância Símbolo.

Se Símbolo é uma matriz nula, a equação (2) se reduz à equação (1), ou seja, tem-se o modelo clássico para dados independentes ao longo do tempo. Caso contrário, os dados serão dependentes ao longo do tempo e a estrutura de variação do modelo é representada pela matriz de covariância cruzada (Shumway et Stoffer, 2006). Sob a hipótese de que processo seja estacionário, e Símbolo, para todo t, a matriz de covariância cruzada será:

Equação

Ser estacionário significa que Símbolo é constante para todo Símbolo e a matriz de covariância cruzada não depende de t, depende apenas de h, que representa o intervalo ao longo do tempo entre o vetor Símbolo e Símbolo.

A matriz Símbolo é formada pelos elementos Símbolo dados por:

Equação

A matriz de covariância cruzada para h=0, Símbolo, quando Símbolo e Símbolo são conhecidos, pode ser obtida pela relação de Yule-Walker (Ltkepohl, 2005).

Equação

Supondo que Equação seja um vetor de dados com distribuição p-variada e siga o modelo descrito na equação (2), de acordo com Kalgonda et Kulkarni (2004) e Kalgonda (2012),

Equação

Se o processo está em controle estatístico, Equação segue uma distribuição normal multivariada com vetor de médias Equação e matriz de covariância cruzada Equação.

GRÁFICO DE CONTROLE T2 DE HOTELLING

Uma das soluções para monitorar processos com duas ou mais características de qualidade foi proposta por Hotelling (1947) por meio do uso da estatística Equação. O gráfico Equação de Hotelling é uma versão multivariada do gráfico de controle de Equação de Shewhart (Shewhart, 1931), tornando-se o dispositivo de controle mais utilizado no monitoramento do vetor média do processo. A estatística Equação pode ser calculada com uma única observação de cada característica de qualidade ou a partir da média das amostras de várias características de qualidade monitoradas simultaneamente. Mediante a distribuição de probabilidade de Equação, é possível estabelecer limites adequados de controle para o gráfico Equação de Hotelling (Mason et Young, 2002; Bersimis et al., 2007).

Supondo-se que sejam conhecidos o vetor de médias (Equação) e a matriz de covariâncias (Equação), o gráfico de controle Equação usa a distância estatística Equação, equação (7), que possui distribuição qui-quadrado com p graus de liberdade Equação quando o processo encontra-se em controle estatístico (Alt, 1985).

Equação

em que n é o tamanho do t-ésimo subgrupo racional e Equação é o vetor das médias amostrais das p variáveis para o t-ésimo subgrupo racional. Quando n=1, a estatística Equação se reduz a:

Equação

No gráfico de controle de Equação quando a estatística Equação é menor que o limite superior de controle (LSC), o processo mantém-se em controle estatístico, ou seja,

Equação

Quando o vetor de médias (Equação) e a matriz de covariâncias (Equação) são desconhecidos e precisam ser estimados, os limites de controle são calculados de acordo com a fase de monitoramento (Bersimis et al., 2007).

Se uma causa especial atua na média do processo, deslocando-a para um novo patamar, o vetor Equação pode ser representado por:

Equação

em que Equação indica a magnitude do deslocamento na média, logo, a estatística Equação seguirá distribuição qui-quadrado não central Equação.

Equação

Alguns trabalhos que tratam de esquemas de controle de processos multivariados utilizam o parâmetro de não centralidade Equação como medida de deslocamento no vetor de médias do processo (Alt, 1985; Aparisi, 1996; Aparisi et Haro, 2001; Mason et Young, 2002).

Equação

Esta medida possui distribuição qui-quadrado não central com p graus de liberdade e parâmetro de não centralidade Equação. O número médio de amostras até o sinal de fora de controle (NMA) dado pelo gráfico de controle de Equação é função do parâmetro de não centralidade.

Equação

Com a presença da autocorrelação no processo, o limite de controle do gráfico de Equação não mais possui distribuição qui-quadrado com p graus de liberdade Equação quando o vetor de médias e a matriz de covariâncias são conhecidos. Da mesma forma, quando ocorre desvio no vetor de médias, a estatística Equação não mais possui distribuição qui-quadrado não central !Equação.

EFEITO DA AUTOCORRELAÇÃO EM PROCESSOS BIVARIADOS

O gráfico Equação de Hotelling é um dos mais conhecidos no ambiente fabril e a aplicação dessa técnica está materializada em inúmeros artigos, como pode ser observado na base referencial multidisciplinar Web of Science que está integrada à base ISI Web of Knowledge. Ao pesquisar as palavras chave Hotelling e chart no título dos periódicos disponíveis em dezembro de 2013, a base apresenta 28 artigos que são citados 162 vezes em diversos trabalhos, evidenciando a importância dessa técnica como ferramenta no meio científico e acadêmico. A Figura 1 ilustra a distribuição dos artigos por ano.

Figura 1. Distribuição dos artigos encontrados na base ISI Web of Knowledge.

Equação

Fonte: Os próprios autores.

O gráfico Equação de Hotelling foi criado para ser usado quando a hipótese de independência entre as observações de uma ou mais características de qualidade não é violada. Desconsiderar o efeito dessa hipótese é bastante prejudicial ao desempenho adequado da ferramenta gráfico de controle e, por essa razão, tem que ser avaliada quando se deseja monitorar um processo.

Considerou-se no presente artigo a distância do vetor X ao vetor de médias Equação denominada distância estatística ou distância de Mahalanobis (Mahalanobis, 1936). Esta distância é a mesma utilizada no gráfico de controle Equação de Hotelling.

Equação

A relação entre a matriz de covariância cruzada, Equação, e os elementos das matrizes Equação e Equação é obtida utilizando a equação (5). Considerando-se a presença de autocorrelação e correlação a partir do modelo VAR(1), a distância de Mahalanobis será:

Equação

Sem perda de generalidade, considerando o caso bivariado em que Equação e Equação, quando Equação e o vetor Equação a distância Equação equivale a:

Equação

A equação (16) revela a influência de Equação na distância Equação.

Se Equação, ou seja, Equação (não há autocorrelação), a distância Equação se reduz a:

Equação

Quando não há autocorrelação, ou seja, os dados são independentes, Equação possui distribuição qui-quadrado com p graus de liberdade Equação. Para avaliar o efeito da autocorrelação, utilizou-se no presente artigo o caso bivariado e Equação, sendo, neste caso, Equação= 10,5966.

O desempenho de um gráfico de controle pode ser avaliado em função do número de amostras que o gráfico utiliza para detectar um deslocamento na característica que se deseja monitorar. Quando não há deslocamento, o processo encontra-se em controle estatístico. Espera-se, neste caso, que o sinal dado pelo gráfico seja um alarme falso. O valor Equação=10,5966 equivale a um alarme falso, em média, para cada 200 amostras avaliadas, quando é utilizado o gráfico de Equação de Hotelling (Costa et al., 2005).

Baseando-se no modelo VAR(1), o vetor de médias do processo quando em controle (Equação) pode sofrer deslocamentos da ordem de Equação para um novo patamar Equação, onde Equação é um vetor de ordem (px1) e cada elemento representa a magnitude do deslocamento no valor médio da p-ésima variável. Para uma ideia do que ocorre na média do processo após um deslocamento, o modelo VAR(1) é aqui representado em função do vetor de erros (Equação) e do vetor de médias (Equação).

Equação

Se o deslocamento ocorrer no vetor de médias do processo em controle, em algum instante de tempo t = T, então a média de Equação mudará de Equação para:

Equação

Sem perda de generalidade, considerando-se Equação, a mudança no vetor de médias pode ser representada em três estágios:

Equação

O gráfico de melhor desempenho será o que detectar com maior rapidez, a partir de um instante de tempo t = T, alteração no valor médio das características de qualidade que estão sendo monitoradas.

Na avaliação gráfica do efeito da autocorrelação, considerou-se que o deslocamento seja descrito pela equação (19). Por exemplo, em um processo bivariado, a ocorrência de uma causa especial desloca o vetor de médias Equação para um novo patamar Equação. Nas próximas seções, a avaliação gráfica é apresentada com o processo em controle Equação e com o processo fora de controle Equação, respectivamente.

Avaliação gráfica do efeito da autocorrelação com o processo em controle

Em um processo isento de autocorrelação, Equação e Equação=0,7, temos que Equação. A elipse que representa a curva de nível da distribuição para Equação=10,5966 é ilustrada na Figura 2.

Figura 2. Elipse: Equação e Equação=0,7

Equação

Fonte: Os próprios autores.

Figura 3. Elipse: Equação e Equação=0,7

Equação

Fonte: Os próprios autores.

Generalizando, para Equação, pode-se observar na Figura 4 uma demonstração gráfica em que quanto maior for a autocorrelação, maior é a região elíptica, ou seja, a autocorrelação aumenta a variabilidade das variáveis do processo sob monitoramento.

Figura 4. Elipses: Equação e Equação=0,7

Equação

Fonte: Os próprios autores.

Se os dados são normalmente distribuídos, as elipses da Figura 4 representam todos os pontos equidistantes, na distância de Mahalanobis, da origem. Isto sugere que todos esses pontos têm a mesma probabilidade de serem regidas por uma distribuição normal multivariada com centro em (0,0), pois Equação=0. No gráfico Equação de Hotelling o limite de controle (LSC) igual a Equação=10,5966, gera, em média, um alarme falso a cada 200 amostras coletadas quando Equação. O mesmo não ocorre quando Equação, ou seja, a taxa média de alarmes falsos não corresponde a um alarme a cada 200 amostras coletadas, mesmo que seja usado como LSC o valor 10,5966. Isso significa, na prática, que, quando usamos o gráfico Equação de Hotelling, considerar o LSC do gráfico com distribuição qui-quadrado com p graus de liberdade Equação na presença de autocorrelação, nos fornecerá uma taxa de alarmes falsos diferente da desejada.

Avaliação gráfica do efeito da autocorrelação com o processo fora de controle

A Figura 5 ilustra um processo isento de autocorrelação com Equação e Equação=0,7. A elipse tracejada com centro em (0,0) representa um processo em controle e sua equação é Equação=10,5966. As demais elipses representam a ocorrência de uma causa especial que desloca o vetor de médias Equação para um novo patamar:

Equação

A Figura 6 ilustra um processo com autocorrelação com Equação e Equação=0,7. A elipse tracejada com centro em (0,0) representa um processo em controle e sua equação é: Equação. O valor 10,06 foi usado para que fosse possível fazer um comparação justa que, na presença de autocorrelação, mantém a taxa média de alarmes falsos igual a um alarme a cada 200 amostras. As demais elipses representam a ocorrência de uma causa especial que desloca o vetor de médias Equação para um novo patamar:

Equação

Figura 5. Elipses: Equação e Equação=0,7

Equação

Fonte: Os próprios autores.

Figura 6. Elipses: Equação e Equação=0,7

Equação

Fonte: Os próprios autores.

Na Figura 5, observa-se que, em processos sem autocorrelação, o deslocamento no vetor de médias causado por uma causa especial é representado pelas elipses que se afastam do centro em (0,0), caracterizando que o gráfico Equação, nesse caso, apresenta desempenho superior em relação ao processo em que a autocorrelação está presente. Na Figura 6, as elipses apresentam maior resistência em se manter próxima ao centro em (0,0) quando ocorrem deslocamentos que desajustam o vetor de médias, significando que o desempenho do gráfico Equação é inferior quando há presença de autocorrelação.

CONCLUSÃO

Este artigo avaliou o efeito da autocorrelação no gráfico de controle de Equação por ser uma das ferramentas mais populares no meio acadêmico e industrial. A distância de Mahalanobis, mesma estatística utilizada no gráfico de Equação, foi empregada para representar geometricamente o comportamento de um processo na presença e ausência de causas especiais que afetam o valor médio das características de qualidade monitoradas.

A violação da hipótese de autocorrelação deve ser levada a sério e verificada antes da utilização da ferramenta estatística gráfico de controle, pois a presença da autocorrelação afeta o desempenho dos gráficos de controle tradicionais, reduzindo a capacidade de detectar desvios no vetor de médias.

A utilização de elipses ilustrou como os dados de um processo se comportam na presença da autocorrelação, mascarando o efeito do deslocamento que se dá quando as características de qualidade ditas em controle estatístico passam à situação de fora de controle estatístico. Sugere-se, em trabalhos futuros, a apresentação de estatísticas ou técnicas que aprimorem desempenho de gráficos de controle na presença de autocorrelação.


REFERÊNCIAS

Alt, F. B. (1985), Multivariate control charts. Encyclopedia of Statistical Sciences. Kotz. S. Johnson. N. L. Eds., Wiley.

Aparisi, F. (1996), “Hotelling’s T2 control chart with adaptive sample sizes”, International Journal of Production Research, Vol. 34. pp. 2853-2862.

Aparisi, F. et Haro C.L, (2001), “Hotelling’s T2 control chart with variable sampling intervals”, International Journal of Production Research, Vol. 39. pp. 3127-3140.

Apley, D.W. et Tsung F. (2002), “The autoregressive T2 chart for monitoring univariate autocorrelated processes”, Journal of Quality Technology, Vol. 34. pp. 80-96.

Arkat. J., Niaki. S.T.A., Abbasi. B. (2007), “Artificial neural networks in applying MCUSUM residuals charts for AR(1) processes”, Applied Mathematics and Computation, Vol. 189. pp. 1889-1901. ARKAU. Bersimis, S., Psarakis, S., Panaretos, J. (2007), “Multivariate Statistical Process Control Charts: An Overview”, Quality and Reliability Engineering International, Vol.23, pp. 517-543.

Biller, B. et Nelson. B. (2003), “Modeling and generating multivariate time-series input processes using a vector autoregressive technique”, ACM Transactions on Modeling and Computer Simulation, Vol. 13. No.3. pp. 211-237.

Chen, S. et Nembhard, H.B. (2011), “Multivariate cuscore control charts for monitoring the mean vector in autocorrelated process”, IIE Transactions, Vol. 43. pp. 291-307.

Costa, A. F. B., Epprecht, E.K., Carpinetti, L.C.R. (2005), Controle Estatístico de Qualidade. 2a. ed., São Paulo: Editora Atlas.

Hotelling, H. (1947), “Multivariate quality control, illustrated by the air testing of sample bombsights”, Techniques of Statistical Analysis, pp.111-184. New York, McGraw Hill.

Hwarng, H.B. et Wang. Y. (2010), “Shift detection a source identification in multivariate autocorrelated process”, International Journal of Production Research, Vol. 48. No. 3. pp.835-859.

Issam, B.K. et Mohamad. L. (2008), “Support vector regression based residual MCUSUM control chart for autocorrelated process”, Applied Mathematics and Computation, Vol. 201. pp. 565-574.

Jarrett, J.E. et Pan. X. (2007), “The quality control chart for monitoring multivariate autocorrelated processes”, Computational Statistics & Data Analysis, Vol. 51. pp. 3862-3870.

Jiang, W. (2004), “Multivariate control charts for monitoring autocorrelated processes”, Journal of Quality Technology, Vol. 36. pp. 367-379.

Kalgonda, A.A. (2012), “A Note on generalization of Z Graph”, Journal of Academia and Industrial Research, Vol. 1. No.6. pp. 286-289.

Kalgonda, A.A. et Kulkarni. S.R. (2004), “Multivariate quality control chart for autocorrelated processes”, Journal of Applied Statistics, Vol. 31. pp. 317-327.

Kim, S.B., Jitpitaklert. W., Sukchotrat. T. (2010), “One-Class Classification-Based Control Charts for Monitoring Autocorrelated Multivariate Processes”, Communications in Statistics - Simulation and Computation, Vol. 39. No.3. pp. 461-474.

Ltkepohl, H. (2007), New Introduction to Multiple Time Series Analysis. New York: Springer.

Mahalanobis, P.C. (1936), In Proceedings National Institute of Science, India, Vol. 2, No.1. pp. 49-55.

Mason, R. et Young, J.C. (2002), Multivariate statistical process control with industrial applications. Alexandria. Society for Industrial and Applied Mathematics.

Mastrangelo, C.M. et Forrest, D. R. (2002), “Multivariate Autocorrelated Processes: Data and Shift Generation”, Journal of Quality Technology, Vol. 34, No. 2. pp. 216-220.

Montgomery, D.C. (2004), Introduction to statistical quality control. John Wiley & Sons. Inc. New York. New York.

Niaki, S.T.A. et Davoodi, M. (2009), “Designing a multivariate-multistage quality control system using artificial neural networks”, International Journal of Production Research, Vol. 47. pp. 251-271.

Pan, X. et Jarrett, J.E. (2007), “Using vector autoregressive residuals to monitor multivariate processes in the presence of serial correlation”, International Journal of Production Economics, Vol. 106. pp. 204-216.

Pfaff, B. (2008), “VAR, SVAR and SVEC models: implementation within r package vars”, Journal of Statistical Software, Vol. 27. No. 4. pp. 204-216.

Shewhart, W.A. (1931), Economic control of quality of manufactured product. 1ª Ed. New York: D. Van Nostrand Company.

Shumway, R. H. et Stoffer. D. S. (2006), “Time Series Analysis and Its Applications: With R Examples. 2ª Ed. New York: Springer.

Vargas, M., Alfaro, J.L., Mondéjar, J. (2009), “On the run length of a state-space control chart for multivariate autocorrelated process data”, Communications in Statistics - Simulation and Computation, Vol. 38. pp. 1823-1833.