Inteligência artificial e previsão de preços de ativos financeiros: uma revisão sistemática

Ewerton Alex Avelar

ewertonaavelar@gmail.com

Universidade Federal de Minas Gerais – UFMG, Belo Horizonte, MG, Brasil.

Octávio Valente Campos

octaviovc@yahoo.com.br

Universidade Federal de Minas Gerais – UFMG, Belo Horizonte, MG, Brasil.

Jacqueline Braga Paiva Orefici

j.orefici@gmail.com

Centro Universitário Leonardo da Vinci – UNIASSELVI, Brasil.

Sergio Louro Borges

sergio.borges@ufjf.edu.br

Universidade Federal de Juiz de Fora – UFJF, Juiz de Fora, MG, Brasil.

Antônio Artur de Souza

artur@face.ufmg.br

Universidade Federal de Minas Gerais – UFMG, Belo Horizonte, MG, Brasil.


RESUMO

Destaques: Um mercado eficiente é aquele em que os preços sempre refletem plenamente as informações disponíveis (Fama, 1970). Entretanto, vários agentes têm se concentrado em potenciais ineficiências para retornos anormais ao longo do tempo. Algoritmos de inteligência artificial (IA) também têm sido usados para prever os preços dos ativos financeiros. Esta revisão sistemática da literatura apresentou uma série de contribuições ao uso de algoritmos de inteligência artificial para prever os preços dos ativos no mercado financeiro. Objetivo: Desenvolver uma revisão sistemática das aplicações do algoritmo de IA para prever os preços dos ativos no mercado financeiro. Metodologia: A revisão sistemática concentrou-se nas diretrizes dos itens de Relatórios Preferenciais para Revisões Sistemáticas e Meta-Análises (PRISMA). Abordou duas bases de dados principais das revistas: Web of Science e Scopus. Conduzimos uma análise qualitativa dos estudos e baseamos nossas conclusões na análise do conteúdo da pm. A análise empregou categorias com base nos resultados relatados na literatura. Também utilizamos a estatística descritiva e o teste de qui-quadrado na análise. Resultados: Este estudo apresenta algumas contribuições relevantes: (i) a identificação das principais características dos modelos desenvolvidos baseados em inteligência artificial (IA) e os algoritmos utilizados para prever os preços dos ativos no mercado financeiro; (ii) a revisão das características e aplicações dos principais algoritmos utilizados na previsão; e (iii) as lacunas dos estudos anteriores, bem como as tendências e perspectivas para uma análise mais aprofundada. Limitações: Este estudo se concentra apenas em trabalhos disponíveis publicamente em duas grandes bases de dados. Além disso, alguns assuntos podem influenciar o processo de categorização. Implicações práticas: Este artigo apresenta as principais características dos algoritmos de IA usados para prever os preços dos ativos no mercado financeiro. Estes resultados podem apoiar os agentes do mercado na melhoria de seus modelos de investimento. Originalidade/valor: Este artigo tratou de muitas questões teóricas e práticas relevantes. Também reforçou a importância de compreender a hipótese dos mercados eficientes (HME) sob a automação abrangente de processos e o uso de IA. Por último, revisaram-se sistematicamente as diferentes características entre os estudos analisados.

Palavras-chave: Inteligência Artificial; Previsão de Preços; Mercado Financeiro; Revisão Sistemática.


INTRODUÇÃO

Cao, Lin, Li e Zhang (2019) destacam que conhecer padrões de comportamento e conseguir fazer previsões sobre os preços dos ativos no mercado financeiro é uma questão importante a ser tratada na pesquisa científica. Neste sentido, Moon, Jun e Kim (2018) afirmam que a previsão dos preços dos ativos financeiros é um tema relevante nas finanças, pois tais previsões permitem, por exemplo, que os agentes econômicos obtenham seus lucros e se protejam dos riscos do mercado.

Ding e Qin (2020) consideram que este tipo de pesquisa sempre foi relevante para os agentes econômicos, e vários métodos diferentes têm sido usados para prever os preços dos ativos. Tais métodos variam desde técnicas estatísticas generalizadas até os últimos avanços em inteligência artificial (IA). Com relação aos algoritmos de IA, Rundo, Trenta, Stallo e Battiano (2019) enfatizam que tal uso está no contexto da automação progressiva de processos em diferentes campos, e o mercado financeiro não é uma exceção. De acordo com estes autores, muitos pesquisadores provaram que os algoritmos de IA permitem analisar rapidamente um grande volume de dados com grande precisão e eficácia.

Entretanto, segundo a hipótese dos mercados eficientes (HME), não é teoricamente possível prever os preços dos ativos para que os agentes econômicos obtenham lucros anormais no mercado financeiro. Em seu trabalho clássico, Fama (1970) define um mercado eficiente como aquele em que os preços sempre refletem plenamente a disponibilidade de informações. Assim, o HME implica que, em média, um investidor não poderia obter um retorno anormal (Ross et al., 2015).

Ao contrário das hipóteses mencionadas acima, vários estudos que usaram algoritmos de IA para prever preços de ativos apresentaram modelos com alto desempenho em termos de poder preditivo, maximizando retornos anormais (ex.: Cao et al., 2019; Qian & Rasheed, 2007; Shynkevich et al., 2017). Deve-se notar que tais estudos destacaram diferenças significativas de diferentes perspectivas dos principais algoritmos utilizados, tais como Redes Neurais Artificiais (RNA), Árvore de Decisão e Floresta Aleatória (ADFA), k-Nearest Neighbors (KNN), Naïve Bayes (NB) e Support Vector Machine (SVM) (Shynkevich et al., 2017; Cao et al., 2019; Ding & Qin, 2020).

Reconhecendo e explorando esta lacuna de pesquisa, o estudo apresentado neste artigo visa responder à seguinte questão de pesquisa: Como a aplicação de algoritmos de IA para prever preços de ativos no mercado financeiro tem sido abordada na literatura? Portanto, a pesquisa visou realizar uma revisão sistemática (mapeamento do estado da arte) sobre a aplicação de algoritmos de IA na previsão de preços de ativos no mercado financeiro. Assim sendo, a revisão foi desenvolvida usando a base de dados bibliográficos da Web of Science e Scopus, focalizando os itens preferenciais de relatórios para revisões sistemáticas e diretrizes de Meta-Analises (PRISMA) (Page et al., 2021a; Page et al., 2021b).

A pesquisa desenvolvida pode ser justificada a partir de diferentes perspectivas. Em primeiro lugar, o tema é de grande importância, tanto do ponto de vista teórico quanto prático, para a Academia e os diferentes agentes do mercado, tais como investidores, empresas e reguladores (Cao et al., 2019; Ding & Qin, 2020; Moon et al., 2018). Além disso, destaca-se a importância de compreender o HME em um novo ambiente no qual os processos são amplamente automatizados, e os algoritmos de IA têm sido usados para obter retornos superiores ao esperado (Rundo et al., 2019). Finalmente, a importância de apresentar as diferentes características dos estudos que se concentraram na previsão de preços de ativos e os algoritmos utilizados para esse fim é destacada, pois eles apresentam diferentes níveis de desempenho em diferentes contextos (Shynkevich et al., 2017; Cao et al., 2019).

BASE TEÓRICA

Esta seção aborda aspectos críticos da revisão sistemática apresentada neste trabalho. Inicialmente, a importância da previsão de preços de ativos no mercado financeiro é discutida na subseção 2.1, no contexto do HME. Em seguida, os principais algoritmos de IA usados para essa atividade são destacados na subseção 2.2. Por fim, destacam-se aspectos do desenvolvimento de modelos que empregam tais algoritmos na subseção 2.3.

Previsão de preços de ativos no mercado financeiro

De acordo com Ding e Qin (2020), o aumento ou diminuição do preço dos ativos no mercado financeiro é influenciado por muitos fatores, como político, econômico e social, além daqueles baseados no mercado. Ademais, segundo esses autores, esses movimentos nos preços dos ativos influenciam diretamente os retornos obtidos pelos investidores, que podem se beneficiar da previsão correta desses movimentos, que é, no entanto, uma atividade muito complexa.

Essa complexidade pode estar relacionada à HME. Para Fama (1970), um mercado eficiente é aquele em que os preços sempre refletem plenamente as informações disponíveis. Deve-se notar que a eficiência varia em cada forma (fraca, semi-forte ou forte), relacionada à velocidade com que o mercado assimila as informações (Fama, 1970). Portanto, conforme a explicação de Ross et al. (2015), o HME indica que, em média, um investidor não poderia alcançar um retorno anormal. Entretanto, as condições listadas por Fama (1970) para eficiência são ideais, permitindo retornos anormais a partir de potenciais ineficiências. Assim, ao longo do tempo, vários agentes têm se concentrado nesta possibilidade.

Segundo Rundo et al. (2019), nas últimas décadas, os pesquisadores propuseram uma série de modelos baseados em métodos estatísticos para prever os preços destes ativos, como a média móvel integrada autorregressiva (ARIMA) e o modelo de suavização exponencial. Entretanto, os autores apontam que estes modelos precisam de ajuda nesta tarefa devido ao seu baixo desempenho quando lidam com um grande volume de dados intrinsecamente complexos, tais como os preços destes ativos. Estas abordagens também parecem ser mais adequadas para entender as relações ocultas (dependências) entre os dados (Rundo et al., 2019).

Ding e Qin (2020) enfatizam que, além das técnicas estatísticas, também foram usados algoritmos de IA para prever os preços dos ativos financeiros. Entre esses algoritmos, alguns se destacam na literatura sobre o assunto: RNA, ADFA, KNN, NB e SVM (Shynkevich et al., 2017; Cao et al., 2019; Ding & Qin, 2020). Rundo et al. (2019) ressaltam que seu uso está relacionado aos efeitos da automação progressiva de certos processos em diferentes campos, incluindo os da área financeira. É importante destacar que, segundo Faceli, Lorena, Gama, Almeida e Carvalho (2021), os algoritmos mencionados anteriormente podem ser usados tanto para resolver problemas de regressão referentes à estimativa de valor em um conjunto infinito e ordenado (por exemplo, preço de ações em um dado contexto) quanto problemas de classificação estimando valores a partir de um conjunto discreto e não ordenado, ou seja, uma classe (por exemplo, se o preço de uma ação subirá ou cairá). A subseção seguinte detalha cada um destes algoritmos.

Algoritmos de IA para prever o preço de ativos

Na revisão apresentada neste trabalho, os algoritmos mencionados na subseção anterior estão focados em: RNA, ADFA, KNN, NB e SVM. Faceli et al. (2021) argumentam que os RNAs são inspirados por modelos abstratos de como o cérebro humano supostamente funciona. Estes autores afirmam que tais redes são compostas de unidades simples de processamento responsáveis pela implantação de funções matemáticas que simulam as funções desempenhadas pelos neurônios. Essas unidades podem se conectar a muitas outras conexões, simulando sinapses, permitindo que as RNAs resolvam problemas complexos.

Quanto às árvores de decisão, Moon et al. (2018) destacam que elas podem ser usadas para criar um modelo que prevê o valor de uma variável-alvo baseado em diversas variáveis de entrada usando partição recursiva. Uma variável que melhor divide o conjunto de amostras é escolhida em cada etapa. Diferentes medidas de impureza ou critérios de divisão podem ser usados em árvores binárias, tais como impureza Gini, entropia de informação ou classificação errônea. Deve-se observar que o algoritmo florestal aleatório pode ser considerado um desenvolvimento relativo a árvores de decisão. A ideia é combinar várias árvores para determinar o resultado em vez de confiar em árvores individuais, reduzindo a variação do modelo (Vijh et al., 2020). Assim, para o estudo apresentado neste artigo, os dois algoritmos (árvores de decisão e florestas aleatórias) são considerados pertencentes à mesma categoria de análise que o ADFA.

O algoritmo KNN, como destacado por Moon et al. (2018), escolhe o rótulo de classe do novo ponto de dados por maioria de votos entre seus vizinhos "k" mais próximos. A métrica de distância escolhida determina estes vizinhos mais próximos. A KNN é simples de implantar, mas é sensível à estrutura local dos dados e à complexidade computacional para classificar novas amostras, que cresce linearmente com o número de amostras no conjunto de treinamento. O parâmetro k pode ser escolhido dependendo dos dados, e geralmente, valores maiores de k reduzem o efeito do ruído na classificação, mas tornam os limites entre classes menos distintos (Moon et al., 2018).

No que lhe concerne, de acordo com Faceli et al. (2021), NB calcula todas as probabilidades (a priori e condicional) dos dados de treinamento. De acordo com estes autores, o termo "naïve" (ingênuo) está relacionado com a hipótese de que os valores dos atributos de um exemplo são independentes de sua classe. Finalmente, Rundo et al. (2019) enfatizam que o algoritmo SVM encontra uma função de decisão que maximiza a margem entre as classes. O algoritmo realiza uma otimização matemática com base nos dados etiquetados durante a etapa de treinamento. Exemplos de treinamento que limitam a margem máxima definida pelo SVM durante o treinamento são chamados de "vetores de suporte". A subseção seguinte descreve o desenvolvimento dos modelos de IA empregando algoritmos como os mencionados acima.

Modelos de IA

Independentemente do algoritmo de IA usado para a previsão de preços de ativos, Ferreira, Gandomi e Cardoso (2021) apresentam um fluxograma do processo normalmente usado por estudos para essa atividade (Figura 1). Estes autores incluem cinco etapas principais: (1) aquisição dos dados de entrada; (2) transformação e seleção dos dados; (3) treinamento do modelo; (4) otimização dos parâmetros; e (5) avaliação do desempenho do preditor.

F

Há vários dados de entrada normalmente verificados em estudos que visam prever os preços dos ativos no mercado financeiro, tais como: (a) histórico comercial – fechamento, abertura, preços máximo e mínimo – e volume comercial (Chun & Ko, 2020); Gu et al., 2020; Awan et al., 2021); (b) indicadores de análise técnica (Rundo et al., 2019); (c) indicadores financeiros (Janková, Jana & Dostál, 2021); e (d) dados não estruturados para análise de comportamento, empregando processamento de linguagem natural (PLN) (Almehmadi, 2021; Awan et al., 2021).

Além disso, diferentes tipos de ativos são o foco da previsão de preços através de algoritmos de IA, como índices de mercado (Cavdar & Aydin, 2020; Ding & Qin, 2020; Shynkevich et al., 2017); preços de ações (Colliri & Zhao, 2019; Awan et al., 2021); e preços de outros ativos financeiros, como opções (Sheu & Wei, 2011).

Após selecionar o algoritmo para prever os preços, é necessário treiná-lo com base nos dados coletados. Isso precisa ser feito com dados relacionados às variáveis de entrada e com os dados relacionados aos preços estimados. Nesta fase, a maioria dos dados é usada para o treinamento do algoritmo, enquanto o restante é usado para testá-lo (Moon, Jun & Kim, 2018; Shynkevich et al., 2017). Também é necessário aperfeiçoar parâmetros conforme os algoritmos, como o parâmetro k no caso de KNN, kernels no caso de SVM e ajuste dos pesos no caso de RNA (Faceli et al., 2021).

Finalmente, várias métricas de avaliação de desempenho dos algoritmos que podem ser usados são destacadas, como Accuracy (ACU - Precisão), Mean Square Error (MSE - erro do quadrático médio), Root Mean Square Error (RMSE - raiz do erro quadrático médio), Mean Absolute Error (MAE - erro absoluto médio) e Mean Absolute Percentage Error (MAPE - erro percentual médio absoluto) (Ecer et al., 2020; Awan et al., 2021; Vijh et al., 2020). É importante notar que enquanto a ACU é mais adequada para avaliar algoritmos destinados à classificação, as outras métricas são mais adequadas para avaliar aquelas destinadas a realizar análises de regressão (Faceli et al., 2021).

METODOLOGIA

A revisão sistemática apresentada neste artigo foi desenvolvida, focalizando as diretrizes do PRISMA (Page et al., 2021a; Page et al., 2021b). Antes de prosseguir com a revisão, foi realizada uma pesquisa nos registros do Open Science Framework (OSF), e nenhum desenvolvimento foi encontrado a esse respeito (OSF Home, 2021), indicando a natureza sem precedentes do estudo. A revisão da literatura foi realizada em dois bancos de dados de periódicos: Web of Science e Scopus. Chadegani et al. (2013) destacam a importância de ambos os bancos de dados para a comunidade científica. Estes autores enfatizam que a Web of Science (Thomson Reuters) poderia ser considerada a principal referência científica para diversas áreas até o lançamento do Scopus (Elsevier Science). A última começou a competir diretamente com a primeira, constituída em amplitude e escala semelhantes (Chadegani et al., 2013).

Para a seleção dos artigos, cada um dos bancos de dados foi acessado na última semana de maio de 2021, sendo realizada uma pesquisa booleana com a seguinte consulta de pesquisa: [("Machine Learning" OU "Artificial Intelligence") E ("stock market" OU "stock return" OU "stock price" OU "share market" OU "share return" OU "share price")]. Após realizar estes procedimentos, 840 documentos foram inicialmente selecionados. Então, para refinar a busca, foram empregados filtros de seleção, restringindo a busca a documentos classificados como "artigos", resultando em 392 registros. Após este refinamento, todos os títulos e resumos foram lidos e analisados para verificar se os textos se referiam ao fenômeno do uso de algoritmos para previsão de ativos financeiros (foco de pesquisa), e 268 artigos foram selecionados.

Posteriormente, os artigos foram baixados e lidos na íntegra. Deve-se notar que quando o texto completo não estava disponível no banco de dados selecionado, ele foi pesquisado diretamente no Google® Scholar. Entretanto, 68 artigos não foram encontrados com o uso de tais procedimentos, sendo então excluídos da amostra. Finalmente, dos 200 artigos restantes, verificou-se, durante a leitura completa, que 12 deles não se referiam ao foco da pesquisa, dois eram duplicados e 51 abordavam algoritmos de IA diferentes daqueles destacados na subseção 2.2 (especialmente híbridos), gerando a amostra final de 135 artigos. Neste sentido, a Figura 2 apresenta este processo de seleção de artigos com base no fluxograma proposto pelo PRISMA.

Após a leitura completa dos artigos selecionados, eles foram analisados qualitativamente e classificados de acordo com diferentes categorias de análise. Estas categorias focalizaram principalmente os algoritmos de IA destacados na subseção 2.1 e algumas das etapas do modelo de Ferreira et al. (2021) mostradas na Figura 1: (a) região mundial; (b) tipo de ativo antecipado; (c) algoritmo de IA empregado; (d) dados de entrada para treinamento do algoritmo; e (e) medidas de desempenho do algoritmo. Finalmente, também foi realizada uma categorização das principais conclusões dos artigos.

Deve-se notar que pelo menos dois revisores com Ph.D. em Administração ou Contabilidade com experiência em pesquisa em finanças realizaram todo o processo de seleção de artigos. Os pesquisadores que lideraram o desenvolvimento da revisão sistemática analisaram e discutiram os estudos. Os desacordos foram resolvidos por consenso entre os revisores. Este procedimento foi aplicado em todas as etapas.

Para a apresentação e análise dos dados, foram utilizadas as técnicas de estatística descritiva e o teste do qui-quadrado, como recomendado por Maroco (2010). Este teste foi empregado para avaliar associações estatisticamente significativas entre os diferentes algoritmos de IA analisados na pesquisa relativa às outras categorias desenvolvidas para esta pesquisa. Neste caso, foi considerado um nível de significância estatística de 10%. O Pacote Estatístico para as Ciências Sociais (SPSS) e o MS Excel foram utilizados para operacionalizar as análises.

F

RESULTADOS

Esta seção apresenta os resultados derivados da revisão sistemática da literatura. Três subseções compõem esta seção. Primeiro, a subseção seguinte destaca os resultados referentes às seguintes categorias: região mundial; tipo de ativo previsto; dados usados para treinamento do algoritmo; e métricas para medir o desempenho do algoritmo. Em seguida, são apresentados os resultados relacionados a cada um dos algoritmos analisados: RNA, ADFA, KNN, NB e SVM. Finalmente, são discutidas as principais conclusões dos estudos analisados.

Análise geral

A Figura 3 apresenta o número de artigos publicados por ano. No total, foram identificados 122 artigos sobre o tema. Há uma forte tendência de crescimento do tema durante todo o período estudado. É importante salientar que mais de 58% dos artigos foram publicados nos últimos três anos. Este resultado demonstra a recente atenção dada ao tema na Academia.

F

A Tabela 1, por sua vez, apresenta o número de artigos publicados por região do mundo. Foi possível observar que os primeiros estudos foram realizados principalmente em países desenvolvidos. Alguns outros foram realizados simultaneamente em vários países. Somente em 2014 os estudos foram realizados exclusivamente em países emergentes, consistentemente registrados. Desde então, o número de estudos nestes países tem sido maior do que em outros países por vários anos, correspondendo a um total de 54 estudos contra 51 realizados em países desenvolvidos. A preferência inicial pelos países desenvolvidos pode estar relacionada aos seus mercados de capitais mais avançados em comparação com os dos países emergentes.

F

A Tabela 2 mostra a frequência dos tipos de ativos para os quais os preços foram previstos em cada estudo. Até 2012, predominavam os estudos que visavam prever os valores dos índices do mercado de capitais. A partir daquele ano, as pesquisas com foco nos preços das ações se tornaram mais numerosas, superando aquelas relacionadas aos índices em alguns períodos. Entretanto, ao contrário do que foi observado na Tabela 1, todos os estudos que previam os preços dos índices continuaram sendo os mais frequentes (51,5%) comparados com os que focalizavam as ações (46,4%). Vale ressaltar que apenas alguns estudos se concentram em outros tipos de ativos, tais como opções. Assim, pode-se observar uma lacuna na literatura que pode ser explorada em novas pesquisas.

F

A Tabela 3 apresenta a evolução do número de estudos, considerando os diferentes dados de entrada utilizados nos modelos de treinamento. Inicialmente, foram observados 215 tipos diferentes de dados de treinamento, resultando em 1,6 tipos de dados de entrada por artigo. Os dados de entrada mais comuns referem-se a preços históricos de ativos (abertura, fechamento, máximo e mínimo), identificados em 46,1% dos trabalhos. Outros tipos de dados de entrada comuns referem-se a indicadores técnicos (média móvel) que estão presentes em 27,9% dos artigos. A análise de sentimentos é um tipo de dado de entrada que se tornou mais frequente nos últimos anos de análise (83,3% das pesquisas que utilizam esta entrada foram publicadas desde 2017). Os indicadores financeiros foram observados em apenas 7,9% dos estudos analisados. Estes são pontos de dados interessantes para estudos que empregam análise fundamental.

Finalmente, a Tabela 4 apresenta as diferentes métricas de desempenho dos algoritmos empregados nos estudos. É importante destacar que foram mencionados 232 tipos diferentes de medidas de desempenho de algoritmos nos artigos, o que significa que foram utilizadas 1,7 medidas por artigo. A métrica mais comum para medir o desempenho do algoritmo foi a ACU, presente em 32,8% dos casos. Em seguida, a métrica RMSE é utilizada em 15,1% dos estudos. Outras medidas dignas de menção foram MSE, MAE e MAPE. Também é relevante mencionar que 30,6% dos artigos apresentam outras métricas de desempenho e que estas se tornaram mais diversificadas ao longo do período estudado.

F

F

Análise de algoritmos de IA

Esta subseção apresenta algumas informações sobre os algoritmos utilizados nos estudos analisados. Inicialmente, em média, foram apresentados 1,8 algoritmos em cada estudo, mostrando que os estudos tendem a empregar mais de um algoritmo para a previsão de preços. Sequencialmente, a Figura 4 mostra o número de estudos que utilizaram RNA como um algoritmo de previsão dos preços de ativos. Este é o algoritmo mais utilizado para esta tarefa, observado em 33,8% dos artigos analisados. Houve uma associação estatisticamente significativa entre o uso do algoritmo RNA e outras métricas de desempenho além da ACU (χ2 = 4,1, significativo em menos de 10,0%). Este caso mostra que este algoritmo tende a ser usado para fins de regressão e não de classificação.

F

Por sua vez, a Figura 5 contém os artigos que apresentam o algoritmo SVM para prever os preços dos ativos. Este é o segundo algoritmo mais utilizado, observado em 27,6% dos artigos analisados. Curiosamente, o teste do qui-quadrado indica uma associação estatisticamente significativa entre o uso do algoritmo SVM e estudos baseados em mercados emergentes (χ2 = 6,4, significativo a menos de 1,0%). Como os estudos nesses mercados cresceram mais que proporcionalmente durante a última década, a predominância geral do SVM também pode ser explicada, pois parece haver uma preferência por esse algoritmo nas pesquisas nessas regiões.

Houve também uma forte associação entre o uso de SVM e a análise de sentimentos como dados de entrada (χ2 = 6,7, significativo a menos de 5,0%). É importante considerar que SVM é um algoritmo muito complexo para trabalhar com dados não estruturados usando PLN, o que é essencial para lidar com este tipo de dado. Além disso, houve uma associação estatisticamente significativa entre o uso do algoritmo SVM e o uso de métricas de desempenho da ACU (χ2 = 4,5, significativo a menos de 5,0%) e medidas diferentes da MAPE (χ2 = 3,8, significativo a menos de 10,0%). Neste caso, é possível inferir que este algoritmo é mais utilizado para fins de classificação do que para fins de regressão.

F

O terceiro algoritmo mais frequente observado nos estudos se refere ao ADFA (mencionado em 23,1% dos estudos). Sua frequência observada é apresentada na Figura 6. Com relação aos dados de entrada, foi encontrada uma associação estatisticamente significativa entre o uso destes algoritmos e os indicadores financeiros (χ2 = 5,6, significativo a menos de 5,0%). Assim, estudos que utilizam esses algoritmos tendem a utilizar esses indicadores como base para treinamento. Houve também uma associação estatisticamente significativa entre o uso de outras métricas de desempenho (alternativas) e o uso do algoritmo ADFA (χ2 = 7,4, significativo em menos de 1,0%). Deve-se ressaltar que, em todos os estudos que utilizaram este algoritmo, foram verificadas medidas diferentes daquelas apresentadas na subseção 2.3.

A Figura 7 apresenta a frequência dos artigos que utilizaram o algoritmo NB (utilizado em 8,0% dos casos). Vale ressaltar que seu uso só foi observado a partir de 2014. Com relação ao ativo previsto, foram encontradas associações estatisticamente significativas em relação ao uso do algoritmo para prever os preços das ações (χ2 = 14,33, significativo em menos de 1,0%) assim como para prever outros ativos que não os índices de mercado (χ2 = 10,8, significativo em menos de 1,0%). Neste caso, verificou-se que existe uma tendência de utilização de modelos baseados em NB para previsão de preços de ações em detrimento da utilização dos mesmos para previsão de índices de mercado.

Quanto aos dados de entrada, houve associações estatisticamente significativas entre o uso do algoritmo NB e o uso da análise dos sentimentos (χ2 = 9,2, significativo a menos de 1,0%) e com outros dados que não eram preços históricos (χ2 = 3,4, significativo a menos de 10,0%). Neste caso, há uma tendência para modelos que empregam esse algoritmo utilizarem a análise de sentimento como dados de entrada, mas não dados históricos de preços para este fim. Segundo o recente avanço na análise de sentimento na área, o aumento no uso de NB pode ser entendido como uma possível consequência. Houve também uma associação estatisticamente significativa entre o uso da métrica de desempenho da ACU e o algoritmo NB (χ2 = 6,2, significativo a menos de 5,0%), mostrando o maior uso deste algoritmo para fins de classificação.

F

F

Finalmente, a frequência dos estudos que utilizaram o KNN é apresentada na Figura 8. Deve-se ressaltar que, apesar de ser observado desde 2006, este algoritmo foi o menos utilizado nos estudos (7,6%). Deve-se notar também que nenhum estudo que utilizasse este algoritmo foi registrado entre 2009 e 2016. Curiosamente, o teste do qui-quadrado indicou uma associação estatisticamente significativa entre o uso do algoritmo KNN e estudos baseados em mercados desenvolvidos (χ2 = 3,7, significativo a menos de 10,0%).

F

Análise das principais conclusões

Finalmente, esta subseção apresenta uma análise categórica das principais conclusões dos artigos analisados. A Tabela 5 apresenta a frequência dessas categorias. Parece que 60,0% dos artigos indicaram que os resultados obtidos através de um determinado algoritmo de IA foram superiores às técnicas estatísticas tradicionais ou às versões anteriores de outros algoritmos.

F

Em 18 artigos (13,3% da amostra), os autores argumentaram que os algoritmos de IA geraram bons resultados, mas não relataram uma superioridade significativa em relação a outras técnicas ou algoritmos. Por outro lado, a terceira categoria mais frequente de resultados indica que os algoritmos híbridos, ou o uso comum de vários algoritmos de IA, fornecem melhores resultados do que os algoritmos de IA individualmente. Assim, na grande maioria dos artigos analisados (71,9%), os autores relatam ter obtido resultados superiores aos obtidos anteriormente.

Entretanto, quatro estudos mostraram desempenho semelhante entre os algoritmos de IA e as técnicas estatísticas tradicionais (por exemplo, Parray et al., 2020; Jaggi et al., 2021). Neste caso, os autores não observaram vantagens significativas no uso de algoritmos de IA em comparação com as técnicas estatísticas tradicionais. Por outro lado, dois estudos constataram que o desempenho desses algoritmos seria ainda menor do que o das técnicas tradicionais (Pyo et al., 2017; Jang & Lee, 2019). Deve-se destacar que esses estudos correspondem a apenas 4,4% de todos os artigos analisados.

Dado o exposto acima, o rápido desenvolvimento tecnológico do qual os algoritmos de IA se beneficiam e sua aplicação no mercado financeiro abriram novas possibilidades na previsão de preços de ativos, mostrando desempenhos superiores às técnicas tradicionais e aos algoritmos anteriores. Por outro lado, uma questão epistemológica pode ser levantada, dados os objetivos delineados nos artigos.

Segundo a pesquisa, os autores pretendiam obter resultados favoráveis com os modelos propostos. Esta intenção, por si só, pode privar parte da robustez dos resultados que produziram, uma vez que a independência no gerenciamento de dados se perde, já que os pesquisadores já começariam com a premissa de que os modelos propostos seriam superiores. Dito isto, por serem modelos que precisam de análise humana, o trabalho acaba sendo direcionado, mesmo que inconscientemente, a superestimar os resultados de alguns modelos em relação a outros. Assim, epistemologicamente, não parece claro como discriminar entre a parte dos resultados devido à superioridade real dos modelos propostos e a parte devido à ação proposital dos pesquisadores para maximizar estes modelos.

Uma maneira possível de resolver parte desta questão epistemológica é analisar a "pele em risco" (Taleb, 2020) destes pesquisadores. Considerando que houve avanços relatados na literatura para que os modelos atuais proporcionem retornos superiores em relação a outros modelos utilizados durante décadas no mercado, deve-se supor que os pesquisadores tenham retornos diferenciados em seus investimentos. Portanto, seria aconselhável observar se esses pesquisadores alocam seus próprios recursos conforme as previsões indicadas. Se eles não alocarem, será um forte indicador de que eles não confiam em suas previsões publicadas. Posteriormente, se eles utilizarem essas informações para alocar seu próprio capital, deve-se observar que o rendimento obtido corresponde aos retornos indicados nos artigos. Uma pesquisa aplicada a este público-alvo poderia fornecer resultados esclarecedores.

CONCLUSÕES

Este artigo apresentou uma revisão sistemática da literatura (mapeamento do estado da arte) sobre a aplicação de algoritmos de IA para a previsão de preços de ativos no mercado financeiro. A revisão foi desenvolvida usando os bancos de dados Web of Science e Scopus, focalizando as diretrizes do PRISMA. A amostra final foi composta de 135 artigos, analisados com base em categorias previamente desenvolvidas a partir dos temas abordados na literatura específica, com um foco especial nos algoritmos de IA utilizados.

Inicialmente, é importante destacar que houve uma evolução no número de artigos publicados sobre o assunto desde 2012, com um aumento significativo nos últimos três anos. É importante destacar que foram observados muitos estudos que analisaram os mercados dos países emergentes, embora os estudos da primeira década dos anos 2000 tenham se concentrado particularmente nos países desenvolvidos.

Também foi observado que há uma preferência nos estudos para prever índices de mercado em vez de outros ativos. Tais índices podem ser negociados como Exchange-Traded Funds (ETFs), permitindo que tais estudos tenham contribuições teóricas e práticas. Entretanto, o número de artigos que estudam a previsão de preços de ações aumentou consideravelmente nos últimos anos, o que pode se tornar uma tendência no futuro. Tais ativos também podem ser mais facilmente analisados utilizando indicadores financeiros subutilizados nos estudos analisados. Neste sentido, os indicadores financeiros pouco utilizados indicam uma lacuna a ser explorada por outros estudos, mesmo em um contexto onde há um aumento no número de estudos que se concentram em ações específicas da empresa. Além disso, é importante ressaltar que apenas alguns estudos se dedicaram a desenvolver modelos de previsão de outros tipos de ativos negociados no mercado financeiro, tais como opções, representando outra oportunidade a ser explorada por pesquisas futuras.

Com relação aos dados de entrada usados como base para o treinamento dos modelos de IA, houve um amplo uso de preços comerciais históricos e indicadores técnicos foram amplamente utilizados. Assim, há uma tendência de estudos para explorar a forma fraca do HME, de acordo com Fama (1970). Por outro lado, muitos estudos recentes focam a análise dos sentimentos, exigindo dados não estruturados e o uso de PLN para tratá-los. Portanto, esta parece ser uma nova tendência nos estudos na área, uma vez que eles podem usar dados históricos e reais para previsão, aumentando o desempenho dos algoritmos desenvolvidos.

Com relação aos algoritmos utilizados na pesquisa, há uma tendência a utilizar mais de um algoritmo para prever preços, sendo a RNA a mais comumente utilizada. Descobriu-se que ela é normalmente explorada para fins de regressão e não está associada à análise dos sentimentos, apesar de seu potencial para ser utilizada para fins de PLN. O segundo algoritmo mais utilizado nos países emergentes foi o SVM. Estes algoritmos tornaram-se o foco dos estudos na segunda década deste século. Ao contrário da ANN, há uma tendência para o uso da RNA para fins de classificação.

Outros algoritmos empregados nos estudos foram os ADFAs, que mostraram uma tendência de utilização de indicadores financeiros como base de treinamento. Por sua vez, os estudos que utilizaram o algoritmo NB tenderam a focar na previsão de preços de ações em vez de índices de mercado (com foco no ranking), bem como no uso de dados de análise de sentimento. Os dados de entrada e os ativos previstos mostraram uma forte tendência de crescimento nos últimos anos de análise. Isto pode indicar o fortalecimento do algoritmo NB como base para a previsão dos preços dos ativos na próxima década. Finalmente, o algoritmo KNN foi o menos usado como base nos artigos. Tais algoritmos foram mais comumente usados nos países desenvolvidos para fins de classificação.

Com base no acima exposto, a revisão sistemática da literatura apresentada neste artigo apresenta uma série de contribuições ao estudo sobre o uso de algoritmos de IA para previsão de preços de ativos no mercado financeiro: (i) foram identificadas as principais características (por exemplo, dados de entrada, ativos esperados, medidas de desempenho) dos modelos desenvolvidos para este fim; (ii) foram destacadas as características e usos dos principais algoritmos utilizados para previsão; (iii) foram identificadas associações entre as diferentes categorias de análise; e (iv) foram apresentadas lacunas nos estudos, indicando tendências e propondo novas e amplas perspectivas de pesquisa sobre o fenômeno.

REFERÊNCIAS

Almehmadi, A. (2021), 'COVID-19 Pandemic Data Predict the Stock Market', Computer Systems Science and Engineering, vol. 36, no. 3, pp. 451–460.

Awan, M.J., Rahim, M.S.M., Nobanee, H., Munawar, A., Yasin, A. & Zain, A.M. (2021), 'Social Media and Stock Market Prediction: A Big Data Approach', Computers, Materials & Continua, vol. 67, no. 2, pp. 2569–2583.

Cao, H., Lin, T., Li, Y. & Zhang, H. (2019), 'Stock Price Pattern Prediction Based on Complex Network and Machine Learning', Complexity, pp. 1–12.

Cavdar, S.C. & Aydin, A.D. (2020), 'Hybrid Model Approach to the Complexity of Stock Trading Decisions in Turkey', The Journal of Asian Finance, Economics and Business, vol. 7, no. 10, pp. 9–21.

Chadegani, A.A., Salehi, H., Yunus, M.M., Farhadi, H., Fooladi, M., Farhadi, M. & Ebrahim, N.A. (2013), 'A Comparison between Two Main Academic Literature Collections: Web of Science and Scopus Databases', Asian Social Science, vol. 9, no. 5.

Chun, S.H. & Ko, Y.W. (2020), 'Geometric Case Based Reasoning for Stock Market Prediction', Sustainability, vol. 12, no. 17, pp. 7124.

Colliri, T. & Zhao, L. (2019), 'A Network-Based Model for Optimizing Returns in the Stock Market', 8th Brazilian Conference on Intelligent Systems (BRACIS), Salvador, BA, 15-18 October, DOI: https://doi.org/10.1109/BRACIS.2019.00118

Ding, G. & Qin, L. (2020), 'Study on the prediction of stock price based on the associated network model of LSTM', International Journal of Machine Learning and Cybernetics, vol. 11, pp. 1307–1317.

Ecer, F., Ardabili, S., Band, S.S. & Mosavi, A. (2020), 'Training Multilayer Perceptron with Genetic Algorithms and Particle Swarm Optimization for Modeling Stock Price Index Prediction', Entropy, vol. 22, no. 11, pp. 1239.

Faceli, K., Lorena, A.C., Gama, J., de Almeida, T.A. & de Carvalho, A.C.P.L.F. (2021), Inteligência Artificial - Uma Abordagem de Aprendizado de Máquina, 2nd ed, LTC, Rio de Janeiro.

Fama, E.F. (1970), 'Efficient Capital Markets: A Review of Theory and Empirical Work', The Journal of Finance, vol. 25, no. 2, pp. 383.

Ferreira, F.G.D.C., Gandomi, A.H. & Cardoso, R.T.N. (2021), 'Artificial Intelligence Applied to Stock Market Trading: A Review', IEEE Access, vol. 9, pp. 30898–30917.

Gu, Y., Shibukawa, T., Kondo, Y., Nagao, S. & Kamijo, S. (2020), 'Prediction of Stock Performance Using Deep Neural Networks', Applied Sciences, vol. 10, no. 22, pp. 8142.

Janková, Z., Jana, D.K. & Dostál, P. (2021), 'Investment Decision Support Based on Interval Type-2 Fuzzy Expert System', Engineering Economics, vol. 32, no. 2, p. 118–129.

Maroco, J. (2010), Análise Estatística: com utilização do SPSS, 3ª ed, Edições Sílabo, Lisboa.

Moon, K.S., Jun, S. & Kim, H. (2018), 'Speed up of the Majority Voting Ensemble Method for the Prediction of Stock Price Directions', Economic Computation and Economic Cybernetics Studies and Research, vol. 52, no. 1, pp. 215–228.

OSF Home (2021), Open Science Framework (OSF), OSF Home, disponível em: https://osf.io/?goodbye=true (acesso em: 01 maio 2021).

Page, M.J. et al. (2021a), 'The PRISMA 2020 statement: an updated guideline for reporting systematic reviews', BMJ, no. 71.

Page, MJ et al. 2021b, 'PRISMA 2020 explanation and elaboration: updated guidance and exemplars for reporting systematic reviews', BMJ, n. 160.

Qian, B. & Rasheed, K. (2007), 'Stock market prediction with multiple classifiers', Applied Intelligence, vol. 26, n. 1, pp. 25–33.

Ross, S.A., Westerfield, R.W., Jaffe, J. & Lamb, R. (2015), Administração Financeira, 10ª ed, AMGH Editora, Porto Alegre.

Rundo, F., Trenta, F., Stallo, A.L. & di Battiato, S. (2019), 'Machine Learning for Quantitative Finance Applications: A Survey', Applied Sciences, vol. 9, no. 24, pp. 5574.

Sheu, H.J. & Wei, Y.C. (2011), 'Effective options trading strategies based on volatility forecasting recruiting investor sentiment', Expert Systems with Applications, vol. 38, no. 1, pp. 585–596.

Shynkevich, Y., McGinnity, T.M., Coleman, S.A., Belatreche, A. & Li, Y. (2017), 'Forecasting price movements using technical indicators: Investigating the impact of varying input window length', Neurocomputing, vol. 264, pp. 71–88.

Taleb, N.N. (2020), Skin in the game: Hidden asymmetries in daily life, Random House.

Vijh, M., Chandola, D., Tikkiwal, V.A. & Kumar, A. (2020), 'Stock Closing Price Prediction using Machine Learning Techniques', Procedia Computer Science, vol. 167, pp. 599–606.


Recebido: 6 ago. 2022

Aprovado: 8 dez. 2022

DOI: 10.20985/1980-5160.2022.v17n3.1807

Como citar: Avelar, E.A., Campos, O.V., Orefici, J.B.P., Borges, S.L., Souza, A.A. (2022). Inteligência artificial e previsão de preços de ativos financeiros: uma revisão sistemática. Revista S&G 17, 3. https://revistasg.emnuvens.com.br/sg/article/view/1807