Machine Learning Aplicado em Séries Temporais em um Sistema de Integração de Dados

Palavras-chave: integração de dados, séries temporais, agrupamento.

Resumo

O processo de integração de dados é um método para extrair dados de diversas fontes, efetuar as devidas transformações, limpezas, normalizações e inserir os dados em tabelas. Esses dados são usados para processos decisórios pelos usuários em diversas áreas do conhecimento. Com o aumento da demanda por informações nos últimos anos, novas soluções estão sendo oferecidas a fim de tornar esse processo mais eficaz. No entanto, há escassez de processos que avaliem rotinas de processamento e as informações contidas nos logs dos processos de integração de dados. Nesse contexto, esse trabalho visa avaliar os dados contidos nas séries temporais desses processos aplicando a tarefa de agrupamento utilizando os algoritmos EM e K-means, que visa agrupar dados de acordo com seu grau de semelhança. Pretende-se com essa abordagem avaliar a eficácia das classes preexistes do processo de integração de dados, propor a criação de novas classes, além de apoiar especialistas no planejamento e dimensionamento de fluxos de processamento.

Biografia do Autor

João Emmanuel D' Alkmin Neves, UNICAMP

Cursando Doutorado em Tecnologia e Inovação pela Universidade Estadual de Campinas, possui Mestrado em
Tecnologia e Inovação pela Universidade Estadual de Campinas (2018). Ex-bolsista do Programa Ciência sem
Fronteiras (2013-2014). Tecnólogo em Análise e Desenvolvimento de Sistemas pela FATEC/Americana com
Graduação Sanduíche em Computer Science pela SUNY - State University of New York. Possui Graduação em
Design Gráfico pela UNIP. Experiência em programação mobile multiplataforma, computação nas nuvens,
internet das coisas e business intelligence. Desenvolve atividades de pesquisa sobre sistemas embarcados,
arquivística e preservação digital, algoritmos genéticos, inteligência artificial, data mining e machine learning.
Atua como analista desenvolvedor na IBM Brasil.

Referências

BANSAL, S. K. Towards a Semantic Extract-Transform-Load (ETL) framework for Big Data Integration. 2014 IEEE International Congress on Big Data, 2014.

IMDADULLAH , M. Time Series Analysis and Forecasting Time Series. Basic Statistics and Data Analysis. January 2014.

JAIN, A.; GARG, S.; SHARMA, N. The Management of Conformed ETL Architecture. International Journal of Computer Apllications (0975-8887), Volume 118 - No. 10, May 2015.

KALE, D. R.; APARADH, S. Y. A Study of a Detection and Elimination of Data Inconsistency in Data Integration. IJSRSET1621111 | Received: 20 February 2016 | Accepted: 03 March 2016 | January-February 2016 [(2)1: 532-535], 2016.

LENZERINI, M. Data Integration: A Theoretical Perspective. ACM PODS 2002, June 3-6. Madison, Wisconsin, USA, 2002.

PREMA, A.; SUJATHA, N.; PETHALAKSHMI, A. A Comparative analysis of ETL and Hyper ETL. International Journal of Emerging Trends & Technology in Computer Science (IJETTCS), Volume 2, Isse 6, November - December 2013, 2013.

ELGENDY, N.; ELRAGAL, A. Big Data Analytics: A Literature Review Paper. P. Perner (Ed.): ICDM 2014, LNAI 8557, pp. 214–227, 2014. Springer International Publishing Switzerland, 2014

FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From Data Mining to Knowledge Discovery in Databases. Artificial Intelligence Magazine, v. 17, n. 3, 1996.

BROWN, M. Data Mining as a Process. IBM Developer Works Library. December 11, 2012.

ANDRIENKO, G.; ANDRIENKO, N.; MLADENOV, M.; MOCK, M.; POELITZ, C. Extracting Events from Spatial Time Series. IEEE 14th International Conference on Information Visualisation, p. 48-53, 2010.

MEZER, A.; YOVEL, Y.; PASTERNACK, O.; GORNE, T.; ASSAF , Y. Cluster analysis of resting-state fmri time series. Neuroimage, v. 45, n. 4, p. 1117–1125, 2009.

OTRANTO, E. Identifying Financial Time Series with Similar Dynamic Conditional Correlation. Computational Statistics & Data Analysis 54, 115, 2010.

ESLING, P.; AGON, C.; RECHERCHE, I. D. Time-Series Data Mining. ACM Computing Surveys, v. 45, n. 1, 2012.

BROCKWELL, P. J.; DAVIS, R. A. Introduction to Time Series and Forecasting. 2nd Edition, Springer Texts in Statistics, 1997

OLIVEIRA, P. C. Séries Temporais: Analisar o Passado, Predizer o Futuro. Analysis, p. 3-6, 2007.

JUNG, Y. G.; KANG, M. S.; HEO, J. Clustering performance comparison using K-means and expectation maximization algorithms. Biotechnology & Biotechnological Equipment, 2014. Vol. 28, No. S1, S44_S48, http://dx.doi.org/10.1080/13102818.2014.949045.

JAIN, A. K.; MURTY, M. N.; FLYNN, P. J. Data Clustering: A Review. ACM Computing Surveys. 1999.
Publicado
2019-08-29
Como Citar
D’ ALKMIN NEVES, J. E.; CONTI, J.; CASARE, A. Machine Learning Aplicado em Séries Temporais em um Sistema de Integração de Dados. Revista Brasileira em Tecnologia da Informação, v. 1, n. 1, p. 35-47, 29 ago. 2019.
Seção
Artigos