Redblock: a tool for online deduplication on large datasets

Resumo

Online data deduplication aims to identify records that represent the same purpose on a continuous data flow environment. It must be able to process a range of information with high effectiveness and no delays. The purpose of this paper is to introduce a developed tool entitled Redblock, for real-time data deduplication, using a distributed platform for online processing combined with an Inverted Index. During the experimental evaluation, Redblock managed to provide good preliminary results in terms of efficiency and effectiveness in a database.

Biografia do Autor

Luan Félix Pimentel, Universidade Federal da Fronteira Sul
Acadêmico do curso de Ciência da Computação da Universidade Federal da Fronteira Sul (UFFS), Campus Chapecó/SC, atua como Lead Growth Engineer pela Emergent Research, situada na Irlanda. Foi contemplado com bolsa pela CAPES e a Higher Education Authority para intercâmbio pelo programa Ciência sem Fronteiras (Nº138/2013) na University of Limerick, também na Irlanda. Trabalhou como pesquisador assistente do The Irish Software Research Centre (LERO) exercendo atividades voltadas para a área de Engenharia de Software e editoração multimídia (2014). Durante o mesmo período contribuiu como voluntário da HOPE IN MOTION, organização sem fins lucrativos na Irlanda, onde prestou assistência educacional e cuidados a idosos e crianças com necessidades especiais. Atualmente é presidente do centro acadêmico do curso de Ciência da Computação da UFFS, membro diretor da empresa júnior FronteiraTec e membro fundador do GEPES (Grupo de Estudos e Pesquisa em Engenharia de Software), além de ser bolsista de iniciação científica e tecnológica em sua universidade
Guilherme Dal Bianco, Universidade Federal da Fronteira Sul
Guilherme Dal Bianco is an adjunct professor of computer science at the Federal University of Fronteira Sul (UFFS), Brazil. His research interests include data matching, data integration and Big Data.
Publicado
2017-07-28
Como Citar
[1]
Pimentel, L., Vicente, I. e Bianco, G. 2017. Redblock: a tool for online deduplication on large datasets. Revista Brasileira de Computação Aplicada. 9, 2 (jul. 2017), 125-134. DOI:https://doi.org/10.5335/rbca.v9i2.7143.
Seção
Artigos selecionados em Conferências - XIII ERBD (2017)
Share |