Análise de diferentes métricas para agrupamento de dados utilizando um algoritmo de busca paralela baseado em organismos simbióticos

Sandro Roberto Loiola de Menezes, Mateus Boiani, Rafael Stubs Parpinelli

Resumo


Este artigo propõe uma abordagem para realizar agrupamento de dados utilizando o Algoritmo de Busca por Organismos Simbióticos (SOS) em uma arquitetura Hadoop MapReduce, chamado de MRCSOS. O algoritmo SOS é responsável pela exploração do espaço de busca enquanto a arquitetura Hadoop provê escalabilidade através do paralelismo. A principal contribuição deste trabalho é a correlação das métricas de pureza, entropia e diversidade genotípica utilizando diferentes métricas de agrupamento de dados durante o processo de otimização. Os resultados obtidos em três bases de dados mostraram que algumas métricas de agrupamento não mantém a qualidade do agrupamento durante toda otimização. Nas métricas analisadas, a função Silhueta (F5) foi a melhor de todas. Esta função consegue manter o melhor agrupamento durante todo processo de otimização. Além disto, o algoritmo MRCSOS com a função F5 obteve os melhores resultados, ou pelo menos competitivos, quando comparados com outras abordagens existentes na literatura.

Palavras-chave


Agrupamento de Dados; Algoritmo de Busca por Organismos Simbióticos; Algoritmos Bio-inspirados; Hadoop MapReduce

Texto completo:

PDF


DOI: https://doi.org/10.5335/rbca.v10i2.7651