A genetic algorithm using Calinski-Harabasz index for automatic clustering problem

  • Suzane Pereira Lima Federal Rural University of Rio de Janeiro
  • Marcelo Dib Cruz Federal Rural University of Rio de Janeiro https://orcid.org/0000-0002-0380-144X

Resumo

O agrupamento de dados é uma técnica que busca representar um conjunto de dados em grupos de acordo com as suas semelhanças. Algoritmos de agrupamento geralmente assumem que o número de grupos é conhecido. Entretanto, o número ideal de grupos é desconhecido para muitas aplicações. Este tipo de problema é conhecido como Agrupamento Automático. Existem diversas funções para a avaliação de soluções e sabe-se que a qualidade de um resultado é influenciada pela função escolhida. A partir disto, neste artigo é descrito um algoritmo genético para a resolução do agrupamento automático utilizando o índice Calinski-Harabasz como forma de avaliação. Também são apresentadas comparações dos resultados com outros algoritmos da literatura. Numa primeira análise, são encontrados valores de aptidão equivalentes ou maiores em pelo menos 58% dos casos para cada comparação. Consegue-se encontrar o número certo de grupos ou valores próximos em 33 casos de 48. Numa outra comparação, alguns valores de aptidão são inferiores, mesmo com o número de grupos correto, porém graficamente é visto que os particionamentos são adequados. Assim, observa-se que nossa proposta é justificável e aperfeiçoamentos podem ser estudados para os casos onde não é encontrado tal número correto.

Downloads

Não há dados estatísticos.
Publicado
2020-09-17
Como Citar
[1]
Lima, S. e Cruz, M. 2020. A genetic algorithm using Calinski-Harabasz index for automatic clustering problem. Revista Brasileira de Computação Aplicada. 12, 3 (set. 2020), 97-106. DOI:https://doi.org/10.5335/rbca.v12i3.11117.
Seção
Artigo Original
Share |