Um framework para análise da relação entre tamanho e complexidade de conjuntos de dados

Palavras-chave: Bagging, Boosting, Medidas de Complexidade, Tamanho do Conjunto de Dados

Resumo

Na área de Reconhecimento de Padrões, um problema de classificação é dito complexo quando as observações de classes diferentes apresentam elevada semelhança. Ao reconhecer a estimativa de complexidade como um fator importante na obtenção de acurácia, a literatura propôs uma variedade de descritores de complexidade. Porém, não se sabe a sensibilidade desses descritores quanto a variação do tamanho dos conjuntos de treinamento. Neste trabalho, este comportamento foi analisado. Os descritores foram medidos em 20.800 subconjuntos criados a partir de: i) 26 problemas de classificação, ii) 2 geradores e iii) 4 tamanhos. Os resultados comprovaram que a sensibilidade dos descritores ao tamanho é uma realidade, sendo menos perceptíveis em F1, F2, L2, N4, L3, T1, D2 e D3. Já as métricas F3, F4, N1, N2 e N3 são mais influenciadas por variações no número de instâncias presentes no conjunto.

Downloads

Não há dados estatísticos.
Publicado
2021-05-18
Como Citar
[1]
dos Santos, M., Brun, A. e Silva, R. 2021. Um framework para análise da relação entre tamanho e complexidade de conjuntos de dados. Revista Brasileira de Computação Aplicada. 13, 2 (maio 2021), 1-15. DOI:https://doi.org/10.5335/rbca.v13i2.10898.
Seção
Artigo Original
Share |