Please use this identifier to cite or link to this item: https://hdl.handle.net/11000/4487

Análisis de catálogos robustos desde la perspectiva de la minería de reglas de asociación


Thumbnail

View/Open:
 TD Lazcorreta Puigmartí, Enrique.pdf
2,35 MB
Adobe PDF
Share:
Title:
Análisis de catálogos robustos desde la perspectiva de la minería de reglas de asociación
Authors:
Lazcorreta Puigmartí, Enrique
Tutor:
Botella Beviá, Federico
Fernández Caballero, Antonio
Department:
Departamentos de la UMH::Ciencia de Materiales, Óptica y Tecnología Electrónica
Issue Date:
2017-09-08
Abstract:
Los datasets de clasificación son conjuntos de registros que recogen las características de individuos clasificados de una población. Las características son los valores que toma el individuo en ciertos atributos medibles. La clasificación ha de ser única, un individuo pertenece a una y sólo una de las clases en que se ha dividido la población El análisis de un dataset de clasificación proporciona reglas de clasificación, mediante las que se puede clasificar a un individuo del que sólo se conozcan algunas de sus características. Estos datasets contienen información sobre las relaciones existentes entre las diferentes características de la población en estudio. Cuando el dataset es una muestra representativa de la población, podemos dividir esta información en dos tipos bien diferenciados: 1. Estructural Si un atributo está relacionado con otro, esta relación se mostrará en los registros del dataset. Si no es posible que un individuo tome el valor x en un atributo y el valor y en otro atributo simultáneamente, no habrá ningún registro con ambos valores. 2. Probabilística Si el valor de un atributo aparece simultáneamente con el valor de un atributo de forma frecuente en la población, en el dataset ocurrirá lo mismo. Cuando el dataset no es una muestra representativa, sólo contiene información estructural de la población. En este caso, se pueden eliminar los duplicados que contenga el dataset para reducir sus dimensiones y poder analizarlo mejor. Los duplicados sólo proporcionan información probabilística con la que estimar frecuencias poblacionales. Si el dataset no contiene este tipo de información, los duplicados sólo dan información estructural redundante. Sólo es necesario mantener un representante de los registros duplicados en el dataset. Denominando catálogo al dataset reducido tras eliminar registros duplicados, los catálogos son datasets de clasificación que sólo contienen información sobre la estructura de la población en estudio. La minería de reglas de asociación o la minería de reglas de clasificación asociativa, que se basan en la información probabilística que tiene una muestra representativa de una población, no pueden utilizarse del modo habitual cuando se analiza un catálogo. Esta tesis presenta una nueva metodología que permite descubrir información sobre la estructura de la población contenida en los catálogos. Al aplicarla sobre datasets difíciles de tratar con algoritmos basados en minería de reglas de asociación, proporciona una colección de catálogos que, utilizando menos atributos que el dataset original, contienen la misma información sobre la estructura de la población en estudio.
Keywords/Subjects:
Informática
Matrices
Bases de datos
Type of document:
application/pdf
Access rights:
info:eu-repo/semantics/openAccess
Appears in Collections:
Tesis doctorales - Ciencias e Ingenierías



Creative Commons ???jsp.display-item.text9???