Please use this identifier to cite or link to this item:
https://hdl.handle.net/11000/4487
Análisis de catálogos robustos
desde la perspectiva de la
minería de reglas de asociación
Title: Análisis de catálogos robustos
desde la perspectiva de la
minería de reglas de asociación |
Authors: Lazcorreta Puigmartí, Enrique |
Tutor: Botella, Federico Fernández Caballero, Antonio |
Department: Departamentos de la UMH::Ciencia de Materiales, Óptica y Tecnología Electrónica |
Issue Date: 2017-09-08 |
URI: http://hdl.handle.net/11000/4487 |
Abstract:
Los datasets de clasificación son conjuntos de registros que recogen las
características de individuos clasificados de una población. Las características
son los valores que toma el individuo en ciertos atributos medibles.
La clasificación ha de ser única, un individuo pertenece a una y sólo una
de las clases en que se ha dividido la población
El análisis de un dataset de clasificación proporciona reglas de clasificación,
mediante las que se puede clasificar a un individuo del que sólo se
conozcan algunas de sus características.
Estos datasets contienen información sobre las relaciones existentes
entre las diferentes características de la población en estudio. Cuando el
dataset es una muestra representativa de la población, podemos dividir
esta información en dos tipos bien diferenciados:
1. Estructural Si un atributo está relacionado con otro, esta relación se
mostrará en los registros del dataset. Si no es posible que un individuo
tome el valor x en un atributo y el valor y en otro atributo
simultáneamente, no habrá ningún registro con ambos valores.
2. Probabilística Si el valor de un atributo aparece simultáneamente
con el valor de un atributo de forma frecuente en la población, en el
dataset ocurrirá lo mismo.
Cuando el dataset no es una muestra representativa, sólo contiene información estructural de la población. En este caso, se pueden eliminar los
duplicados que contenga el dataset para reducir sus dimensiones y poder
analizarlo mejor. Los duplicados sólo proporcionan información probabilística
con la que estimar frecuencias poblacionales. Si el dataset no contiene
este tipo de información, los duplicados sólo dan información estructural
redundante. Sólo es necesario mantener un representante de los
registros duplicados en el dataset.
Denominando catálogo al dataset reducido tras eliminar registros duplicados,
los catálogos son datasets de clasificación que sólo contienen información
sobre la estructura de la población en estudio. La minería de
reglas de asociación o la minería de reglas de clasificación asociativa, que
se basan en la información probabilística que tiene una muestra representativa
de una población, no pueden utilizarse del modo habitual cuando
se analiza un catálogo.
Esta tesis presenta una nueva metodología que permite descubrir información
sobre la estructura de la población contenida en los catálogos.
Al aplicarla sobre datasets difíciles de tratar con algoritmos basados en
minería de reglas de asociación, proporciona una colección de catálogos
que, utilizando menos atributos que el dataset original, contienen la misma
información sobre la estructura de la población en estudio.
|
Keywords/Subjects: Informática Matrices Bases de datos |
Knowledge area: CDU: Ciencias aplicadas: Ingeniería. Tecnología |
Type of document: info:eu-repo/semantics/doctoralThesis |
Access rights: info:eu-repo/semantics/openAccess |
Appears in Collections: Tesis doctorales - Ciencias e Ingenierías
|
???jsp.display-item.text9???