Título : Procesamiento del lenguaje natural: Desarrollo de aplicaciones para inteligencia competitiva |
Autor : Ortuño Lorente, José Manuel |
Tutor: Sainz-Pardo Auñón, José Luis |
Editor : Universidad Miguel Hernández de Elche |
Departamento: Departamentos de la UMH::Estadística, Matemáticas e Informática |
Fecha de publicación: 2019-12 |
URI : http://hdl.handle.net/11000/8272 |
Resumen :
La combinación entre el crecimiento que ha experimentado la red durante los últimos años y los avances en la capacidad de computación de los ordenadores han desembocado en una nueva revolución de la información. Cada día en la red se generan volúmenes enormes de datos de toda clase. La mayor parte de ellos son desaprovechados y almacenados en grandes servidores en espera de la aparición de una forma de aprovecharlos y explotarlos. Dentro de estos datos, encontramos que muchos de ellos son textos con información que podría ser valiosa para multitud de usos, esa es la razón por la cual cada día surgen nuevos métodos para analizar y procesarlos.
Al análisis y procesamiento de texto se le conoce como análisis de texto. Una de las tareas que se desarrollan en el análisis de texto es la organización y clasificación de textos.
Existen diversas herramientas y técnicas para abordar esta cuestión como las redes neuronales o los árboles de decisión, entre otros, pero en el presente trabajo nos centraremos en una herramienta conocida como clasificador Naïve Bayes. Esta herramienta destaca por su sencillez y los buenos resultados frente a otras técnicas como las mencionadas anteriormente.
El objetivo de este trabajo es doble: por una parte, nos centraremos en el desarrollo de una aplicación que nos permita clasificar cualquier tipo de texto del que desconozcamos su categoría en otras categorías conocidas mediante la aplicación del clasificador Naïve Bayes; y por otra parte, iremos más allá desarrollando un crawler que, a partir de una serie de enlaces aportados por el usuario, identifique las URLs que contiene las mismas creando copias del texto plano de las sucesivas páginas para posteriormente clasificarlas.
A lo largo del presente trabajo se expondrá todo el marco teórico que envuelve a dichas herramientas con el objetivo de comprender tanto la capacidad que tienen dichas técnicas como las limitaciones que presentan las mismas. Además, exploraremos sus aplicaciones prácticas. Las aplicaciones desarrolladas serán mostradas en profundidad, con una explicación sobre sus características, estructura y código, para posteriormente
5
someterla a pruebas con datos reales, clasificando noticias, la detección de Spam en mensajes de SMS y la obtención de un listado de webs que traten una categoría dada. El objeto de estas pruebas no será otro que el de estudiar el rendimiento de las aplicaciones y su capacidad para hacer clasificaciones correctas.
|
Palabras clave/Materias: clasificación de textos clasificador Naïve Bayes procesamiento de lenguaje natural Python crawler scraping |
Área de conocimiento : CDU: Ciencias sociales: Demografía. Sociología. Estadística CDU: Ciencias aplicadas: Gestión y organización. Administración y dirección de empresas. Publicidad. Relaciones públicas. Medios de comunicación de masas |
Tipo de documento : info:eu-repo/semantics/bachelorThesis |
Derechos de acceso: info:eu-repo/semantics/openAccess |
Aparece en las colecciones: TFG - Estadística Empresarial
|