Please use this identifier to cite or link to this item: https://hdl.handle.net/11000/39510

Deep learning and complex systems: Structure, applications and limitations


thumbnail_pdf
View/Open:
 TESIS SF Adrian Hernandez Martínez.pdf

4,2 MB
Adobe PDF
Share:
Title:
Deep learning and complex systems: Structure, applications and limitations
Authors:
Hernández Rodríguez, Adrián
Tutor:
Amigó García, José María
Editor:
Universidad Miguel Hernández
Department:
Departamentos de la UMH::Estadística, Matemáticas e Informática
Issue Date:
2025
URI:
https://hdl.handle.net/11000/39510
Abstract:
El desarrollo de los modelos de deep learning y el aumento de las capacidades computacionales han permitido mejorar notablemente el rendimiento de tareas específicas y generales antes atribuidas solo a la inteligencia humana. Estos modelos, siendo el más básico una red neuronal, son ejemplos específicos de programas diferenciables: Un programa diferenciable es una secuencia de transformaciones de tensores cuyos parámetros son diferenciables y se ajustan para minimizar el error de la tarea a realizar. La programación diferenciable, como generalización del deep learning, es un marco lo suficientemente expresivo para aproximar cualquier función y lo suficientemente flexible para incorporar la estructura del problema o tarea a resolver. Para resolver un problema concreto es entonces necesario restringir la estructura del programa diferenciable según las características del problema (dependencia temporal, invarianzas, etc.) En paralelo, el campo de los sistemas complejos (es decir, sistemas que contienen una gran cantidad de variables que interactúan entre sí de formas no triviales) ha producido recientemente muchos avances que pueden contribuir al Deep learning, sirviendo de fuente de inspiración de nuevos modelos y estructuras y siendo los candidatos ideales para aplicar las últimas técnicas de la programación diferenciable. El objetivo de esta Tesis es poder relacionar y avanzar estos dos campos a través de sus sinergias, técnicas y estructuras comunes. Primero, hemos analizado los modelos de redes complejas usados para describir el procesamiento de la información y la relación entre las neuronas en el cerebro. Hemos identificado que usar una matriz con las conexiones estructurales entre neuronas ha sido un enfoque revolucionario, pero tiene sus limitaciones. En el cerebro, o cualquier sistema complejo de procesamiento de información, las relaciones entre sus unidades básicas de información (neuronas), no son solo conexiones estructurales que no dependen del estado de cada neurona. En un sistema complejo de procesamiento de información, sus unidades están relacionadas de diversas formas y hay una continua dependencia entre sus relaciones y el estado de las unidades. Hemos propuesto las redes adaptativas multicapa, en las que diferentes capas paralelas interactúan de manera adaptativa con los nodos, como el marco apropiado para explicar el procesamiento de la información neuronal. Para ello extendemos el formalismo matricial que relaciona cada par de nodos al formalismo tensorial de rango cuatro, que relaciona un nodo de una capa con uno de cualquier otra capa, teniendo en cuenta también la interacción entre la dinámica de cada nodo y la sus conexiones con otros nodos. Esta primera contribución de la Tesis nos demuestra cuán rico y variado es el comportamiento de los sistemas complejos y por qué es importante usar los sistemas complejos como fuente de inspiración y aplicación para el deep learning. Siguiendo con la relación entre deep learning y sistemas complejos, la forma más útil y completa de estudiar los diferentes modelos de deep learning es a través de la programación diferenciable. Definimos formalmente la programación diferenciable a partir de un grafo dirigido acíclico que se implementa en tiempo de ejecución y cuyos parámetros se ajustan para minimizar el error de la tarea. Dado que la programación diferenciable permite implementar cualquier secuencia de transformaciones diferenciables de tensores, es necesario poder restringir la estructura del programa para adaptarlo a la tarea a realizar. Para ello proponemos varias características como relaciones entre tensores, invarianzas o simetrías, combinación de módulos. . . y las usamos para explicar los modelos más recientes de deep learning. Aplicamos estos conceptos a un problema de clasificación de publicaciones científicas relacionadas mediante un grafo usando diferentes modelos de Deep learning como redes neuronales, graph neural networks y auto-atención. La conclusión es que, cuando los datos de entrenamiento son limitados, es mejor usar modelos que incorporen la estructura del problema. Discutimos también una gran limitación inherente de la programación diferenciable, que minimiza el error de predicción de los datos de entrenamiento pero es incapaz de generar nueva información. Para profundizar en la relación entre deep learning y sistemas complejos, analizamos uno de los modelos más relevantes y recientes de programas diferenciables, los mecanismos de atención, y sus aplicaciones a los sistemas complejos. Para ello describimos los principales aspectos, ventajas y modos de operación de la atención diferenciable. Presentamos las principales técnicas de atención como los modelos seq2seq, los Transformers y las redes de memoria, analizando por qué representan un avance en el deep learning. Finalmente, ilustramos algunos usos interesantes de estas técnicas para modelar sistemas complejos demostrando que los mecanismos de atención permiten modelar ciertas características típicas de los sistemas complejos como la integración de diferentes partes, el razonamiento secuencial o las dependencias temporales de rango largo. En este punto, en el que hemos definido nuevas estructuras de sistemas y redes complejas y hemos analizado la programación diferenciable, sus características, modelos específicos y aplicación a los sistemas complejos, la pregunta que nos surge es: ¿qué limitaciones inherentes tienen estos modelos y cómo se pueden superar? Los modelos diferenciables ajustan los parámetros del programa para minimizar el error de predicción de los datos de entrenamiento. Este modo inherente de funcionamiento los hace ideales para modelar estadísticamente los datos de entrenamiento, pero impide que se genere nueva información y conocimiento no visto anteriormente. Para analizar si se pueden superar estas limitaciones, definimos el marco de las estrategias de aprendizaje y evaluamos si los LLM (grandes modelos de lenguaje), la técnica más reciente y disruptiva basada en los mecanismos de atención, pueden implementar dichas estrategias y generar nuevo conocimiento. Estas estrategias de aprendizaje consisten en modelos de deep learning que interaccionan con nuevos datos y con el entorno para generar nuevo conocimiento. Definimos una estrategia concreta que consiste en una serie de actividades secuenciales para predecir los precios del petróleo, obteniendo los datos y definiendo, mejorando y complementando un modelo de predicción. Concluimos que los LLM pueden implementar correctamente actividades típicas con presencia en los datos de entrenamiento, pero no tienen una capacidad general para definir estrategias de aprendizaje de una manera lógica y coherente. De hecho, el rendimiento de los LLM baja significativamente cuando intentan implementar actividades más creativas que no coinciden con actividades típicas de los datos de entrenamiento. Finalmente, discutimos el compromiso generador-verificador de los LLMs y sugerimos que su solución parcial pasa por la preparación cuidadosa de los datos de entrenamiento, el uso de verificadores externos y la intervención humana. Estas condiciones alejan a los LLMs de la inteligencia artificial general.
The development of deep learning models and the increase in computational capabilities have made it possible to significantly improve the performance of specific and general tasks previously attributed only to human intelligence. These models, the most basic being a neural network, are specific examples of differentiable programs: A differentiable program is a sequence of tensor transformations whose parameters are differentiable and are adjusted to minimize the error of the performed task. Differentiable programming, as a generalization of deep learning, is a framework expressive enough to approximate any function and flexible enough to incorpórate the structure of the problem or task to be solved. To solve a specific problem it is then necessary to restrict the structure of the differentiable program according to the characteristics of the problem (time dependence, invariances, symmetries, etc.) In parallel, the field of complex systems (i.e., systems that contain a large number of variables that interact with each other in non-trivial ways) has recently produced many advances that can contribute to deep learning, both as a source of inspiration for new structures and as ideal candidates to apply the latest techniques of differentiable programming. The objective of this Thesis is to relate and advance these two fields through their synergies, techniques and common structures. First, we have analyzed the complex network models used to describe infor1. summary mation processing and the relationship between neurons in the brain. We have identified that using a matrix with the structural connections between neurons has been a revolutionary approach, but it has its limitations. In the brain, or any complex information processing system, the relationships between its basic information units (neurons) are not just structural connections that do not depend on the state of each neuron. In a complex information processing system, its units or nodes are related in various ways and there is a continuous dependence between their relationships and the state of the units. We have proposed multilayer adaptive networks, in which different parallel ayers adaptively interact with nodes, as the appropriate framework to explain neural information processing. To do this, we extend the matrix formalism that relates each pair of nodes to the rank four tensor formalism, which relates a node from one layer to another node from any other layer, also taking into account the interaction between the dynamics of each node and its connections with other nodes. This first contribution of the Thesis shows us how rich and varied the behavior of complex systems is and why it is important to use complex systems as a source of inspiration and application for deep learning. Following with the relationship between deep learning and complex systems, the most useful and complete way to study the different deep learning models is through differentiable programming. We formally define differentiable programming based on an acyclic directed graph that is implemented at runtime and whose parameters are adjusted to minimize the task error. Since differentiable programming implements any sequence of differentiable tensor transformations, it is necessary to be able to restrict the structure of the program to adapt it to the performed task. To do this, we propose several characteristics such as relationships between tensors, invariances or symmetries, combination of modules... and we use them to explain the most recent deep learning models. We apply these concepts to a problem of classifying scientific publications using different deep learning models such as neural networks, graph neural networks and self-attention. The bottom line is that, when training data is limited, it is better to use models that incorporate the structure of the problem. We also discuss a major inherent limitation of differentiable programming, namely, that summary it minimizes the prediction error of the training data but is unable to generate new information. To delve deeper into the relationship between deep learning and complex systems, we analyze attention mechanisms, the most relevant and recent models of differentiable programming, and their applications to complex systems. To this end, we describe the main aspects, advantages and modes of operation of differentiable attention.We present the main attention techniques such as seq2seq models, Transformers and memory networks, analyzing why they represent an advance in deep learning. Finally, we illustrate some interesting uses of these techniques to model complex systems by demonstrating that attention mechanisms allow modeling certain typical characteristics of complex systems such as the integration of different parts, sequential reasoning or long-range temporal dependencies. At this point, where we have defined new structures of complex systems and networks and have analyzed differentiable programming, its characteristics, specific models and application to complex systems, the question that arises is what inherent limitations do these models have and how can they be overcome? Differentiable models adjust program parameters to minimize the prediction error of the training data. This inherent mode of operation makes them ideal for statistically modeling training data, but prevents the generation of new information and knowledge not previously seen. To analyze whether these limitations can be solved, we define the framework of learning strategies and evaluate whether LLMs (Large Language Models), the most recent and disruptive techniques based on attention mechanisms, can implement such strategies and generate new knowledge. These learning strategies consist of deep learning models that interact with new data and the environment to generate new knowledge. We define a concrete strategy that consists of a series of sequential activities to predict oil prices. The activities are to obtain the data, define the model and improve and complement the model. We conclude that LLMs can correctly implement typical activities with presence in the training data, but do not have a general ability to define learning strategies in a logical and coherent way. In fact, LLM performance drops significantly when you try to implement more creative activities that do not match typical activities in the training data. Finally, we discuss the generator-verifier trade-off of LLMs and suggest that its partial solution involves the careful preparation of training data, the use of external verifiers and human intervention. These conditions move LLMs away from general artificial intelligence.
Keywords/Subjects:
deep learning
programación diferenciable
sistemas complejos
mecanismos de atención
grandes modelos de lenguaje
differentiable programming
complex systems
attention mechanisms
large language models (LLM)
Knowledge area:
CDU: Ciencias puras y naturales: Matemáticas
CDU: Generalidades.: Ciencia y tecnología de los ordenadores. Informática.
Type of document:
info:eu-repo/semantics/doctoralThesis
Access rights:
info:eu-repo/semantics/openAccess
Attribution-NonCommercial-NoDerivatives 4.0 Internacional
Appears in Collections:
Tesis doctorales - Ciencias e Ingenierías



Creative Commons ???jsp.display-item.text9???