Questa ricerca approfondisce due ambiti principali: le proprietà critiche dei sistemi a lungo raggio e i meccanismi di apprendimento delle caratteristiche nelle reti neurali profonde.Nello studio dei sistemi a lungo raggio, abbiamo esaminato il modello di Ising ferromagnetico in una e due dimensioni, caratterizzato da interazioni della forma $J_{ij}\propto r_{ij}^{-(d+\sigma)}$. Utilizzando una nuova dinamica locale su una rete di Lévy dinamica (DLL), siamo stati in grado di riprodurre gli esponenti critici statici coerenti con la letteratura consolidata. Questo approccio localizzato offre una metodologia versatile per esplorare le proprietà dinamiche di vari modelli a lungo raggio. In particolare, la nostra analisi del tempo di rilassamento alla temperatura critica ha rivelato sfumature nella relazione tra l'esponente dinamico $z$ e il parametro di decadimento $\sigma$, suggerendo una possibile disparità tra le proprietà critiche dinamiche e di equilibrio. Inoltre, grazie alla versatilità della nostra strategia (DLL), siamo stati in grado di condurre lavori preliminari nello studio delle proprietà critiche del modello Long Range $XY$.Passando alle reti neurali profonde, abbiamo esplorato le disparità nell'apprendimento delle caratteristiche tra le reti completamente connesse (FCN) e le architetture convoluzionali (CNNs). Studi empirici su reti completamente connesse nel regime di larghezza infinita hanno rivelato un plateau nel miglioramento delle prestazioni, attribuito alla natura statica del loro kernel durante l'addestramento. Questo suggerisce che qualsiasi apprendimento intrinseco delle caratteristiche in tali strutture FCN ha un impatto limitato sulla generalizzazione. Al contrario, le architetture convoluzionali (CNNs), in particolare nell'impostazione a larghezza finita, hanno mostrato prestazioni superiori. Il nostro quadro teorico per le reti a singolo strato nascosto chiarisce questa disparità. Mentre le prestazioni di una FCN a larghezza infinita possono essere replicate dalla sua controparte a larghezza finita usando specifici priori gaussiani, le CNNs con un singolo strato nascosto convoluzionale subiscono un diverso processo di rinormalizzazione del kernel. A differenza degli aggiustamenti globali osservati nelle reti FC, le CNNs sperimentano una rinormalizzazione localizzata, consentendo la selezione adattiva dei componenti dipendenti dai dati per le previsioni. Questa distinzione enfatizza l'elevata capacità di apprendimento delle caratteristiche presente nelle CNNs sovraparametrizzate, che non si osserva in architetture FC equivalenti.Collettivamente, questi studi gettano luce sulla profonda influenza della topologia in sistemi diversi, che vanno dal comportamento dei modelli fisici a lungo raggio ai complessi processi di estrazione delle caratteristiche nelle architetture neurali.
Unraveling the role of topology in complex long range systems and deep neural networks / Aiudi, R.. - (2024).
Unraveling the role of topology in complex long range systems and deep neural networks
AIUDI, RICCARDO
2024-01-01
Abstract
Questa ricerca approfondisce due ambiti principali: le proprietà critiche dei sistemi a lungo raggio e i meccanismi di apprendimento delle caratteristiche nelle reti neurali profonde.Nello studio dei sistemi a lungo raggio, abbiamo esaminato il modello di Ising ferromagnetico in una e due dimensioni, caratterizzato da interazioni della forma $J_{ij}\propto r_{ij}^{-(d+\sigma)}$. Utilizzando una nuova dinamica locale su una rete di Lévy dinamica (DLL), siamo stati in grado di riprodurre gli esponenti critici statici coerenti con la letteratura consolidata. Questo approccio localizzato offre una metodologia versatile per esplorare le proprietà dinamiche di vari modelli a lungo raggio. In particolare, la nostra analisi del tempo di rilassamento alla temperatura critica ha rivelato sfumature nella relazione tra l'esponente dinamico $z$ e il parametro di decadimento $\sigma$, suggerendo una possibile disparità tra le proprietà critiche dinamiche e di equilibrio. Inoltre, grazie alla versatilità della nostra strategia (DLL), siamo stati in grado di condurre lavori preliminari nello studio delle proprietà critiche del modello Long Range $XY$.Passando alle reti neurali profonde, abbiamo esplorato le disparità nell'apprendimento delle caratteristiche tra le reti completamente connesse (FCN) e le architetture convoluzionali (CNNs). Studi empirici su reti completamente connesse nel regime di larghezza infinita hanno rivelato un plateau nel miglioramento delle prestazioni, attribuito alla natura statica del loro kernel durante l'addestramento. Questo suggerisce che qualsiasi apprendimento intrinseco delle caratteristiche in tali strutture FCN ha un impatto limitato sulla generalizzazione. Al contrario, le architetture convoluzionali (CNNs), in particolare nell'impostazione a larghezza finita, hanno mostrato prestazioni superiori. Il nostro quadro teorico per le reti a singolo strato nascosto chiarisce questa disparità. Mentre le prestazioni di una FCN a larghezza infinita possono essere replicate dalla sua controparte a larghezza finita usando specifici priori gaussiani, le CNNs con un singolo strato nascosto convoluzionale subiscono un diverso processo di rinormalizzazione del kernel. A differenza degli aggiustamenti globali osservati nelle reti FC, le CNNs sperimentano una rinormalizzazione localizzata, consentendo la selezione adattiva dei componenti dipendenti dai dati per le previsioni. Questa distinzione enfatizza l'elevata capacità di apprendimento delle caratteristiche presente nelle CNNs sovraparametrizzate, che non si osserva in architetture FC equivalenti.Collettivamente, questi studi gettano luce sulla profonda influenza della topologia in sistemi diversi, che vanno dal comportamento dei modelli fisici a lungo raggio ai complessi processi di estrazione delle caratteristiche nelle architetture neurali.| File | Dimensione | Formato | |
|---|---|---|---|
|
Thesis_phd_aiudi.pdf
Open Access dal 02/04/2025
Licenza:
Creative commons
Dimensione
9.35 MB
Formato
Adobe PDF
|
9.35 MB | Adobe PDF | Visualizza/Apri |
I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.


