Previous slide
Next slide
Toggle fullscreen
Open presenter view
Valutazione delle Capacità di Ragionamento dei Large Language Model:
la risoluzione di labirinti
Leonardo Randacio
Relatore: Matteo Ferrara
Task
Motivazioni
azioni discrete
successo oggettivo
memoria necessaria
pianificazione multi-step
Generazione dei labirinti
algoritmo Depth-First Search
partenza e uscita scelti casualmente
filtraggio labirinti 'facili'
Caratteristiche dei labirinti
sempre risolvibili
presenza di vicoli ciechi
unico percorso ideale
Profondità di vista
Celle Colorate
Parsing dell'output
Output del modello
Azione estratta
I want to move
East
!
east
I should move
NORTH
next.
north
My next move is:
s
south
Let's move north, before exploring
west
better.
west
Risultati 3×3
Modello
% resp illegali
% dir illegali
# passi
Risolti
llama3:8b
0.11
12.91
17.33
6/10
mistral:7b
0.00
33.33
36.86
7/10
deepseek-r1:8b
0.00
1.21
17.29
7/10
deepseek-r1:32b
0.11
8.76
12.25
8/10
deepseek-r1:70b
0.00
2.34
14.90
10/10
Esempi di risoluzioni
Risultati nxn
Dimensione
Miglior configurazione osservata
% risolti
3×3
deepseek-r1:70b
100%
4×4
deepseek-r1:70b
50%
5×5
deepseek-r1:70b
30%
6×6
deepseek-r1
10%
Osservazioni
Buoni risultati su labirinti 3x3
Rilevanza dimensione del modello
Limiti:
memoria
pianificazione
comprensione spaziale
Sviluppi futuri
confronto con modelli proprietari
utilizzo di modelli di dimensioni maggiori
aumentare il numero di labirinti
varianti del prompt o memoria esterna
Grazie per l’attenzione