Valutazione delle Capacità di Ragionamento dei Large Language Model:

la risoluzione di labirinti

Leonardo Randacio

Relatore: Matteo Ferrara

Task

Motivazioni

  • azioni discrete
  • successo oggettivo
  • memoria necessaria
  • pianificazione multi-step

Generazione dei labirinti

  • algoritmo Depth-First Search
  • partenza e uscita scelti casualmente
  • filtraggio labirinti 'facili'

Caratteristiche dei labirinti

  • sempre risolvibili
  • presenza di vicoli ciechi
  • unico percorso ideale

Profondità di vista

Celle Colorate

Parsing dell'output

Output del modello Azione estratta
I want to move East! east
I should move NORTH next. north
My next move is: s south
Let's move north, before exploring west better. west

Risultati 3×3

Modello % resp illegali % dir illegali # passi Risolti
llama3:8b 0.11 12.91 17.33 6/10
mistral:7b 0.00 33.33 36.86 7/10
deepseek-r1:8b 0.00 1.21 17.29 7/10
deepseek-r1:32b 0.11 8.76 12.25 8/10
deepseek-r1:70b 0.00 2.34 14.90 10/10

Esempi di risoluzioni

Risultati nxn

Dimensione Miglior configurazione osservata % risolti
3×3 deepseek-r1:70b 100%
4×4 deepseek-r1:70b 50%
5×5 deepseek-r1:70b 30%
6×6 deepseek-r1 10%

Osservazioni

  • Buoni risultati su labirinti 3x3
  • Rilevanza dimensione del modello
  • Limiti:
    • memoria
    • pianificazione
    • comprensione spaziale

Sviluppi futuri

  • confronto con modelli proprietari
  • utilizzo di modelli di dimensioni maggiori
  • aumentare il numero di labirinti
  • varianti del prompt o memoria esterna

Grazie per l’attenzione