Machine Reading Comprehension
Stato dell'arte nella comprensione del testo da parte delle macchine: architetture, trend, dataset e limiti.
La Machine Reading Comprehension (MRC) è una delle frontiere più interessanti del Natural Language Processing. L’idea è semplice: dare a una macchina un testo e farle rispondere a domande su quel testo. In pratica, è tutto tranne che semplice.
A inizio 2026, i modelli più avanzati non si limitano più a estrarre frammenti dal testo — ragionano, collegano informazioni sparse, e sempre più spesso lavorano su input multimodali (testo, tabelle, immagini).
Architetture dominanti
Il cuore di tutto resta il Transformer. I modelli che definiscono lo stato dell’arte sono LLM generativi — GPT (OpenAI), Claude (Anthropic), Gemini (Google) — affiancati da alternative open-source come LLaMA e Qwen.
Il trend più rilevante è l’integrazione tra OCR e comprensione: leggere un documento e capirne il significato in un’unica architettura, senza pipeline separate. Un esempio è l’approccio dots.ocr, che unisce layout e contenuto.
Trend 2025–2026
Alcune direzioni che stanno emergendo:
- GSPO (Group Sequence Policy Optimization) — tecnica usata in modelli come Qwen3 per migliorare l’allineamento con le valutazioni umane durante l’addestramento.
- Multi-hop reasoning — i modelli collegano informazioni distribuite in documenti lunghi per rispondere a domande che richiedono più passaggi logici.
- Domain adaptation — strategie di fine-tuning mirate a domini specifici, con risultati significativi su benchmark non estrattivi come ARC e OpenBookQA.
Benchmark e metriche
I dataset usati per valutare questi modelli:
- SQuAD — il classico di Stanford. I modelli SOTA superano le performance umane, il che lo rende sempre meno discriminante.
- OmniDocBench — pensato per documenti complessi con layout articolati.
- RACE — comprensione del testo in contesto scolastico.
Le metriche standard restano F1-score ed Exact Match (EM), ma c’è una spinta crescente verso valutazioni che testino il ragionamento logico, non solo la correttezza letterale.
Limiti aperti
Non è tutto rose e fiori:
- Robustezza — basta una riformulazione o un’aggiunta fuorviante nel testo per far crollare l’accuratezza.
- Comprensione vs. pattern matching — il dibattito resta aperto: i modelli capiscono davvero, o sono ottimi a simulare comprensione?
- Costi — addestrare (e far girare) questi modelli richiede risorse enormi, sia in termini energetici che economici.
In sintesi
Il 2025–2026 segna un cambio di paradigma: da sistemi che estraggono a sistemi che ragionano. L’enfasi si sta spostando verso efficienza nell’inferenza, multimodalità e capacità di operare su documenti strutturati e non.