PoloICT

KeXtract

Filiera Intelligenza Artificiale

Provided by

Kedos
Kedos
Polo ICT

Cos'è

KeXtract ed è un Agentic Document Extractor, disponibile come API per sviluppare o integrare l’estrazione di informazioni mediante interrogazione in linguaggio naturale da immagini e documenti (es. scansioni, foto…).

Un tool per estrarre informazioni puntuali da documenti non strutturati, per esempio estrarre le righe di dettaglio e il destinatario di una fattura a partire da scansioni di fatture eterogenee.
Per raggiungere questo risultato, che si distanzia molto dai classici OCR, KeXtract combina modelli di intelligenza artificiale che analizzano la struttura dei documenti con modelli linguistici che comprendono e interpretano il contenuto.

A questo indirizzo è possibile trovare “technical report”
https://www.kextract.it/wp-content/uploads/2026/02/PUB-KeXtract_White_Paper.pdf

Mentre a questa pagina si possono reperire tutte le informazioni per iniziare a utilizzare il tool.
https://www.kextract.it/risorse-kextract/

Provided by

Kedos
Entra in contatto
Red triangle Red triangle
Lente

Problema

I primi sistemi di estrazione documentale si affidavano ad approcci basati su template e motori OCR tradizionali. Questi sistemi impiegavano euristiche basate su regole, limitando la loro applicabilità a classi di documenti ben definite. Le principali limitazioni includono fragilità di fronte alla variabilità documentale, difficoltà con annotazioni manoscritte, approcci rigidi basati su template, mancanza di supporto multilingue nativo, e assenza di flessibilità per requisiti specifici del dominio.

Lampadina

Soluzione

Lampadina

KeXtract impiega una pipeline di preprocessing basata su modelli di semantic segmentation, che identifica e clusterizza i contenuti del documento, categorizzando le diverse regioni. Si tratta di modelli discriminativi che eseguono esclusivamente classificazioni e raggruppamenti degli elementi visivi. Un aspetto cruciale dell’architettura è che il preprocessing non si limita alla segmentazione: il sistema ricostruisce un nuovo documento o immagine ottimizzata specificamente per essere processata dall’architettura transformer dell’LLM. Questo documento ricostruito contiene solo le regioni testuali rilevanti, presentate in un formato ottimale per il processing da parte del modello linguistico, riducendo drasticamente rumore e variabilità contestuale.
Il training si basa su un dataset che combina documenti proprietari e di pubblico dominio, includendo moduli strutturati, ricevute con layout variabili, documenti tecnici, testo manoscritto e stampato, e documenti con vari livelli di degradazione.

Maturità soluzione

Disponibile sul mercato