Catalogazione e naming prodotti con AI

Pulizia dei dati di un catalogo prodotti: metodo e priorità

Come impostare un progetto di data cleaning per un catalogo prodotti industriale B2B. Fasi, priorità, strumenti e indicatori di qualità per portare un catalogo disorganizzato a uno standard operativo.

Risposta diretta

Un progetto di pulizia catalogo non è un'attività IT one-time: è un progetto di governance dei dati con un responsabile, regole chiare e un processo di mantenimento. Senza governance continuativa, il catalogo torna disorganizzato in 12–18 mesi.

La pulizia di un catalogo prodotti ha la fama di essere un'attività noiosa, lenta e mai completamente terminata. La fama è meritata, ma le ragioni per cui spesso si trascina senza fine sono evitabili con un approccio strutturato e una governance chiara fin dall'inizio.

Fase 1: analisi della qualità attuale

Prima di toccare qualsiasi dato, serve capire la situazione reale. L'analisi di qualità risponde a: quanti articoli ci sono? Quanti sono attivi (usati negli ultimi 24 mesi)? Qual è la completezza media degli attributi chiave (nome, unità di misura, categoria, attributi tecnici)? Quanti potenziali duplicati esistono?

Questa analisi, condotta su un export del sistema ERP, richiede 1–2 giorni di lavoro con strumenti standard (Excel, Python, SQL) e produce una dashboard di qualità che diventa il punto di riferimento per tutto il progetto. Senza questa baseline, è impossibile misurare il progresso.

Fase 2: deduplicazione

La deduplicazione identifica gli articoli registrati più volte con codici diversi. Questo è il problema che ha il più alto impatto operativo — un acquisto su un duplicato non consolida gli stock dell'articolo corretto — e che raramente viene risolto completamente perché richiede decisioni sul quale duplicato "sopravvive" e come vengono migrati i movimenti storici.

L'approccio AI accelera significativamente l'identificazione: un modello di embedding trova i candidati duplicati, che vengono poi confermati da un revisore umano. Il tasso di falsi positivi è basso su cataloghi industriali dove le descrizioni sono tecniche e specifiche.

Fase 3: normalizzazione e completamento degli attributi

Una volta eliminati i duplicati, si normalizzano gli attributi: unità di misura uniformi (tutti i pesi in kg, non mix di kg e g), valori categoriali standardizzati (un solo modo di scrivere "Acciaio Inox 316"), attributi mancanti completati. Per i cataloghi di prodotti fisici con dati tecnici, un LLM può completare molti attributi mancanti a partire dalla descrizione testuale — con accuratezza sufficiente per il 70–80% dei casi, da validare per il resto.

Fase 4: governance per il mantenimento

Il passo più spesso dimenticato. Senza governance, il catalogo si ridisorganizza nel giro di 12–18 mesi: nuovi articoli vengono inseriti senza seguire le regole, gli attributi di nuovi prodotti vengono compilati con lo stesso approccio di prima. La governance minima richiede: un responsabile nominato della qualità del catalogo; una checklist di inserimento per ogni nuovo articolo; un processo di revisione periodica (trimestrale) per identificare inconsistenze accumulate; un tool di monitoring della qualità che mostri tendenze nel tempo.

Domande frequenti

Da dove si inizia la pulizia di un catalogo prodotti disorganizzato?

Dall'analisi della qualità attuale: quanti articoli esistono, quanti sono effettivamente attivi (venduti o acquistati negli ultimi 24 mesi), quanti hanno una descrizione completa, quanti hanno attributi tecnici compilati. Questo censimento, che può essere fatto in Excel o con strumenti di analisi dati, definisce la dimensione reale del problema e permette di prioritizzare gli interventi.

Come si identificano i duplicati in un catalogo ERP?

Con una combinazione di tecniche: matching esatto su codici articolo fornitore (EAN, codice fornitore); fuzzy matching su descrizioni (articoli con nomi simili ma non identici); clustering su attributi tecnici (articoli con stesse dimensioni e stesso materiale ma codici diversi). I migliori strumenti per questo in Python sono recordlinkage, fuzzywuzzy e sentence-transformers per l'approccio vettoriale.

Quanto tempo richiede la pulizia di un catalogo da 5.000 articoli?

Con un approccio AI-assistito: 6–10 settimane per la fase di analisi e pulizia, più 4–8 settimane per la fase di validazione e implementazione nel sistema. I fattori che allungano i tempi sono la qualità iniziale dei dati (meno dati strutturati = più lavoro manuale) e la disponibilità dei revisori tecnici per validare i risultati.

Vuoi capire se ha senso per la tua azienda?

Parliamo di contesto, non di soluzioni preconfezionate.

Contattaci →