Deduplicazione, questa sconosciuta!

E’ pane quotidiano per chi lavora su database, ma per altri è un termine totalmente sconosciuto. Partiamo quindi

E’ pane quotidiano per chi lavora su database, ma per altri è un termine totalmente sconosciuto. Partiamo quindi dalla sua definizione: cosa significa deduplicazione dei dati? Come sempre Wikipedia corre in nostro aiuto.
Sostanzialmente la deduplica (o deduplicazione dei dati / duplicate check) consiste nell’identificazione di dati doppi, o presunti tali, all’interno di un unico database, a causa di inesattezze o incoerenze di vario tipo, e con successiva possibilità di ridurre questi “doppioni” alla loro forma univoca.
Questo trattamento dei dati segue il processo di normalizzazione, e consente di eliminare quelle ridondanze di informazioni tipiche di ogni database non normalizzato.

Facciamo un banale esempio per chiarire il concetto. Supponiamo che 3 impiegate di una stessa azienda ricevano da diverse fonti (da agenzia, da direzione e da call-center per esempio) la stessa anagrafica di un cliente nuovo, da salvare su database aziendale. Se le 3 impiegate fanno bene il loro lavoro, avremo la stessa anagrafica su database, ripetuta 3 volte, inutilmente. La deduplica applicata a questo caso consentirebbe di avere un’unica anagrafica corretta del cliente.
Consideriamo inoltre che l’inserimento manuale delle informazioni anagrafiche quali nome, cognome, ragione sociale, partita iva, indirizzo, sesso, etc…è soggetto ad un alto tasso di errore umano. Normalizzazione e deduplica consentono di azzerare questa “variabile umana”, riconducendo alla correttezza ed all’univocità dell’informazione trattata

Come agisce il processo di deduplicazione?

Grazie a specifici algoritmi, ad ogni elemento inserito viene assegnato preventivamente un codice univoco chiamato “match-code”. Il match code è una stringa di caratteri o numeri in cui vengono riportati o codificati parte degli elementi che compongono l’anagrafica (nome, cognome o ragione sociale, sesso, via, numero civico, CAP, località, nazione). Questo viene analizzato e valutato mediante specifici algoritmi: tale analisi consente di identificare e segnalare in output i record doppi con elevata affidabilità.
La deduplicazione è applicabile a persone fisiche e giuridiche e sfruttando la metodologia del “match-codifica” (match-coding), permette di eliminare doppi, individuare nuclei familiari, arricchire i dati interni, trattare e confrontare nella stessa elaborazione più archivi, anche con tracciati record disomogenei tra loro.

Disporre di database anagrafici corretti, completi, normalizzati e privi di dati duplicati è sinonimo di professionalità. Si evitano grossolani errori di corrispondenza (invii ripetuti di medesime comunicazioni agli stessi destinatari, oppure molteplici invii allo stesso nucleo famigliare) a beneficio dell’immagine aziendale e dell’ottimizzazione delle risorse interne aziendali. Ecco perché integrare una soluzione software di normalizzazione automatica consente notevoli benefici di immagine e di gestione, non solo vantaggi economici.
Se hai bisogno di effettuare un’analisi del tuo database al fine di eliminare i dati duplicati, oppure necessiti di uno strumento perfettamente integrabile con la tua realtà aziendale che supporti l’inserimento dati segnalando eventuali immissioni non necessarie (in quanto il record inserito è già archiviato), contattaci!

Lascia un commento