10 domande sul Data Mining a Roberto Bello

Ho il piacere di iniziare questa nuova sezione dedicata alle interviste ad esperti, dei settori che tratto, facendo un pò di domande che riguardano il Data Mining a Roberto Bello.

Chi  è Roberto Bello ?

Roberto Bello - esperto di Data Mining
Laureato in Economia e Commercio con specializzazione in Ricerca Operativa – Esperto in Knowledge Mining e in linguaggi di programmazione Open Source

ICT Strategist del ClubTI di Milano (www.clubtimilano.net) – Ricercatore dell’Accademia Internazionale di Scienze Forensi (www.accademiascienzeforensi.it) – Perito (CTP) ed ex CTU (Consulente Tecnico di Ufficio) del Tribunale di Milano – Autore di pubblicazioni professionali disponibili in www.lulu.com/spotlight/robertobb – Socio fondatore dell’AIPI (Associazione Italiana Professionale di Informatica) – In passato CIO della Plasmon, della Wrangler in Italia e consulente delle più importanti aziende alimentari italiane – Profilo LinkedIn 

L’intervista sul Data Mining

Qual’e’ lo scopo del datamining ?

Il datamining ha l’obiettivo principale di scoprire l’informazione nascosta nei dati. 
Ricordo i requisiti che, negli anni ’70, erano richiesti ad un’informazione per essere considerata tale.
L’informazione doveva essere:

  • specifica (definita, non equivoca, comprensibile, misurabile, ecc.)
  • imprevista (se oggi è lunedì e mi dicono che domani sarà martedì non mi danno un’informazione)
  • possibilmente predittiva (nel senso che deve aiutarmi per agire in un mondo futuro che potrebbe essere diverso da quello attuale)

Il datamining deve realizzare i requisiti appena descritti. 
In particolare consente di evidenziare categorie di aggregazione di variabili del tutto inattese ed impreviste superando la visione storica e soggettiva dell’utente della BI abituato alle solite e scontate tabelle a doppia entrata che si rifanno alla statistica del pollo di Trilussa.
Per la BI, se avessi un archivio di animali mammiferi nel quale fossero compresi anche uomini e primati, potrei ottenere come risultato che i mammiferi hanno mediamente circa tre zampe. Dove trovo un mammifero che abbia mediamente tre zampe? Per fare della vera statistica occorre conservare il più possibile intatto il patrimonio informativo dei dati di partenza del soggetto o della situazione sotto esame.
Il datamining è alle volte anche predittivo quando segnala in categorie separate i segnali deboli provenienti dal mercato, segnali deboli non catturabili dalla BI strettamente pilotata dall’utente.
Il datamining dovrebbe essere anche in grado di segnalare se negli archivi sottoposti ad elaborazione esista o meno della conoscenza ripartita in gruppi con caratteristiche diverse.
Se nell’archivio sottoposto ad elaborazione non esistesse conoscenza il datamining lo potrebbe segnalare mentre la BI procederebbe comunque a sfornare tabelle.

 Per l’efficienza di una azienda è più importante la business intelligence classica o il datamining ?

I possibili destinatari sono diversi: la BI ha come naturale destinatario il Controllo di Gestione mentre il datamining è più adatto al Marketing e alla Ricerca & Sviluppo.
La BI può controllare il “già avvenuto” secondo schemi prefissati, ripetibili nel tempo e cristallizzabili in tableaux de bord.
Il datamining cerca di “annusare il futuro” individuando i segnali deboli che fornisce il presente.

 Perchè finora il datamining non ha preso piede sul mercato ?

La BI è strettamente governata e pilotata dall’utente: quindi è naturalmente più gradita.
Il datamining è più indipendente e misterioso: molti strumenti di datamining non “spiegano” le caratteristiche delle catalogazioni effettuate.
Il datamining è percepito come uno strumento arcano adatto a matematici ermetici e non a semplici utenti consumatori abituali di tabelle xls.

Come si può spiegare un qualcosa come il datamining a degli utenti poco legati al mondo IT e più legati al mondo business ?

Facendo degli esempi tratti dalla vita reale.

Ad esempio:

Ipotizziamo di aver di fronte una persona che non abbia mai visto dei contenitori di uso comune come bicchieri, bottiglie, barattoli, tazze, vasi, scatole, fiaschi, boccali, calici, tetrapack e via dicendo. Senza alcun commento mostro in successione esempi reali di oggetti appartenenti alle categorie sopra descritte. La persona può guardare, odorare, toccare e soppesare gli oggetti mostrati. Dopo aver esaminato un sufficiente numero di oggetti, la persona facilmente sarà in grado di raggruppare gli oggetti in categorie contenenti gli oggetti fra di loro globalmente simili, privilegiando alcune caratteristiche rispetto ad altre ritenute ininfluenti perché non discriminanti. Ad apprendimento avvenuto, io potrei presentare un altro oggetto a forma di bicchiere di altro colore, di altro materiale e di altro peso ottenendo comunque la collocazione dell’oggetto nella categoria dei bicchieri. Sempre per induzione la persona in addestramento potrebbe fare due categorie dei bicchieri: quelli senza manico e quelli con manico (boccali). L’apprendimento ha consentito alla persona di riconoscere gli aspetti dell’oggetto utili per passare dal particolare all’universale trascurandone gli aspetti non influenti. 

Quali sono i migliori ambienti di sviluppo per il datamining (linguaggi, pacchetti di database etc ) ?

Come linguaggi di sviluppo mi sono trovato bene prima con Ruby e poi con Python.

La versione in cloud è quella scritta in Python adattata all’ambiente ospite di GAE (Google App Engine)

Come potrebbero cambiare rispetto al passato gli algoritmi di datamining grazie all’avvento dell’enorme potenza di calcolo attuale ? è pensabile ad algoritmi meno raffinati e più di “forza bruta” ?

Sono convinto che per fare un buon datamining sia meglio sottoporre ad elaborazione un campione casuale di poche centinaia di record e non un archivio contenente decine di migliaia di registrazioni: quindi l’attuale potenza di calcolo (anche dei portatili) è più che sufficiente.

Troppe registrazioni possono portare ad una situazione di overfitting: il modello di addestramento ottenuto è una “fotografia” dell’input e non è più in grato di “generalizzare” quando si applica il modello a nuove registrazioni.

Qual’e’ l’algoritmo o tecnica di datamining che preferisci ?

Preferisco l’algoritmo di Kohonen (SOM Self-Organizing Map) da me modificato e migliorato.

Qual’e’ il metodo migliore per rendere fruibili agli utenti il risultato del datamining ?

Penso che il metodo migliore sia rendere fruibile il datamining in ambiente cloud; per quelli che ancora temono per la sicurezza dei dati e dei risultati, resta l’alternativa tradizionale del programma ceduto in licenza di uso.

Quali sono i prodotti che ritieni migliori sul mercato odierno ?

Quelli (open source) che ho esaminato hanno diversi difetti:

  • sono complicati nella definizione dei parametri di elaborazione
  • spesso sono carenti nelle funzioni  di normalizzazione e di standardizzazione dei dati
  • producono grafici difficilmente utilizzabili a fini pratici
  • non spiegano le caratteristiche dei gruppi trovati
  • non evidenziano le variabili più importanti e quelle meno importanti nella catalogazione di ogni gruppo
  • non segnalano in un solo indice quanta conoscenza sia compresa nell’archivio elaborato

Esprimi un desiderio “tecnico” in merito al datamining … cosa vorresti vedere in un futuro prossimo ?

Non un desiderio “tecnico” ma un desiderio “formativo”: spiegare in modo semplice i vantaggi del datamining agli utenti che ancora oggi si fidano solo dei loro fogli xls. 

Ringrazio Roberto per la disponibilità e ricordo che è autore di un algoritmo basato sulle mappe di Kohonen chiamato Know4Business, di cui spero presto di proporre una recensione su questo blog

 

Lascia un commento

Lascia un commento

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...

%d blogger cliccano Mi Piace per questo: