Bigdata e Social Media: I trend per il 2014

Analisi predittiva per Bigdata e Social Media

bigdata-social-media-2014Il periodo è quello giusto per lanciarsi in previsioni e oroscopi ma non sono un profeta, indovino o oracolo anzi ritengo questi un po’ dei cacciaballe che oltre alle parole non sanno altro … mmh… oops sorry che gaffe mi sono scordato di una società di informatica il cui nome ha proprio attinenza con quanto sopra …  “Scusa Larry!”, quindi tornando al discorso considerando che un po’ di data mining lo conosco diciamo che posso osare qualche analisi predittiva sul 2014.

(altro…)

Annunci

Come evolve la Business Intelligence : Intervista a Luca Rodolfi

La Business Intelligence sta vivendo un momento di ricambio generazionale, con soluzioni cloud , nuove tecnologie ( database non relazionali o no-sql ) , l’ovvio impatto dei nuovi device come i tablet, richieste di analisi real-time e il focus sulla business analytics sponsorizzato dai big vendor.

Proviamo a vedere cosa ne pensa di questi argomenti un esperto di Business Intelligence nel suo classico significato : Luca Rodolfi

Chi è Luca Rodolfi ?

Luca Rodolfi

Mi chiamo Luca Rodolfi e dal 1996 mi occupo di Business Intelligence (BI).

Le esperienze lavorative maturate mi hanno consentito di sviluppare numerose e diverse competenze sia in ambiti progettuali e tecnologici. Tra le diverse collaborazioni rilevanti sono quelle con Bicon3 srl (società specializzata a tutto campo nell’ambito della BI) e con il Ce.Ri.S.Ma.S(Centro di Ricerche e Studi in Management Sanitario dell’università Cattolica di Milano) che mi impegnano in attività progettuali sul campo.

Profilo LinkedIn

Twitter

Blog & Sito Personale

Sito Corporate

Domande sulla Business Intelligence

– cosa può guadagnare una piccola realtà con l’utilizzo della BI ?

Sicuramente più efficienza e maggiore consapevolezza della propria capacità di stare nel mercato, se per piccola realtà intendiamo “veramente” piccola (1-5 milioni di euro di fatturato) dotarsi di una soluzione (anche semplificata) di BI significa avere la possibilità di indagare i proprio “numeri” con la consapevolezza di poter apportare “aggiustamenti” per tempo, direi una bella differenza che attendere indicazioni dal commercialista o, peggio ancora, dalla banca…

 – BI e PMI : quale soluzione per avere un progetto di BI a costi contenuti

 sicuramente eliminare qualunque volo pindarico e puntare sul concreto: un sistema snello in grado di raccogliere i dati, normalizzarli e adattarli alle proprie analisi e su sistema di reporting user oriented, cercando sul mercato gli skill necessari, in ogni caso dedicando le risorse disponibili alla consulenza “di livello” piuttosto che a sostenere costi di licenze software e hardware, oggi il mercato offre molte possibilità, ma l’esperienza di un professionista BI (o di un team ridottissimo e molto esperto) può fare la differenza sulla qualità del risultato.

 – Excel è più una opportunità o più un problema ? come vedi il fatto che spesso gli strumenti di query e reporting come BO e Cognos vengano usati per estrarre i dati e importarli in Excel ?

Personalmente Excel è una grande opportunità! il problema è l’uso che spesso se ne fa, sia per mancanza di formazione (Excel è considerato a torto uno strumento semplice che chiunque può usare) sia perché contribuisce involontariamente alla generazione di una certa entropia, come specialista BI uno dei punti peggiori quando si ha a che fare con Excel è il disordine degli utenti, la moltitudine di copie degli stessi file, l’incapacità di utilizzare correttamente le formule, tutte cose che relegano ingiustamente Excel ad un sistema di produttività personale e nulla più, anche se per molti utenti è la vera ancora di salvezza quando è necessario produrre reports e analisi.

Diciamo che l’utente si sente a suo agio con Excel, sentendosi sicuro: quando viene implementato un sistema di BI la prima domanda è “ma posso salvare in excel?” a mio avviso bisognerebbe mettere in atto una vera e propria strategia non per sostituire Excel, ma per affiancarlo agli strumenti di BI mostrando (e dimostrando) agli utenti il valore aggiunto che questi strumenti possono dare…

 – è più importante ( come ROI x il cliente ) la BI classica o la business analytics

 Sarò all’antica, ma preferisco la BI classica, molto spesso i requisiti degli utenti sono semplici, anche se rilevanti nei contenuti, secondo me un report o un ambito di analisi ben costruito secondo i desiderata dell’utente vale 1000 analytics…

 – bi domani : cloud, mobile, big data, realtime : cosa sarà più importante e perché

 Bella domanda! io metterei al primo posto Cloud e Mobile a parimerito (se per mobile intendiamo i tablet e non gli smartphone) e solo dopo il resto (come i bigdata) il motivo principale è proprio dovuto al fatto che il mondo sta letteralmente cambiando spinto da queste nuove frontiere, semplicemente alcune cose come le conosciamo oggi non esisteranno più domani sostituite dalle nuove tendenze… forse sono un visionario ma è probabile che lo storage come lo conosciamo oggi semplicemente non sarà più economicamente sensato averlo in casa nel proprio “ced” e allora con l’avanzare di queste nuove prospettive la BI deve adeguarsi in una sorta di metanoia autopoietica… (:D)

 – nuovi database no-sql, datavault etc : è la fine del vecchio caro star-schema ?

 forse più che la fine è un pezzo che si aggiunge, uno strumento in più nella borsa di “dottor BI”: dipendentemente dalle necessità l’esperto sarà in grado di “pescare” l’attrezzo giusto per il progetto che deve affrontare, esisterà sempre un buon motivo per risolvere la progettazione di un modello dimensionale basato sul vecchio star-schema…

 – le soluzioni dei big vendor sono pensate solo per chi ha budget importanti ?

 difficile rispondere di No, dipende però dalla fascia e da cosa è un budget importante, se per me importante equivale (ipotizziamo) a 100.000 euro, per il cliente invece a 25.000 euro e per IBM 500.000 capiamo subito che prima ancora di fare valutazioni è necessario mettere a fattore comune la propria idea di budget importante, dalla mia esperienza quando si muovono i big vendor si muovono anche interessi di rilievo, forse in un mondo ideale i big vendor non dovrebbero “importunare” piccole realtà che fatturano meno di 10 milioni di euro e lasciare lo sviluppo dei sistemi di BI agli esperti sul campo rappresentativi di piccole e specializzate aziende di consulenza, ma la necessità di avere clienti è tale che sul mercato si vede di tutto!

 – BI fatta in casa : ha senso creare il proprio dwh con un team di sviluppo interno ?

 secondo me no (a meno che non ci siano in azienda risorse con esperienze sul campo relative alla BI) il rischio di pensare che un DWH sia una serie di tabelloni su cui fare query è troppo alto e il pericolo di avere una cosa non affidabile sempre incombente, meglio allora predisporre un team interno chiedendo l’aiuto di uno specialista del campo.

 – 3 fattori per il successo di un progetto di BI

 chiarezza dei requisiti dell’utente : cosa vuole dal progetto di BI

rapidità di sviluppo, in modalità incrementale : senza scomodare discipline come Agile BI o simili, innescare un sistema a spirale di continui rilasci in modo che sia sempre possibile per il cliente vedere l’avanzamento

un team focalizzato : a meno che non si stia creando un dwh worldwide di un’azienda Fortune 500 pensare ad un team piccolo e multidisciplinare.

Ringrazio Luca per la disponibilità e spero con questa intervista di aver dato un’altra interessante opinione sulla BI.

Se qualcuno avesse dubbi o vorrebbe avere delle risposte vi invito a porre le domande nei commenti … sarete ascoltati

 

 

 

 

10 domande sul Data Mining a Roberto Bello

Ho il piacere di iniziare questa nuova sezione dedicata alle interviste ad esperti, dei settori che tratto, facendo un pò di domande che riguardano il Data Mining a Roberto Bello.

Chi  è Roberto Bello ?

Roberto Bello - esperto di Data Mining
Laureato in Economia e Commercio con specializzazione in Ricerca Operativa – Esperto in Knowledge Mining e in linguaggi di programmazione Open Source

ICT Strategist del ClubTI di Milano (www.clubtimilano.net) – Ricercatore dell’Accademia Internazionale di Scienze Forensi (www.accademiascienzeforensi.it) – Perito (CTP) ed ex CTU (Consulente Tecnico di Ufficio) del Tribunale di Milano – Autore di pubblicazioni professionali disponibili in www.lulu.com/spotlight/robertobb – Socio fondatore dell’AIPI (Associazione Italiana Professionale di Informatica) – In passato CIO della Plasmon, della Wrangler in Italia e consulente delle più importanti aziende alimentari italiane – Profilo LinkedIn 

L’intervista sul Data Mining

Qual’e’ lo scopo del datamining ?

Il datamining ha l’obiettivo principale di scoprire l’informazione nascosta nei dati. 
Ricordo i requisiti che, negli anni ’70, erano richiesti ad un’informazione per essere considerata tale.
L’informazione doveva essere:

  • specifica (definita, non equivoca, comprensibile, misurabile, ecc.)
  • imprevista (se oggi è lunedì e mi dicono che domani sarà martedì non mi danno un’informazione)
  • possibilmente predittiva (nel senso che deve aiutarmi per agire in un mondo futuro che potrebbe essere diverso da quello attuale)

Il datamining deve realizzare i requisiti appena descritti. 
In particolare consente di evidenziare categorie di aggregazione di variabili del tutto inattese ed impreviste superando la visione storica e soggettiva dell’utente della BI abituato alle solite e scontate tabelle a doppia entrata che si rifanno alla statistica del pollo di Trilussa.
Per la BI, se avessi un archivio di animali mammiferi nel quale fossero compresi anche uomini e primati, potrei ottenere come risultato che i mammiferi hanno mediamente circa tre zampe. Dove trovo un mammifero che abbia mediamente tre zampe? Per fare della vera statistica occorre conservare il più possibile intatto il patrimonio informativo dei dati di partenza del soggetto o della situazione sotto esame.
Il datamining è alle volte anche predittivo quando segnala in categorie separate i segnali deboli provenienti dal mercato, segnali deboli non catturabili dalla BI strettamente pilotata dall’utente.
Il datamining dovrebbe essere anche in grado di segnalare se negli archivi sottoposti ad elaborazione esista o meno della conoscenza ripartita in gruppi con caratteristiche diverse.
Se nell’archivio sottoposto ad elaborazione non esistesse conoscenza il datamining lo potrebbe segnalare mentre la BI procederebbe comunque a sfornare tabelle.

 Per l’efficienza di una azienda è più importante la business intelligence classica o il datamining ?

I possibili destinatari sono diversi: la BI ha come naturale destinatario il Controllo di Gestione mentre il datamining è più adatto al Marketing e alla Ricerca & Sviluppo.
La BI può controllare il “già avvenuto” secondo schemi prefissati, ripetibili nel tempo e cristallizzabili in tableaux de bord.
Il datamining cerca di “annusare il futuro” individuando i segnali deboli che fornisce il presente.

 Perchè finora il datamining non ha preso piede sul mercato ?

La BI è strettamente governata e pilotata dall’utente: quindi è naturalmente più gradita.
Il datamining è più indipendente e misterioso: molti strumenti di datamining non “spiegano” le caratteristiche delle catalogazioni effettuate.
Il datamining è percepito come uno strumento arcano adatto a matematici ermetici e non a semplici utenti consumatori abituali di tabelle xls.

Come si può spiegare un qualcosa come il datamining a degli utenti poco legati al mondo IT e più legati al mondo business ?

Facendo degli esempi tratti dalla vita reale.

Ad esempio:

Ipotizziamo di aver di fronte una persona che non abbia mai visto dei contenitori di uso comune come bicchieri, bottiglie, barattoli, tazze, vasi, scatole, fiaschi, boccali, calici, tetrapack e via dicendo. Senza alcun commento mostro in successione esempi reali di oggetti appartenenti alle categorie sopra descritte. La persona può guardare, odorare, toccare e soppesare gli oggetti mostrati. Dopo aver esaminato un sufficiente numero di oggetti, la persona facilmente sarà in grado di raggruppare gli oggetti in categorie contenenti gli oggetti fra di loro globalmente simili, privilegiando alcune caratteristiche rispetto ad altre ritenute ininfluenti perché non discriminanti. Ad apprendimento avvenuto, io potrei presentare un altro oggetto a forma di bicchiere di altro colore, di altro materiale e di altro peso ottenendo comunque la collocazione dell’oggetto nella categoria dei bicchieri. Sempre per induzione la persona in addestramento potrebbe fare due categorie dei bicchieri: quelli senza manico e quelli con manico (boccali). L’apprendimento ha consentito alla persona di riconoscere gli aspetti dell’oggetto utili per passare dal particolare all’universale trascurandone gli aspetti non influenti. 

Quali sono i migliori ambienti di sviluppo per il datamining (linguaggi, pacchetti di database etc ) ?

Come linguaggi di sviluppo mi sono trovato bene prima con Ruby e poi con Python.

La versione in cloud è quella scritta in Python adattata all’ambiente ospite di GAE (Google App Engine)

Come potrebbero cambiare rispetto al passato gli algoritmi di datamining grazie all’avvento dell’enorme potenza di calcolo attuale ? è pensabile ad algoritmi meno raffinati e più di “forza bruta” ?

Sono convinto che per fare un buon datamining sia meglio sottoporre ad elaborazione un campione casuale di poche centinaia di record e non un archivio contenente decine di migliaia di registrazioni: quindi l’attuale potenza di calcolo (anche dei portatili) è più che sufficiente.

Troppe registrazioni possono portare ad una situazione di overfitting: il modello di addestramento ottenuto è una “fotografia” dell’input e non è più in grato di “generalizzare” quando si applica il modello a nuove registrazioni.

Qual’e’ l’algoritmo o tecnica di datamining che preferisci ?

Preferisco l’algoritmo di Kohonen (SOM Self-Organizing Map) da me modificato e migliorato.

Qual’e’ il metodo migliore per rendere fruibili agli utenti il risultato del datamining ?

Penso che il metodo migliore sia rendere fruibile il datamining in ambiente cloud; per quelli che ancora temono per la sicurezza dei dati e dei risultati, resta l’alternativa tradizionale del programma ceduto in licenza di uso.

Quali sono i prodotti che ritieni migliori sul mercato odierno ?

Quelli (open source) che ho esaminato hanno diversi difetti:

  • sono complicati nella definizione dei parametri di elaborazione
  • spesso sono carenti nelle funzioni  di normalizzazione e di standardizzazione dei dati
  • producono grafici difficilmente utilizzabili a fini pratici
  • non spiegano le caratteristiche dei gruppi trovati
  • non evidenziano le variabili più importanti e quelle meno importanti nella catalogazione di ogni gruppo
  • non segnalano in un solo indice quanta conoscenza sia compresa nell’archivio elaborato

Esprimi un desiderio “tecnico” in merito al datamining … cosa vorresti vedere in un futuro prossimo ?

Non un desiderio “tecnico” ma un desiderio “formativo”: spiegare in modo semplice i vantaggi del datamining agli utenti che ancora oggi si fidano solo dei loro fogli xls. 

Ringrazio Roberto per la disponibilità e ricordo che è autore di un algoritmo basato sulle mappe di Kohonen chiamato Know4Business, di cui spero presto di proporre una recensione su questo blog

 

%d blogger hanno fatto clic su Mi Piace per questo: