Introduzione al Data Mining con le Reti Neurali

roberto_miro_n
Roberto Bello - r.bello@freeopen.org
Laureato in Economia e Commercio con specializzazione in Ricerca Operativa
Data Scientist
Esperto in Knowledge Mining e in linguaggi di programmazione Open Source
ICT Strategist del ClubTI di Milano (http://www.clubtimilano.net)
Ricercatore dell'Accademia Internazionale di Scienze Forensi
(http://www.accademiascienzeforensi.it)
Perito (CTP) ed ex CTU (Consulente Tecnico di Ufficio) del Tribunale di Milano
Autore di pubblicazioni professionali disponibili in www.lulu.com/spotlight/robertobb
Socio fondatore dell'AIPI (Associazione Italiana Professionale di Informatica)
In passato CIO della Plasmon, della Wrangler in Italia e consulente delle più importanti aziende alimentari italiane
Linkedin: it.linkedin.com/pub/roberto-bello/4/1a5/677

La Business Intelligence e il pollo di Trilussa
La statistica molto spesso sbaglia o, per meglio dire, sbagliano i suoi utilizzatori.
Sbagliano   quando   applicano   gli   strumenti   statistici   di   aggregazione   su   frammenti informativi provenienti da oggetti o situazioni fra di loro del tutto differenti.
Prima frammentano, poi mescolano ed infine aggregano.
Per finire pretendono di sentenziare.
Così   i   ricercatori   sulle   tendenze   politiche   spezzettano   le   opinioni   degli   intervistati, mescolano le singole risposte, aggregano, incrociano ed infine  sentenziano certezze che  sono attribuibili solo agli intervistati virtuali che loro hanno creato, soggetti non esistenti nella   realtà   e   sicuramente   non   riconducibili   ai   singoli   individui   o   a   gruppi   omogenei   di intervistati.
In modo analogo la Business Intelligence rende disponibili degli strumenti di analisi dei dati in grado di  tagliare  i dati e poi di ricomporli in strutture multidimensionali nelle quali le peculiarità informative delle situazioni di partenza sono state distrutte.
Così con la Business Intelligence si mescolano aziende di diversi settori, volumi di affari, mercati e abitudini di pagamento, cambiando d volta in volta le variabili di incrocio dei dati.
A quali soggetti (o situazioni) potrebbero essere applicate le decisioni che poi si prendono, avendo distrutto il patrimonio informativo globale dei soggetti (o situazioni) di partenza?
Per   fare   un   esempio,   se   avessi   un   archivio   di   animali   mammiferi   nel   quale   fossero compresi anche uomini e primati, potrei ottenere come risultato che i mammiferi hanno mediamente circa tre zampe.
Dove trovo un mammifero che abbia mediamente tre zampe?
Per   fare   della   vera   statistica   occorre   conservare   il   più   possibile   intatto   il   patrimonio informativo dei dati di partenza del soggetto o della situazione sotto esame.
Le   tecniche   derivate   dalle   reti   neurali   usano   un   approccio   all'analisi   dei   dati   del   tutto rispettoso del patrimonio informativo dei dati di partenza.
Infatti non richiedono all'utente di definire le variabili da incrociare, impedendogli così di formulare incroci assurdi.
Richiedono   unicamente  di   inserire   il   numero   massimo   dei   gruppi   che  l'algoritmo   dovrà creare.
Non distruggono il patrimonio informativo dei dati di partenza, ma elaborano sempre i dati del soggetto (o situazione) in rapporto ai dati degli altri soggetti (o situazioni).
Conservano tutte le informazioni attribuibili al soggetto o alla situazione in esame e creano le categorie di appartenenza dei soggetti (o situazioni) nelle quali i soggetti (o situazioni) saranno fra di loro simili.
Tecniche più sofisticate sono in grado di segnalare quali siano le variabili significative di aggregazione e quali siano i valori di aggregazione importanti per ogni gruppo creato.
Segnalano anche quali siano le variabili non influenti nella catalogazione.
Tecniche   ancora   più   sofisticate   possono   elaborare   qualsiasi   tipo   di   insieme   di   dati evidenziando se nell'archivio sono presenti delle informazioni oppure sono presenti solo numeri o caratteri fra di loro non legati da relazioni interne.
Il modello deve seguire i dati e non viceversa (J. B. Benzecri)

Contact us


Visite:

(1053)