#MachineLearning : un’intelligenza artificiale dal volto umano

Con l’espressione machine learning si intende un insieme di metodi per l’apprendimento automatico da parte dei computer. A rischio di semplificare si può dire che ai computer viene data l’abilità di apprendere – partendo da una gran massa di dati, test e addestramenti continuati – senza esplicitamente programmarli. Il computer acquisisce quindi una sua intelligenza che deriva dai dati di input e si addestra man mano che svolge il suo compito.

enrica_filippi_machine_learning

Enrica Filippi e il Machine Learning: «Quanto più i dati sono grandi, tanto più il nostro motore di apprendimento automatico diviene intelligente». (16 feb 2017 – Torino, Campus Einaudi)

In proposito, la scorsa settimana, abbiamo seguito a Torino con grande interesse lo speech di Enrica Filippi, Director of Technology in Amazon, sul tema Machine Learning: l’intelligenza artificiale applicata alle immagini e ai video. Si è tenuto al Campus Luigi Einaudi nell’ambito degli incontri promossi da 2i3T Incubatore di Imprese dell’Università degli Studi di Torino.

Il discorso, che si sarebbe potuto limitare alle grandi opportunità offerte dai software e dalle applicazioni per analisi e riconoscimento immagini, è stato invece impostato da Enrica Filippi sui nuovi dilemmi che l’intelligenza artificiale pone all’uomo contemporaneo.

Nei fatti a una fase iniziale tutta incentrata sulla programmazione, sui software, sul codice, una fase basata sull’entusiasmo e l’accelerazione per l’intelligenza artificiale, ora siamo in un momento nel quale accanto alle opportunità iniziano a emergere grandi dilemmi irrisolti che riguardano la semantica, gli aspetti legali, di privacy, fino a giungere ai paradossi. Com’è possibile che sofisticati algoritmi rendano in certi casi analisi o risultati di ricerca marcatamente segnati da sessismo, razzismo e altre forme di discriminazione? Un esempio che aveva suscitato grande clamore si era avuto nel 2015: una funzionalità per la catalogazione automatica di foto di Google aveva erroneamente taggato con l’etichetta “gorilla” un’immagine che ritraeva due giovani afroamericani. La gaffe aveva dimostrato quanto lavoro ancora ci fosse da fare nello sviluppo di tali applicazioni prima di diffonderle democraticamente.

Filippi ha sottolineato come la democratizzazione della tecnologia favorisca sì l’innovazione, ma aumenti anche gli effetti collaterali indesiderati, se non governata.

Il machine learning infatti è la copia carbone di quel che insegni alla macchina, dei dati di input, quindi anche tutti i difetti e i pregiudizi umani possono divenire parte del “ragionamento” del computer. Lo stesso mismatch semantico o abbinamento fuorviante dato dall’uomo addetto a taggare ed etichettare le immagini si potrà ripresentare nei risultati in uscita dalla macchina.

Ecco anche perché oggi la più importante ricchezza per una startup è costruirsi una data collection valida: la raccolta dati è fondamentale, unita a un processo di lavoro continuamente validato e testato.

I tool infatti vengono usati per ridurre il lavoro manuale, ma non sono il punto decisionale finale, lì occorre una componente umana. Posso analizzare con Amazon Rekognition oppure Google Vision Cloud milioni di foto, che passeranno a filtro, ma deve esserci un punto in cui i casi immagine che presentano dilemmi da dirimere sono affidati a una componente umana che ha la decisione ultima.

Le inferenze individuali nel leggere un’immagine non sono da sottovalutare in questo lavoro: si pensi che cosa può significare nel caso di grandi librerie di immagini da analizzare in materia penale, magari per operazioni giudiziarie o di polizia nelle quali si mettono a confronto e riconoscimento facciale due immagini diverse per misurare la probabilità che un volto appartenga alla stessa persona ricercata.

Nella lettura dell’immagine poi conta lo sfondo, il contesto che compare o è escluso alla visione, eventuali scritte che sono immortalate nello scatto. Noi umani completiamo quel che vediamo con il nostro inconscio, con il nostro vissuto, con conoscenze personali, per questo è difficile avere risposte univoche se si sottopone una stessa immagine a persone diverse, perché ognuno ci vede quel che ci vede.

In una fotografia se vi è una scritta questa prevale e influenza l’operatore che deve taggare o etichettare la foto, lo convince di qualcosa che magari nell’immagine non c’è: anche in questo caso è necessario riflettere sul potere persuasivo dello scritto rispetto al visivo.

Ognuno poi ha un potere di astrazione particolare e imprevedibile, non misurabile. Ognuno vedrà anche quel che inferisce il suo inconscio. Per questo i dati che alimentano il machine learning assumono un volto umano, volenti o nolenti.

Per esempio guardando un’immagine mettiamo in ordine temporale senza pensare e distinguere un prima o un dopo, quasi avessimo la presunzione di un prima e un dopo, di un fuori campo, in base al nostro vissuto, alla nostra storia, alla nostra immaginazione. Un’immagine di un bimbo in costume a bordo piscina può essere da noi taggata “tuffo” o “nuoto”, anche se non vediamo dalla foto se ha nuotato o si è tuffato, oppure ancora deve farlo.

Ecco come la macchina arriva a dirvi quello che volete voi.

Da qui dunque l’importanza dei dati in ingresso per avere poi risultati di ricerca sensati.

Guardiamo per esempio alle campagne di comunicazione e marketing on line: i consigli per gli acquisti che ci arrivano sul computer durante la nostra navigazione sono la dimostrazione che le raccomandation non prevedono il futuro (ciò che io desidero e voglio comprare), ma prevedono paradossalmente il nostro passato (ciò che io ho cercato nel web o che ho già comperato). In pratica il nostro vissuto in Rete è di rimanere ingabbiati nel nostro passato, perché ci viene proposto ciò che avevamo desiderato, le offerte lavorative secondo ciò che eravamo stati in un precedente lavoro, e via di seguito.

Il machine learning sulle immagini può essere applicato nel campo del marketing, oppure nell’ordinamento di grandi masse di immagini, nella catalogazione (distinguere nella foto un gatto da un cane; quando si tratta di un cane distinguere se è un labrador o un chihuahua), ma oltre a questi usi commerciali o di applicazioni games e di intrattenimento ci sono impieghi dell’ML che riguardano la medicina e la salute pubblica.

La forma più nobile del machine learning riguarda per esempio gli usi in medicina o in diagnostica: sono già allo studio e in uso applicazioni per il supporto della diagnosi medica a distanza, basate su banche dati fotografiche che mettono a disposizione lastre o foto di patologie rare. Il tutto è un grande progresso umano, ma pone problemi di privacy, di trattamento dati in sicurezza, ecc.

Oggi lo scoglio non è più l’accesso al codice, al software, ma è l’accesso ai dati e la loro gestione consapevole.

Tutti possono raccogliere dati grezzi ormai via internet, ma la vera ricchezza è nei dati filtrati, trattati. Ci vuole maggiore awareness, consapevolezza, anche nel saper cogliere lo stereotipo che può nascondersi a falsare i risultati dell’intelligenza artificiale.

.

Tags: ,
Trovato questo articolo interessante?
Condividilo sulla tua rete di contatti Twitter, sulla tua bacheca su Facebook o semplicemente premi "+1" per suggerire questo risultato nelle ricerche di Google. Diffondere contenuti che trovi interessanti aiuta questo blog a crescere. Grazie!

Un Commento

  1. eBookReaderItalia says:

    Quando si dice “essere sul pezzo”: quasi a farlo apposta vediamo proprio in questi giorni un’offerta di lavoro di Amazon per la sede di Avigliana (TO) che riguarda
    Senior Manager, Machine Learning
    con qualificazione
    Graduate degree (Masters or PhD) in computer science, computational linguistics, electrical engineering, applied mathematics, or a related field

    https://goo.gl/dgAM5X