Presto tra i tanti compiti che i bot saranno in grado di compiere altrettanto bene come gli essere umani ci saranno il riconoscimento e la descrizione delle immagini. Dopo un po’ di apprendimento infatti l’ultima versione dell’algoritmo Show and Tell di Google è in grado di descrivere il contenuto di una foto con una impressionante precisione del 94%.
Recentemente Google ha reso Show and Tell open source: sarete voi a doverlo “aiutare a imparare”, ma il codice sorgente sarà disponibile per tutti coloro che vorranno provare. Potete trovarlo a questo link.
È incredibile quanto il machine learning (ovvero l’apprendimento automatico da parte delle intelligenze artificiali), in particolare nel campo della fotografia, abbia fatto fatto passi da gigante negli ultimi anni. Secondo quanto spiegato da Google:
This release contains significant improvements to the computer vision component of the captioning system, is much faster to train, and produces more detailed and accurate descriptions compared to the original system.
Che livello di precisione? Per l’esattezza il 93,9%, che è un livello di accuratezza incredibile.
Riconoscimento e descrizione automatica di un’immagine
È facile stabilire dove è stata scattata una foto, ma insegnare a un computer a “vedere” una foto e descriverne il contenuto sembrava quasi impossibile fino a poco tempo fa. Per Google, poter essere in grado di guardare una foto e dire che si vede “Una persona su una spiaggia che fa volare un aquilone” era semplicemente impensabile dieci anni fa:
Questo però è proprio il risultato che è stato ottenuto utilizzando questo nuovo algoritmo per il riconoscimento e la descrizione delle immagini, con l’aggiunta ovviamente di un po’ di classico “addestramento” da parte degli umani. Mostrando le immagini di una foto specifica senza la didascalia all’intelligenza artificiale, Google è stato in grado di insegnare all’algoritmo di apporre una didascalia che descrive una scena simile (ma non identica) a quella rappresentata e senza aiuto:
Google spera che, rendendo l’algoritmo aperto a tutti, vi sarà una “spinta in avanti” nella ricerca in questo campo; dal punto di vista dei fotografi invece è un passo avanti verso sistemi di auto-tagging e auto-didascalie, il che significa non dover più impazzire per ritrovare una vecchia foto nascosta da qualche parte in un vecchio archivio!