LEARNING QUALITY, AESTHETICS, AND FACIAL ATTRIBUTES FOR IMAGE ANNOTATION

Celona, L

Every day, a large number of digital images are produced by users of social networks, smartphone users, photography professionals, etc. This caused a problem in the management, organization, indexing, and recovery of digital images. In order to ease this problem, several methods have been introduced in the literature to catalog images automatically. These methods are designed to associate images with one or more keywords belonging to a predefined dictionary or to associate images with visual attributes such as, for example, quality, aesthetics, sentiment, memorability, interestingness, and complexity, etc. This thesis investigates the use of deep convolutional neural network for automatic estimation of image quality and image aesthetics. In the last few years, several methods for automatic image quality assessment have been proposed. Most of them have been designed to deal with synthetically distorted images, which by definition do not truly model distortions afflicting real-world images. In this thesis a method for the automatic quality assessment of authentically distorted images is investigated. It shows better performances than state-of-the-art methods both on synthetically and authentically distorted images datasets. Differently from the image quality, which characterizes the perceived quality of the image signal, aesthetics depicts perceived beauty. As first step, the problem of aesthetic quality assessment of real-life general content images has been investigated. The proposed solution outperformed state-of-the-art methods on the largest publicly available dataset. Given that one of the most popular visual contents is face (e.g. on social networks for photo sharing), aesthetics assessment is, therefore, further investigated on the specific case of portrait images. To this end, in this thesis an algorithm involving the combination of the previously investigated visual attributes (i.e. quality and aesthetics of general content images) and the facial attributes (i.e. smiling, hair style, makeup) description is proposed. Facial attributes description is achieved thanks to two proposed methods. The first algorithm is a robust smile detector (it represents an important visual feature for portrait aesthetics), the second is a multiple-task model designed in order to simultaneously estimate soft biometrics and attributes such as hair colors and styles, types of beards. While the first algorithm outperforms state-of-the-art methods (also respect to highly distorted images), the multi-task model demonstrates comparable performance. Experimental results for the portrait image aesthetic assessment thanks to the use of the proposed algorithm show promising performance on three standard datasets.

Ogni giorno vengono prodotte dagli utenti di social network, utilizzatori di smartphone, professionisti della fotografia ecc, un numero elevato di immagini digitali. Questo ha causato un problema di gestione, organizzazione, indicizzazione e recupero di immagini digitali. Al fine di semplificare questo problema sono stati introdotti svariati metodi per catalogare le immagini in maniera automatica. Questi metodi sono progettati per associare alle immagini una o piu' keyword appartenenti a un dizionario predefinito o anche attributi visuali quali ad esempio, qualitˆ, estetica, sentimento, memorabilita' ecc. Questa tesi indaga l'uso delle convolutional neural network per la stima automatica della qualità dell'immagine e dell'estetica dell'immagine. Negli ultimi anni sono stati proposti diversi metodi per la valutazione automatica della qualità dell'immagine. Molti di essi sono stati progettati per trattare immagini distorte sinteticamente, che per definizione non modellano veramente le distorsioni che affliggono le immagini del mondo reale. In questa tesi viene investigato un metodo per la valutazione automatica della qualità delle immagini realmente distorte. Mostra prestazioni migliori rispetto ai metodi più avanzati sia su dataset di immagini distorte sinteticamente che autenticamente. A differenza della qualità dell'immagine, che caratterizza la qualità percepita del segnale dell'immagine, l'estetica rappresenta la bellezza percepita. Come primo passo, è stato studiato il problema della valutazione della qualità estetica delle immagini con contenuto generale. La soluzione proposta ha ottenuto risultati migliori nello stato dell'arte sul più grande dataset di immagini disponibile. Dato che uno dei contenuti visivi più popolari è il volto (ad esempio sui social network per la condivisione di foto), la valutazione estetica è, stata ulteriormente approfondita per il caso specifico delle immagini di ritratti. A tal fine, in questa tesi viene proposto un algoritmo che coinvolge la combinazione dei precedenti attributi visivi investigati (vale a dire la qualità e l'estetica delle immagini di contenuto generale) e le caratteristiche del volto (cioè sorridente, acconciatura, trucco). La descrizione degli attributi facciali è ottenuta grazie a due metodi proposti. Il primo algoritmo è un rilevatore di sorrisi robusto (rappresenta un'importante funzione visiva per l'estetica del ritratto), il secondo è un modello a più attività progettato per stimare simultaneamente biometriche e attributi morbidi come i colori e gli stili dei capelli, i tipi di barba. Mentre il primo algoritmo supera i metodi più avanzati (anche rispetto alle immagini altamente distorte), il modello multi-task ottiene prestazioni comparabili. I risultati sperimentali per la valutazione estetica delle immagini di volti grazie all'uso dell'algoritmo proposto mostrano prestazioni promettenti su tre set di dati standard.

(2018). LEARNING QUALITY, AESTHETICS, AND FACIAL ATTRIBUTES FOR IMAGE ANNOTATION. (Tesi di dottorato, Università degli Studi di Milano-Bicocca, 2018).