Image Collection Management using Convolutional Neural Networks

Leonardi, M

Almost everyone carries a high-quality camera in their smartphone and uses it to communicate with other individuals and for the last two decades, people are increasingly making use of images and videos in their transportable communication. As the prices of the storage are decreasing, the number of photos stored is increasing, leading to collections of images whose sizes begin to be a barrier for relieving the captured moments and exploring them. We are submerged by images. In order to ease the problem of oversized image collections, methods that aim to select a subset of photos that best represents them have been designed and proposed in the literature. Those methods typically rely upon the prediction of perceptual features such as, for example, the image quality, aesthetics, and memorability, to select the best images. This thesis starts from the fundamental image properties that guide the image selection, respectively the image quality and image aesthetics. First, the perceived image quality assessment is investigated in an anomaly detection manner, contrary to the most common regression task. This is because rather than predict a score that best correlates to the average human opinion, being able to distinguish good quality images from bad ones, is more suitable for the image collection management problem, furthermore, it requires fewer images to tune the model. Then the problem of automatic assessment of image aesthetics is introduced. In the beginning, presenting a method that learns the aesthetics of a picture on the basis of the prediction of aesthetics-related attributes. Then, a new solution that takes into account the semantic content, the artistic style, and the composition of the image is presented. One of the reasons people take photos is to capture important situations to recall them later on, usually with the intention of afterwards sharing their photos with other people like friends or family members. Photos can be seen as a concrete link between our memories and experienced events. Image memorability can be helpful in the organization of the selected images to better bind the memory of experienced events and the taken images. To this end in this thesis, a method for the estimation of still image memorability is presented. In particular, the proposed method goes in the direction of breaking down the intrinsic image properties that influence the memorability of the pictures. Image collections tend to have several similar images. This is because to ensure the best shot, people usually take a series of photos of the same scene. To guarantee a diverse and representative selection of images from a large collection, this thesis concludes by proposing a flexible and innovative framework that can be used to both explore large-scale image datasets and to summarize photo albums. The proposed method is designed to exploit different aspects of the images, such as the scene category, image quality, and image aesthetics.

Al giorno d’oggi ormai quasi chiunque possiede uno smartphone dotato di una telecamera ad alta risoluzione. Negli ultimi decenni, i contenuti multimediali (immagini e video) stanno sempre più spesso diventando il principale mezzo di comunicazione. Dato il continuo calo dei prezzi dei dispositivi di archiviazione, il numero totale di immagini salvate sta aumentando notevolmente, andando così a creare collezioni di immagini sempre più grandi, a tal punto da essere una problema per chi vuole le vuole esplorare. Data una libreria di immagini, il processo di selezione di un gruppo di foto che rappresenti al meglio le informazioni contenute in essa è condizionato dalle proprietà percettive delle immagini. Al fine di gestire in modo automatico questa selezione, in letteratura sono stati proposti diversi metodi che sfruttano le proprietà percettive delle immagini. Questi metodi hanno come scopo quello di associare alle immagini un valore numerico che ne rappresenta la presenza o meno di queste proprietà, come ad esempio la qualità, l'estetica o la memorabilità, per poi sfruttarle per selezionare le immagini migliori. La presente tesi comincia trattando quelle che sono le proprietà delle immagini fondamentali al processo di selezione delle immagini, rispettivamente la qualità e l’estetica delle immagini. Per prima cosa viene studiata la qualità delle immagini mediante un processo di rilevamento delle anomalie. Questo perché dal punto di vista di un sistema automatico di selezione delle immagini, è più indicato un metodo che sia in grado di distinguere le immagini belle da quelle brutte, piuttosto che un metodo che predica un valore ben correlato con la qualità delle immagini. Successivamente l’attenzione viene spostata sul problema della valutazione automatica dell’estetica delle immagini. In particolare viene prima proposto un metodo in grado di stimare il grado di bellezza di un'immagine a partire dalla predizione di attributi correlati all’estetica. Successivamente introducendo un metodo per la valutazione automatica dell’estetica fondato su molteplici aspetti delle immagini quali il contenuto semantico, lo stile artistico e lo stile di composizione. Uno dei tanti motivi per cui si scatta una foto è quello di poter essere poi in grado di rivivere il momento impresso semplicemente riguardando la foto. Le immagini possono essere pertanto viste come un collegamento concreto tra i propri ricordi e gli eventi passati. La memorabilità delle immagini è pertanto una proprietà fondamentale nell’organizzazione delle immagini. Essere in grado di riconoscere queste immagini memorabili, significa poter favorire la loro selezione. Per questo motivo nella suddetta tesi viene presentato un metodo capace di stimare la memorabilità delle immagini. In particolare la soluzione proposta va nella direzione di predire la memorabilità delle immagini scomponendo le proprietà intrinseche delle immagini che influenzano la memorabilità. Per finire, considerando che le collezioni di immagini tendono spesso ad avere molteplici foto simili tra loro. Al fine di garantire una selezione di immagini il più diversa e rappresentativa possibile, viene proposto un metodo flessibile ed innovativo per riassumere automaticamente le collezioni di immagini. A tal proposito, il metodo introdotto è stato progettato considerando diversi aspetti delle immagini tra cui la categoria della scena, la qualità e l'estetica.

(2022). Image Collection Management using Convolutional Neural Networks. (Tesi di dottorato, Università degli Studi di Milano-Bicocca, 2022).