Automatic Description and Annotation of Complex Scenes

Buzzelli, M

Automatically describing digital images consists in extracting information that meaningfully represents the depicted elements and their attributes. The specific concept of "meaningful" can be determined by the final application: in assistance to visually impaired people, for example, the final user might want to recognize familiar elements such as landmarks and logos. In the context of driver support for smart cars, it could be useful to recognize other vehicles and pedestrians, and to tell their distance from the car itself. A general pipeline for the envisioned scenarios involves three steps: object proposal, classification, and attributes extraction. In this thesis, several methods have been studied and developed for each of these steps, and subsequently applied to specific domains with the intent of comparing the produced solutions with existing works. Object proposal: one or many subregions containing elements of potential interest are extracted from the input image. In this thesis, single-object proposal is achieved using a neural architecture that is optimized in a novel way, combining genetic programming for the structure optimization with back-propagation for parameters tuning. Crossing the gap between object proposal and classification, semantic segmentation is then addressed with the definition of an original neural architecture that pays particular attention to computational efficiency for high-throughput scenarios. Classification: the subregions generated by the object proposal phase are classified into visual classes. Logo recognition is reported as a first case study. A new dataset has been collected, extending tenfolds the existing standard. Its combination with synthetic forms of data augmentation allows to reach state of the art performance. Vegetables and fruits recognition is then chosen as a representative example for fine-grained visual classification problems. The task is addressed by preprocessing images with object proposal algorithms, and by exploiting the hierarchical structure of the depicted classes. Attributes extraction: some subregions, identified as belonging to specific classes, are being associated with extra information. For the task of illuminant estimation, an original learning strategy is proposed, that completely avoids the need for explicitly-annotated illuminant information, relying instead on alternatively-available object-class annotations. Distance estimation is reported as a final case study. An alternative data representation is proposed, which is independent of any specific acquisition device, allowing the training of richer models for distance estimation. The role of data and its representation emerges as a common theme throughout the whole thesis. In particular, the following work describes the path from relying on existing manual annotations, to gradually reducing this dependency through alternative representations and learning strategies.

La descrizione automatica delle immagini digitali consiste nell'estrarre informazioni che rappresentano in modo significativo gli elementi raffigurati e i loro attributi. Il concetto specifico di "significativo" può essere guidato e determinato dall'applicazione finale: nell'assistere persone ipovedenti, ad esempio, l'utente finale potrebbe voler riconoscere elementi familiari quali edifici e loghi. Nel contesto del supporto dei conducenti per le auto intelligenti, potrebbe essere utile riconoscere altri veicoli e pedoni e distinguere la distanza dall'auto stessa. Una pipeline generale per gli scenari previsti prevede tre passaggi: object proposal, classification, ed attributes extraction. Nel corso di questa tesi sono stati studiati e sviluppati diversi metodi per affrontare ciascuna di queste fasi, e gli stessi sono stati successivamente applicati a domini specifici con l'intento di confrontare le soluzioni prodotte con lavori esistenti in letteratura. Object proposal: una o più sottoregioni contenenti elementi di potenziale interesse vengono estratti a partire dall'immagine di input. In questa tesi, l'object proposal per singoli oggetti è realizzata utilizzando un'architettura neurale ottimizzata in maniera originale, combinando la programmazione genetica per l'ottimizzazione della struttura con la back-propagation per l'ottimizzazione dei parametri. In sovrapposizione sugli step di object proposal e classification, la sementazione sematica è affrontata mediante la definizione di un'architettura neurale originale che presti particolare attenzione all'efficienza computazionale per scenari di high-throughput. Classificazione: le sottoregioni generate dalla fase di object proposal vengono classificate in specifiche classi visive. Il riconoscimento di loghi è riportato come primo caso di studio. È stato raccolto un nuovo set di dati, estendendo di dieci volte lo standard esistente. La combinazione di quest'ultimo con forme sintetiche di data augmentation consente di raggiungere prestazioni allo stato dell'arte. Il riconoscimento di vegetali e frutta è successivamente selezionato come esempio rappresentativo di problemi di classificazione visiva a grana fine. Il problema è affrontato pre-elaborando le immagini tramite algoritmi di object proposal, e sfruttando la struttura gerarchica delle classi coinvolte per raggiungere un'accuratezza di classificazione maggiore. Attribtues extraction: alcune sottoregioni, identificate come appartenenti a classi specifiche, sono associate ad informazioni aggiuntive. Per il compito di stima dell'illuminante, viene proposta una strategia di apprendimento originale, che elimina totalmente la necessità di annotazioni esplicite sugli illuminanti, utilizzando invece annotazioni di classi d'oggetti, che possono essere più facilmente reperite. La stima della distanza è riportata come caso di studio finale. Viene proposta una rappresentazione alternativa dei dati, indipendente dallo specifico dispositivo di acquisizione, che consente l'addestramento di modelli più ricchi per la stima della distanza. Il ruolo dei dati e la sua rappresentazione emerge come tema comune in tutta la tesi. In particolare, il lavoro svolto descrive il percorso compiuto a partire dall'affidamento ad annotazioni manuali, per poi ridurre gradualmente questa dipendenza attraverso rappresentazioni alternative e strategie di apprendimento.

(2019). Automatic Description and Annotation of Complex Scenes. (Tesi di dottorato, Università degli Studi di Milano-Bicocca, 2019).