Intelligente resolutieverbetering voor (zeer) hoge...

Pieter Everaerd

hoge-resolutie displaysIntelligente resolutieverbetering voor (zeer)

Academiejaar 2011-2012Faculteit Ingenieurswetenschappen en ArchitectuurVoorzitter: prof. dr. ir. Herwig BruneelVakgroep Telecommunicatie en Informatieverwerking

Master in de ingenieurswetenschappen: computerwetenschappen Masterproef ingediend tot het behalen van de academische graad van

Begeleiders: dr. ir. Quang Luong, dr. ir. Bart Goossens, Tijana RuzicPromotoren: prof. dr. ir. Wilfried Philips, prof. dr. ir. Aleksandra Pizurica

Toelating tot bruikleen

De auteur geeft de toelating deze masterproef voor consultatie beschikbaar te stellen en de-len van de masterproef te kopiëren voor persoonlijk gebruik. Elk ander gebruik valt onderde beperkingen van het auteursrecht, in het bijzonder met betrekking tot de verplichtingde bron uitdrukkelijk te vermelden bij het aanhalen van resultaten uit deze masterproef.

The author gives permission to make this master dissertation available for consultationand to copy parts of this master dissertation for personal use. In the case of any otheruse, the limitations of the copyright have to be respected, in particular with regard to theobligation to state expressly the source when quoting results from this master dissertation.

Pieter Everaerd 4 juni 2012

ii

Dankwoord

Graag zou ik iedereen willen bedanken die heeft bijgedragen tot de verwezenlijking vandit eindwerk, in het bijzonder dank ik:

• mijn promotoren prof. dr. ir. W. Philips en prof. dr. ir. A. Pizurica voor het scheppenvan de mogelijkheid om dit onderzoek te verrichten.

• mijn thesisbegeleiders dr. ir. H. Luong , Tijana Ruzic en dr. ir. B. Goossens voorhun uitstekende begeleiding.

• mijn familieleden voor de morele steun

• mijn vrienden die tijdens het thesiswerk gezorgd hebben voor de nodige afleiding

iii

Intelligente resolutieverbetering voor (zeer) hoge-resolutie displays

doorPieter Everaerd

Masterproef ingediend tot het behalen van de academische graad van Master in de inge-nieurswetenschappen: computerwetenschappen

Academiejaar 2011-2012

Universiteit GentFaculteit Ingenieurswetenschappen

Promotor: prof. dr. ir. W. PhilipsCo-promotor: prof. dr. ir. A. Pizurica

Samenvatting

Tegenwoordig zijn er heel wat televisies en computerschermen die een Full HD resolutiehebben. Het probleem hierbij is dat de meeste bestaande videocontent een lagere resolutieheeft en dat die content dus moet opgeschaald worden. Ook is er een nieuwe trend naarbeeldschermen en projectoren met een resolutie die vier maal meer pixels bevatten dan deFull HD resolutie. Hierbij zal zelfs de Full HD videocontent niet volstaan.

Om deze problemen op te lossen kan men gebruik maken van de zogenaamde “superre-solutietechnieken” die op een slimme manier proberen de resolutie van een beeld trachtente verhogen. Deze technieken zijn onder te verdelen in 2 grote categorieën. Enerzijdsheb je de technieken die gebruik maken van meerdere bijna identieke beelden om toteen superresolutiebeeld te komen en anderzijds heb je de technieken die gebruik makenvan voorbeelden van goede kwaliteit om aan de hand daarvan het superresolutiebeeld teconstrueren.

In dit werk zullen we twee superresolutietechnieken voorstellen die video op een re-cursieve manier zullen opschalen. Hiermee bedoelen we dat voor elk nieuw frame uit eenvideostroom, we direct het superresolutiebeeld kunnen construeren aan de hand van datframe en informatie uit vorige frames.

De ene techniek zal deel uitmaken van de technieken die gebruik maken van meerderebeelden en de andere hoort tot de technieken die voorbeelden van goede kwaliteit zullengebruiken bij de opschaling.

Trefwoorden: superresolutie, video, voorbeeldgebaseerd, zelfsimilariteit.

iv

Exploiting Self-Similarity for Video Super-Resolution

Pieter Everaerd

Supervisor(s): H.Q. Luong, T. Ruzic, B. Goossens, A. Pizurica and W. Philips

Abstract—This article introduces a new example-based super-resolutiontechnique for video. The proposed technique is based on the existingexample-based techniques who exploit self-similarity at different resolutionscales and don’t use a trained database. Our technique will extend thosetechniques to the upscaling of complete videos and won’t just exploit self-similarites between different resolution scales, but also the self-similaritesbetween different frames of the video.

Keywords—example-based, super-resolution, video, self-similarity

I. INTRODUCTION

Today televisions and screens with a Full HD resolution (1920x1080)are very common. The problem with this is that most of the availablevideocontent is of a lower resolution. Reasons for the lower resolutionvideos are for example bandwidth requirements (e.g. internet videos ordigital TV), cheap camera’s (e.g. cellphone) or simply the fact that thecontent was recorded before the existence of Full HD.

Besides the Full HD there is even a new trend of screens and projec-tors with a 4K resolution (e.g. 4096x2160). For these resolution eventhe Full HD videocontent won’t suffice.

To solve these problems bicubic interpolation is often used. Theproblem with this is that it cannot recover original high frequency de-tails of the scene if the scene is not sampled at a rate higher than theNyquist frequency.

To adress this we have the so called “super-resolution” techniqueswho attempt to increase the resolution while recovering the originalhigh frequency details of the scene.

The traditional approach to do this is the so called multi-frame super-resolution [1, 3, 2] which will combine severeal slightly different im-ages of the same scene into one image of a higher resolution. A prob-lem with this approach is that in general they cannot cope with thecomplex motions of video. A second relatively new approach is theso call example-based super-resolution that uses a database of samplesof good quality in order to improve the resolution of a single image.Most of these techniques use a database that is trained with good qual-ity high-resolution images [5, 6, 7]. Some techniques however won’tuse such a database and will extract the good quality samples from thelow-resolution image itself [9, 8]. These techniques exploit the self-similarities at the different resolution scales of an image.

Our proposed technique will extend this last class of techniques towork for video. Beyond just exploiting the self-similarities at differ-ent resolution scales, we will also exploit the self-similarities betweendifferent frames of a video.

II. PROPOSED TECHNIQUE

An example-based super-resolution technique uses block pairs in thesuper-resolution process. These block pairs will be used as exampleand consist of a low-resolution block (LR-block) and a correspondinghigh-resolution block (HR-block).

For every frame of the proposed technique will apply these threesteps:1. Extract block pairs from the current low-resolution frame and savethem in the database.2. Construct the super-resolution frame using the low-resolution frameand the block pairs in the database.3. Clean up the database by removing the least used block pairs.

—————————————————–P. Everaerd is a master student in Computer Sciences at the Faculty of

Engineering at Ghent University (UGent), Gent, Belgium. E-mail: [email protected] .

A. Extraction of block pairs

To extract the block pairs from the current frame we start by scalingthis frame down. For the integer scaling factor s, this is done by firstblurring the frame with a uniform blur kernel of size s × s and thensubsampling by choosing every sth pixel. Note that we can see theblurred frame as adjectant s×s blocks and that the subsampling implieschoosing one pixel in every s× s block. This means that scaling downcan be done in s2 different ways. We will use all these scaled downversions of the frame to extract block pairs.

The LR-blocks will be extracted from all the scaled down frames. Be-cause we will only save the high frequenties of both the LR-blocks andHR-blocks, we will substract the LR-block with its mean. Once we havean LR-block we can extract the corresponding HR-block from the dif-ference image. This difference image will contain the high frequenciesof the different HR-block and is constructed by upsampling the currentscaled down frame with a Lanczos-interpolation and subtracting it withthe current frame (see Figure 1).

Figure 1: Construction of the difference image.

B. Construction of the super-resolution frame

The super-resolution frame was constructed by considering every(overlapping) LR-block in the low-resolution frame and searching forthe ten best matching block pairs. These best matches were foundby comparing the Root Mean Square Errors (RMSE) between the LR-block of a block pair and the considered LR-block. The block pairs withthe least RMSE were considered the best matches. From these ten bestmatches we calculated a HR-block by calculating a weighted average ofthe ten HR-blocks. The weight of each HR-block is determined by theRMSE and the weigthed average is calculated as follows:

blhr =

10∑

k=1

1/RMSEk

10∑k=1

(1/RMSEk)

· blk

. (1)

Here blk represents the kthe best matching HR-block and RMSEk

represents the corresponding RMSE.Once we have calculated an HR-block for each LR-block we can con-

struct the difference image. For each LR-block we put the HR-block atthe corresponding position in the difference image. Because the con-sidered LR-blocks overlap, the HR-blocks will overlap as well. Thiswas taken care of by just averaging the pixelvalues in the overlappingregions.

In order to construct the final super-resolutionframe we willadd this difference image to the Lanczos-interpolation of the low-resolutionframe. The Lanczos-interpolation can be seen as the low fre-quenties and the difference image as the high frequenties of the finalsuper-resolution image.

C. Database of block pairs

The proposed technique will use two sorts of databases. The firstdatabase is a global database that will contain the most used block pairsfrom previous frames and the second database will be a local one thatcontains the block pairs extracted from the current frame. This localdatabase will be partitioned based on the position in the frame were theblock pair was extracted from. The frame will be divided in image-blocks of a fixed size and these imageblocks will hava a corespondingpartition of the local database. Partitioning this database will allow forfaster computation of the super-resolution frame.

So when we search the 10 best matches for a certain LR-block inthe frame we have 2 databases at our disposal to search in. We willsearch for the best matching block pairs in the global database and in thepartition of the database corresponding to the position of the consideredLR-block.

The global database and the partition of the local database will havefixed sizes. By doing this the search time for the best 10 matches willbe the same per considered LR-block. No matter of how big the screenresolution is.

The idea behind these two databases is that the global will containthe common used blocks and that the local database will exploit theself-similarity at a certain part of the frame.

III. RESULTS

To compare the results we first downsampled some test sequenceswith a factor 2. Then we used our proposed technique to upsample thevideos and compared the result with the original high-resolution video.The partitionsize of the local database was 100x100.

Figure 2 compares the proposed technique with the Lanczos-interpolation for the first 20 frames of Foreman (low-resolution size:144x176) and Suzie (low-resolution size: 120x175) sequence . You cansee that our proposed technique offers a clear improvement comparedto the Lanczos-interpolation.

In Figure 3 you can see a visual comparison of the proposed tech-nique and the Lanczos-interpolation. You can see that with our tech-nique the edges in the image will be sharper and smoother. When wecompared the calculation time with an unpartitioned local database wesaw that the partitioned database caused a 60% decrease in calculationtime while preserving the same quality.

IV. CONCLUSION

We have presented a technique that extends the example-based super-resolution without a trained database to exploit the self-similarities inthe video.

By partitioning the local database we could improve the calculationspeed and by combining it with a global database we preserve the samequality as an unpartitioned database.

REFERENCES

[1] Michal Irani. Shmuel Peleg, “Super resolution from image sequences,” 1990.[2] R. Hardie, “A fast image super-resolution algorithm using an adaptive wiener

filter.,” IEEE Transactions on Image Processing, vol. 16, no. 12, pp. 2953–2964, 2007.

[3] S. Farsiu, D. Robinson, M. Elad, and P. Milanfar, “Fast and robust multi-frame super-resolution.,” IEEE Trans. Image Process., vol. 13, no. 10, pp.1327 – 1344, 2004.

[4] H. Luong, S. Lippens, and W. Philips, “Practical and robust super reso-lution using anisotropic diffusion for under-determined cases,” in Proc. ofSPS-DARTS 2006 (the second annual IEEE Benelux/DSP Valley Signal Pro-cessing Symposium), Mar. 2006, pp. 139–142.

[5] William T. Freeman and Egon C. Pasztor, “Learning low-level vision,” In-ternational Journal of Computer Vision, vol. 40, pp. 2000, 2000.

[6] W.T. Freeman, T.R. Jones, and E.C. Pasztor, “Example-based super-resolution,” IEEE Comput. Graphi. Appl., vol. 22, no. 2, pp. 56 – 65, 2002.

[7] Kwang In Kim and Younghee Kwon, “Super-resolution and jpeg artifactremoval,” 2008.

[8] T. Ruic, H. Luong, A. Piurica, and W. Philips, “Single image example-basedsuper-resolution using cross-scale patch matching and markov random fieldmodelling,” in International Conference on Image Analysis and Recognition(ICIAR) 2011, M. Kamel and A. Campilho, Eds. 2011, pp. 11–20, Springer-Verlag, Berlin, Germany.

[9] Daniel Glasner, Shai Bagon, and Michal Irani, “Super-resolution from asingle image,” in ICCV, 2009.

31,00

31,50

32,00

32,50

33,00

33,50

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

PSN

R (

dB

)

Frame

Foreman

Lanczos

Super-resolution

(a) Foreman video.

33,50

34,00

34,50

35,00

35,50

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

PSN

R (

dB

)

Frame

Suzie Lanczos

Super-resolution

(b) Suzie video.

Figure 2: Comparison of the PSNR-values between the Lanczos-interpolation and the proposed super-resolution technique.

(a) Lanczos

(b) Super-resolution

Figure 3: Visual comparison on zoomed in part of the 10th frame of theforeman sequence.

Inhoudsopgave

1 Inleiding 11.1 Context . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2 Doelstelling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.3 Inhoud van deze thesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

2 Literatuurstudie 32.1 Superresolutie op basis van meerdere beelden . . . . . . . . . . . . . . . . . 3

2.1.1 Observatiemodel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32.1.2 Superresolutie in het frequentiedomein . . . . . . . . . . . . . . . . . 62.1.3 Iteratieve terugprojectie . . . . . . . . . . . . . . . . . . . . . . . . . 62.1.4 Niet-uniforme interpolatie . . . . . . . . . . . . . . . . . . . . . . . . 62.1.5 Probabilistische bewegingsestimatie . . . . . . . . . . . . . . . . . . 82.1.6 3D sturende regressie . . . . . . . . . . . . . . . . . . . . . . . . . . 102.1.7 Projectie op convexe verzamelingen . . . . . . . . . . . . . . . . . . . 11

2.2 Voorbeeldgebaseerde superresolutie . . . . . . . . . . . . . . . . . . . . . . . 112.2.1 Oorsprong blokparen . . . . . . . . . . . . . . . . . . . . . . . . . . . 112.2.2 Constructie superresolutiebeeld . . . . . . . . . . . . . . . . . . . . . 122.2.3 Post-processing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

3 VSPB-techniek: Videosuperresolutie met behulp van probabilistischebewegingsestimatie 133.1 Algemeen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133.2 Zoekvenster . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143.3 Relatie tussen een lage-resolutieblok en een hoge-reso-lutieblok . . . . . . . 163.4 Probabilistische bewegingsestimatie . . . . . . . . . . . . . . . . . . . . . . . 163.5 Constructie superresolutiebeeld . . . . . . . . . . . . . . . . . . . . . . . . . 173.6 Restoratiestap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

4 Resultaten VSPB-techniek 214.1 Gebruikte parameters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214.2 Vergelijking met de originele techniek . . . . . . . . . . . . . . . . . . . . . 214.3 Invloed ruis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

5 VVS-techniek: Voorbeeldgebaseerde Videosuperresolutie 285.1 Algemeen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 285.2 Extractie en opslag van blokparen . . . . . . . . . . . . . . . . . . . . . . . 29

5.2.1 Beschrijving blokpaar . . . . . . . . . . . . . . . . . . . . . . . . . . 29

vii

5.2.2 Extractie blokparen . . . . . . . . . . . . . . . . . . . . . . . . . . . 305.2.3 Opslag hoge-resolutieblokken . . . . . . . . . . . . . . . . . . . . . . 305.2.4 Opslag lage-resolutieblokken . . . . . . . . . . . . . . . . . . . . . . . 33

5.3 Constructie van een superresolutiebeeld . . . . . . . . . . . . . . . . . . . . 355.3.1 Beste overeenkomst . . . . . . . . . . . . . . . . . . . . . . . . . . . 365.3.2 Uitmiddeling van beste overeenkomsten . . . . . . . . . . . . . . . . 385.3.3 Markov Random Fields . . . . . . . . . . . . . . . . . . . . . . . . . 39

5.4 Gebruikte databank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 415.4.1 Overgedragen blokparen . . . . . . . . . . . . . . . . . . . . . . . . . 415.4.2 Volledige databank . . . . . . . . . . . . . . . . . . . . . . . . . . . . 425.4.3 Databank gepartitioneerd op basis van gemiddelde pixelwaarde . . . 425.4.4 Databank gepartitioneerd op basis van beeldblokken . . . . . . . . . 43

5.5 Post-processing stap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

6 Resultaten VVS-techniek 466.1 Algemeen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 466.2 Testomgeving . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 466.3 Extractie en opslag van blokparen . . . . . . . . . . . . . . . . . . . . . . . 48

6.3.1 Opslag hoge-resolutieblokken . . . . . . . . . . . . . . . . . . . . . . 486.3.2 Opslag lage-resolutieblokken . . . . . . . . . . . . . . . . . . . . . . . 506.3.3 Gebruikte lage-resolutieblokgrootte . . . . . . . . . . . . . . . . . . . 50

6.4 Constructie superresolutiebeeld . . . . . . . . . . . . . . . . . . . . . . . . . 546.4.1 Uitmiddeling van beste overeenkomsten . . . . . . . . . . . . . . . . 546.4.2 Markov Random Fields . . . . . . . . . . . . . . . . . . . . . . . . . 556.4.3 Uitmiddelen versus Markov Random Fields . . . . . . . . . . . . . . 56

6.5 Gebruikte databank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 586.5.1 Vergelijking van de databanken . . . . . . . . . . . . . . . . . . . . . 586.5.2 Invloed van de databankgrootte . . . . . . . . . . . . . . . . . . . . . 616.5.3 Vergelijking tussen de volledige databank en de gepartioneerde da-

tabank op basis van beeldblokken op een volledige video . . . . . . . 636.6 Resultaten op de volledige testvideo’s . . . . . . . . . . . . . . . . . . . . . 64

6.6.1 Vergelijking tussen de twee superresolutieconstructiemethodes . . . . 646.6.2 Vergelijking met andere superresolutietechnieken . . . . . . . . . . . 67

7 Besluit 76

Referenties 77

viii

Tabel met afkortingen

Afkorting Betekenis

MRF Markov Random FieldsPSNR Peak Signal-to-Noise RatioRMSE Root Mean Square ErrorVSPB VideoSuperresolutie met behulp van Probabilistische BewegingsestimatieVVS Voorbeeldgebaseerde VideoSuperreoslutie

ix

Hoofdstuk 1

Inleiding

1.1 ContextVandaag de dag worden er al heel wat televisies en computerschermen met een Full HDresolutie (1920x1080) verkocht. Het probleem hierbij is dat de meeste videocontent in eenlagere resolutieformaat bestaat. Redenen hiervoor zijn dat de content opgenomen voordatde HD camera’s bestonden of omdat men er simpelweg voor kiest om de content op tenemen met goedkopere niet-HD camera’s of zelfs met bijvoorbeeld de camera van eenGSM. Daarenboven zal HD-content ook meer opslagruimte vragen en bandbreedte bij hetstreamen. Denk hierbij aan de Belgische digitale televisie providers die enkel de populairstezenders in HD formaat zullen uitzenden om de totale bandbreedte te beperken. Ook demeeste internetvideo’s zullen van een (veel) lagere resolutie zijn. Redenen hiervoor zijn datmen hierdoor de benodigde bandbreedte beperkt en dat veel van die filmpjes opgenomenzijn met een camera van slechte kwaliteit (b.v. GSM).

Naast Full HD is er ook een nieuwe trend naar monitoren en projectoren met een 4Kresolutie (b.v. 4096x2160). Dit gaat hier om resoluties die in lengte en breedte ongeveerdubbel zoveel pixels zal bevatten dan de huidige Full HD standaard. Hierbij hebben weopnieuw het probleem dat zelfs de Full HD content niet meer voldoet en dat er maar zeerweinig videocontent met zo een resolutie bestaat.

Om deze problemen op te lossen kan men gebruik maken van de zogenaamde “superre-solutietechnieken” die op een slimme manier proberen de resolutie van een beeld trachtente verhogen. Deze technieken zijn onder te verdelen in 2 grote categorieën. Enerzijds hebje de technieken die gebruik maken van meerdere bijna identieke beelden om tot een su-perresolutiebeeld te komen en anderzijds heb je de technieken die gebruik maken van eendatabank met voorbeelden van goede kwaliteit om aan de hand daarvan het superresolu-tiebeeld te construeren. Deze databank zal in de meeste gevallen opgebouwd worden aande hand van hoge-resolutie trainingsbeelden, maar bij sommige technieken maakt men ookenkel gebruik van het op te schalen beeld zelf om de databank te vullen met voorbeelden.

1.2 DoelstellingAangezien er maar weinig superresolutietechnieken zijn die zich focussen op video en dusgeschikt zijn om videostromen op te schalen zullen wij trachten een techniek te ontwikkelenom videostromen op te schalen. De doelstelling van deze thesis is om een superresolutie-

1

techniek te ontwikkelen die op een recursieve manier een video kan opschalen. Hiermeebedoelen we dat voor elk nieuw frame uit een videostroom, we direct het superresolutie-beeld kunnen construeren aan de hand van dat frame en informatie uit vorige frames.

1.3 Inhoud van deze thesisIn Hoofdstuk 2 zullen we beginnen met een bespreking van de bestaande superresolutie-technieken. Hierbij komen zowel de technieken op basis van meerdere beelden als die opbasis van voorbeelden aan bod.

Hierna zullen in deze thesis twee superresolutietechnieken worden voorgesteld. Deeerste techniek hoort tot de categorie op basis van meerdere bijna identieke beelden. Aan-gezien we deze techniek minder lang onderzocht hebben of de tweede techniek beslaat dezemaar een klein deel van deze thesis. Hoofdstuk 3 zal de techniek beschrijven en Hoofdstuk4 toont enkele resultaten van deze techniek.

De tweede techniek wordt beschreven in Hoofdstuk 5 en behoort tot de categorievan technieken die gebruikt maakt van voorbeelden, de zogenaamde voorbeeldgebaseerdesuperresolutie. In Hoofdstuk 6 zullen we de besproken aanpakken vergelijken en zullenwe de resultaten van deze techniek vergelijken met onze techniek op basis van meerderebeelden en andere superresolutietechnieken.

Tot slot wordt zullen we in Hoofdstuk 7 ons besluit formuleren.

2

Hoofdstuk 2

Literatuurstudie

De laatste jaren is er veel onderzoek gebeurd naar verschillende superresolutietechnieken,deze zijn onder te verdelen in twee grote categorieën.

De eerste categorie is de superresolutie op basis van meerdere beelden. Daarbij startmen van een aantal verschillende lage-resolutiebeelden en zal men die proberen om tezetten naar één hoge-resolutiebeeld. De lage-resolutiebeelden worden in een wiskundigmodel als degradaties van het hoge-resolutie beeld beschouwd. Aan de hand van dit modelen de geöbserveerde lage-resolutiebeelden zal men dan het superresolutiebeeld bepalen.

Bij de tweede categorie vertrekt men van slechts één lage-resolutiebeeld om het su-perresolutiebeeld te bepalen. De technieken uit deze categorie worden ook wel de voor-beeldgebaseerde technieken genoemd. Deze technieken zullen geen gebruik maken van eenwiskundig model, maar van blokparen. Deze blokparen bestaan uit een lage-resolutiebloken een hoge-resolutieblok en dienen dus als het ware als voorbeeld. In de meeste gevallenzullen deze blokparen opgeslagen worden in een databank die getraind is aan de hand vanhoge-resolutiebeelden. Er zijn ook technieken die werken zonder zo een databank. Dezezullen de voorbeeldparen extraheren uit het lage-resolutiebeeld zelf.

2.1 Superresolutie op basis van meerdere beeldenIn dit deel beginnen we met het opstellen van een observatiemodel dat het superresolu-tieproces op een wiskundige manier benadert. Aan de hand van dit model zullen we danuitleggen hoe het superresolutieproces theoretisch in zijn werk gaat.

Na de theoretische uitleg stellen we enkele bestaande praktische technieken voor omhet superresolutieprobleem met meerdere afbeeldingen op te lossen.

2.1.1 Observatiemodel

Om het superresolutieprobleem met meerdere beelden goed te kunnen analyseren stellenwe eerst een observatiemodel op. Dit obeservatiemodel zal beschrijven hoe een beelduit een continue scène wordt vastgelegd en hoe er meerdere gedegradeerde versies zullenontstaan van dezelfde continue scène. Verder leggen we theoretisch uit hoe we uit dezedegradaties het gewenste hoge-resolutiebeeld zouden kunnen bekomen.

3

Figuur 2.1: Observatiemodel

Schematische voorstelling

Figuur 2.1 toont de verschillende degradaties dat een beeld uit een continue scène zalondergaan. U ziet dus dat het gewenste hoge-resolutiebeeld bekomen wordt door de wer-kelijke continue scène ideaal te bemonsteren. Met ideale bemonstering bedoelen we datde bemonsteringsfrequentie hoog genoeg is zodat er aan het Nyquist–Shannon bemonste-ringstheorema is voldaan en dat er geen frequentieverwarring in het beeld zal plaatsvinden.

De verschillende gedegradeerde beelden van zo een continue scène zullen ontstaan door-dat deze scène eerst enkele bewegingen (van de camera) bewegingen zal ondergaan. Merkop dat we in het geval van videobeelden het observatiemodel ook bewegingen van de con-tinue scène zelf zal moeten modelleren. Dit zal het bewegingsmodel voor videobeeldenuiteraard een stuk moeilijker maken.

Daarna zullen deze beelden een bepaalde vervaging ondervinden. Deze kunnen bij-voorbeeld te wijten zijn aan de de grootte (optische vervaging) en de openingstijd (bewe-gingsvervaging) van het diafragma. Doordat de camerasensors niet oneindig klein kunnengemaakt worden, zal een pixelwaarde het resultaat zijn van een integratie over het sen-soroppervlak in plaats van een impuls bemonstering. Dit zal ook een vorm van vervagingveroorzaken.

Aan de camerasensors zullen deze vervaagde hoge-resolutiebeelden dus bemonsterdworden door te integreren over de oppervlakte van de sensor. Hierdoor zullen dan deuiteindelijk lage-resolutiebeelden ontstaan. In deze stap kan er ook frequentie-verwarringontstaan doordat de bemonstering aan een te lage frequentie gebeurt. Deze beelden zullenook wat ruis bevatten door bijvoorbeeld niet perfect werkende camerasensors of -lenzen.

4

Wiskundig model

Als X het ideaal bemonsterde hoge-resolutiebeeld voorstelt en Yk het kde lage-resolutiebeelddan kan de relatie daartussen beschreven worden aan de hand van de volgende formule:

Yk = DkHkFkX + Vk (2.1)

hierbij stelt Fk de bewegingsinformatie voor van het kde frame, Hk de vervaging, Dk debemonsteringsoperator en Vk is de ruisterm.

Maximum-Likelihood

Met behulp van het model van vergelijking (2.1) kan men het meest waarschijnlijke hoge-resolutiebeeld zoeken, gegeven de geobserveerde lage-resolutiebeelden. De uitkomst hier-van heet de “Maximum-Likelihood” schatting en wordt bekomen aan de hand van devolgende formule:

X = arg minX

(K∑k=1‖Yk −DkHkFkX‖22

)(2.2)

Deze formule zoekt dus een hoge-resolutiebeeld X waarvoor het verschil tussen de gemod-deleerde lage-resolutiebeelden DkHkFkX en de geobserveerde lage-resolutiebeelden Yk zoklein mogelijk is.

Een voor de hand liggende manier om tot een oplossing te komen zou zijn om boven-staande vergelijking af te leiden en het minimum te bekomen aan de hand van volgendeformule:

X =(

K∑k=1

(MTk Mk)

)−1( K∑k=1

(MTk Yk)

)(2.3)

met Mk = DkHkFk.Het probleem hierbij is dat de kans groot is dat (

∑Kk=1(MT

k Mk)) singulier is en dater dus oneindig veel oplossingen zullen zijn. Dit zou kunnen opgelost worden door eenregularisatieterm toe te voegen in vergelijking (2.2).

Een tweede (groter) probleem is dat∑Kk=1(MT

k Mk) snel heel groot wordt en dat hetberekenen van de directe inverse praktisch niet mogelijk is.

Maximum A Priori

Een van de problemen van vergelijking (2.2) was dat de matrices Dk,Hk en Fk sparsezijn en dat ze in de meeste gevallen zelfs nog moeten geschat worden aan de hand van delage-resolutiebeelden. Hierdoor is het probleem slecht gesteld en zal de oplossing meestalniet uniek zijn.

Een oplossing hiervoor is het “Maximum a priori” raamwerk. Hierbij wordt een re-gularisatieterm toegevoegd die zorgt voor een unieke oplossing. Het hoge-resolutiebeeldwordt dan geschat aan de hand van de volgende vergelijking:

X = arg minX

(K∑k=1‖Yk −DkHkFkX‖22 + αG(X)

)(2.4)

In dit raamwerk worden dus extra beperkingen opgelegd aan de hoge-resolutiebeelden.Deze beperkingen zullen gebaseerd zijn op voorkennis dat men heeft over waaraan een

5

hoge-resolutiebeeld moet voldoen. Deze beperkingen worden opgelegd door de regula-ristatieterm en in vergelijking (2.4) zal α de belangrijkheid bepalen van deze beperkingen.

Een gekend voorbeeld van zo een beperking is “Total Variation”, waar stuksgewijzegladheid aan de figuur wordt opgelegd. Bij dit voorbeeld zal een grotere α dus zorgen vooreen gladdere hoge-resolutiebeeld die wat minder trouw zal blijven aan de geöbeserveerdelage-resolutiebeelden.

2.1.2 Superresolutie in het frequentiedomein

Het eerste werk over superresolutie gebeurde door Tsai en Huang [HT84], hierin werd ex-pliciet gebruik gemaakt van het feit dat bij het opschalen van lage-resolutiebeelden er inveel gevallen frequentieverwarring zal ontstaan in de hoge-resolutiebeelden. De techniekwerkte dus volledig in het frequentiedomein en maakte gebruik van de verschuivingsei-genschap bij de Fouriertransformatie. De Fouriercoefficiënten van het bandgelimiteerdehoge-resolutiebeeld werden berekend aan de hand van een set van lineaire vergelijkingendie de discrete Fouriertransformaties van de lage-resolutiebeelden linkten aan de continueFouriertransformatie van het hoge-resolutiebeeld. Door de inverse Fouriertransformatietoe te passen kon men dan het finale hoge-resolutiebeeld bekomen.

Een nadeel aan deze frequentiemethodes is dat ze alleen globale translatie tussen deverschillende beelden ondersteunt. Dit is zeker niet voldoende voor het opschalen vanvideobeelden waarbij er vaak complexe bewegingen voorkomen. Verder ondersteunen defrequentiemethodes alleen maar spatiaal invariante vervaging en is moeilijk bepaalde be-perkingen of voorkennis op te leggen aan het beeld.

Na Tsai en Huang [HT84] werden er nog een aantal variaties op hun werk in hetfrequentiedomein ontwikkeld, maar vooral door de vernoemde problemen werd het laterewerk over superresolutie vooral in het meer flexibele spatiale domein behandeld.

2.1.3 Iteratieve terugprojectie

Een simpele en populaire methode om een oplossing te vinden voor vergelijking (2.2) is deiteratieve terugprojectie die voorgesteld wordt in [Pel90]. Dit is een methode waarbij dehet hoge-resolutiebeeld iteratief wordt geüpdatet aan de hand van de fout ten op zichtevan de lage-resolutiebeelden. Deze fout wordt berekend door dus de huidige schatting vanhet hoge-resolutiebeeld te degraderen naar lage-resolutiebeelden en deze dan te vergelijkenmet de geöbserveerde lage-resolutiebeelden. Aan de hand van de zogenaamde terugpro-jectiekern wordt dan bepaald hoe het beeld geüpdatet moet worden bij een bepaalde fout.Figuur 2.2 stelt dit algoritme schematisch voor. Het huidig superresolutiebeeld zal dusiteratief geüpdatet worden totdat de fout tussen de gesimuleerde en geobserveerde lage-resolutiebeelden voldoende klein wordt.

Een nadeel aan deze methode is dat de oplossing niet uniek is en sterk afhangt vande initiële schatting van het hoge-resolutiebeeld en de keuze van de terugprojectiekern.Bovendien is het ook moeilijk om bepaalde beperkingen aan het te bekomen beeld op teleggen.

2.1.4 Niet-uniforme interpolatie

Een ander veel gebruikte techniek (b.v. [Har07, EHO01, FREM03, LLP06]) is die van deniet-uniforme interpolatie.

6

Figuur 2.2: Iteratieve terugprojectie

Hierbij wordt de vervaging als spatiaal lineair invariant beschouwd in al de lage-resolutiebeelden zodat we Hk in vergelijking (2.2) kunnen vervangen door H. Als webovendien alleen eenvoudige bewegingsmodellen beschouwen dan zullen Fk en H commu-teren en kunnen we vergelijking (2.2) ook schrijven als:

X = arg minX

(K∑k=1‖Yk −DkFkHX‖22

)(2.5)

Als we nu Z definiëren als Z = HX dan kunnen we X schatten aan de hand van vol-gende intuïtieve interpolatietechniek. Deze techniek bestaat uit drie stappen: registratie,regressie en restoratie.

Registratie De registratiestap is de belangrijkste stap van deze techniek, als deze nietgoed gebeurt zal het superresolutiebeeld van een slechte kwaliteit zijn. In de registra-tiestap tracht men de onderlinge beweging van de lage-resolutiebeelden te bepalen, mentracht dus de bewegingsmatrices Fk te schatten. Om tot superresolutie te kunnen komenmoet dit gebeuren met een subpixelprecisie. Omdat dit een moeilijk probleem is zal menhet model sterk vereenvoudigen en dus enkel translatiebewegingen van het volledige beeldbeschouwen. De uitkomst van deze stap zal een hoge-resolutierooster zijn waarop verschil-lende lage-resolutiepixels verdeeld zijn. Figuur 2.3 toont zo een vereenvoudigd rooster inhet geval van drie verschillende lage-resolutiebeelden.

Regressie Na de registratiestap zullen de lage-resolutiepixels dus verdeeld zijn over hethoge-resolutierooster. Zoals u kan zien in Figuur 2.3 liggen de meeste lage-resolutiepixelsniet op een hoge-resolutiepixe positie en liggen er op de meeste hoge-resolutiepixelpositiesgeen lage-resolutiepixel. Dit probleem kan opgelost worden aan de hand van de regressie-stap. In deze stap schat men dus de hoge-resolutiepixels aan de hand van de omliggende

7

Figuur 2.3: Registratiestap. De bolletjes, vierkantjes en driehoekjes stellen de pixels voorvan drie verschillende lage-resolutiebeelden en de kruispunten van het rooster stellen dehoge-resolutiepixelposities voor.

lage-resolutiepixels. Men zal dus Z schatten door volgende vergelijking proberen zo goedmogelijk op te lossen:

Z = arg minZ

(K∑k=1‖Yk −DkFkZ‖22

)(2.6)

De eenvoudigste vorm van regressie is om gewoon het gewogen gemiddelde te nemen vande naburige pixels, waarbij de wegingsfactor afhangt van hoe ver de pixel verwijderd isvan de hoge-resolutiepixelpositie. Meer info over regressie kan u vinden in [TMF+07].

Restoratie In de laatste stap zal men trachten uit het bekomen beeld Z het superreso-lutiebeeld X te achterhalen:

X = arg minX

‖Z−HX‖22 (2.7)

Dit houdt dus in dat men de opgetreden beeldvervaging probeert ongedaan te maken endat men het beeld dus zal verscherpen.

Indien gewenst kan men deze drie stappen een aantal keer herhalen. Het doel hiervan isom bewegingsestimatie van de registratiestap te verbeteren door de lage-resolutiebeeldente vergelijken met het hoge-resolutiebeeld dat bekomen is in de vorige iteratie en zo dustot een beter resultaat te kunnen komen.

Een voordeel aan deze methode is dat het relatief efficiënt kan geïmplementeerd wor-den. Een nadeel is dat het degradatiemodel ook redelijk beperkt is. Het eenvoudige be-wegingsmodel maakt het ook ongeschikt voor gebruik in videos, waar bewegingen meestalcomplex zijn.

2.1.5 Probabilistische bewegingsestimatie

In [PETM09] stelt men een interessante alternatieve techniek voor de bewegingsestimatie.Men gaat uit van probabilistiche bewegingsestimate, dit wil zeggen dat men niet zomaaréén mogelijke subpixelbeweging beschouwd als de beweging die plaatsvond. Bovendien

8

Figuur 2.4: Probabilistische bewegingsestimatie.

schat men de beweging voor kleine blokken (b.v. grootte 7x7) in het beeld, wat er voorzorgt dat er veel complexere bewegingen mogen plaatsvinden tussen de verschillende beel-den. Dit maakt deze techniek dus een stuk geschikter voor video.

Berekenen probabiliteit Voor elk te zoeken hoge-resolutieblok in het superresolutie-beeld zal de methode een spatiaal en temporeel zoekvenster in de lage-resolutiebeeldenbeschouwen. Dit zoekvenster bevat al de lage-resolutieblokken uit de verschillende beel-den die gelegen zijn rond de positie van het beschouwde hoge-resolutieblok. Men zal vooral deze lage-resolutieblokken de kans berekenen dat het blok zich beweegt naar de positievan het beschouwde hoge-resolutieblok Deze kans zal dan bepalen hoe hard een bepaaldlage-resolutieblok zal bijdragen tot het beschouwde hoge-resolutieblok

Men berekent deze kans aan de hand van de gelijkheid tussen de lage-resolutieblokkenen het te zoeken hoge-resolutieblok. Aangezien dit blok nog niet gekend is, zal men hetovereenkomstige blok in het geïnterpoleerde beeld moeten gebruiken om deze gelijkheid tekunnen berekenen. Men gaat er dus van uit dat hoe groter de gelijkheid is, hoe groter dekans is dat een lage-resolutieblok zal bewogen zijn naar de positie van het superresolutieblok. Op basis van deze gelijkheid zal men dan het gewicht berekenen waarmee hetbeschouwde lage-resolutieblok zal bijdragen tot het hoge-resolutieblok.

Figuur 2.4 toont zo een beschouwd hoge-resolutieblok samen met het bijhorende lage-resolutiezoekvenster. U kan hier makkelijk zien dat de lage-resolutieblokken aangeduidmet de vinkjes veel harder lijken op het te zoeken superresolutie blok dan de blokken metkruisjes. Die blokken zullen dan ook een veel groter gewicht meekrijgen in het uiteindelijkhoge-resolutieblok.

Relatie tussen superresolutieblok en lage-resolutieblok Nu dat er voor elk lage-resolutieblok uit de zoekruimte een bepaalde gewicht is berekend kan men dus eenvoudigeen gewogen lage-resolutieblok berekenen. Nu moet dit blok natuurlijk nog op een be-paalde manier bijdragen tot het grotere superresolutie blok. Op Figuur 2.5 kan u degebruikte relatie zien tussen de lage-resolutieblokken en de superresolutie blokken. Hetvoorbeeld in deze figuur gaat uit van een lage-resolutieblokgrootte van 3 × 3 en toontde overeenkomstige hoge-resolutieblokken voor schaalfactor 2 en 3. U ziet dus dat alde pixels van het lage-resolutieblok gemapt worden op een aantal pixels van het hoge-resolutieblok. Een gewogen lage-resolutieblok zal dus op deze manier opgeteld worden bijhet hoge-resolutieblok. De niet ingevulde pixels in het hoge-resolutieblok zullen ingevuld

9

Figuur 2.5: Relatie tussen lage-resolutieblok en hoge-resolutieblok.

worden door een ander hoge-resolutieblok te beschouwen (b.v. één hoge-resolutie pixelnaar rechts).

Door al de hoge-resolutieblokken op deze manier af te gaan zal men dus een super-resolutiebeeld bekomen. Dit beeld moet dan nog eens een restoratiestap ondergaan omde vervaging tegen te gaan. Dit is nodig omdat er pixelwaarden van een lagere resolutiewerden gebruikt om het beeld te construeren.

2.1.6 3D sturende regressie

De auteurs van [TMPE09] stellen een techniek voor die goed geschikt zou moeten zijnvoor het gebruik in video. De bewegingen tussen de verschillende frames wordt implicietberekend aan de hand van sturende regressie in 3D. Sturende regressie in 2D zal netals gewone regressie de ongekende pixelwaarde proberen schatten aan de hand van denaburige pixelwaarden. Het verschil is dat sturende regressie zal proberen bepalen waarer zich randen bevinden en bij een schatting van een pixelwaarde alleen de pixels die langseen rand liggen te gebruiken bij die schatting. Het idee hierachter is dat de pixelwaardenvan de rand typisch een groot verschil met de pixelwaarden naast de rand vertoond. Doorde regressie langs de rand uit te voeren zal er dus geen (of minder) uitmiddeling tussen diepixelwaarden en zullen randen dus minder vervagen. Het vinden van randen gebeurt doorhet berekenen van gradiënten en kan door verschillende iteraties toe te passen verbeterdworden. Meer info over sturende regressie kan je vinden in [TMF+07]. Nu kan je hetprincipe van sturende regressie in 2D gemakkelijk uitbreiden naar 3D. Een rand in eenbepaald frame zal bijna altijd ook in het volgende frame te vinden zijn, dus kan men eenpixelwaarde gaan schatten aan de hand van de pixels die langs de rand liggen in hetzelfde

10

frame en ook door de pixels die langs de rand liggen in vorige en volgende frames. Opdeze manier vindt er dus een impliciete bewegingsestimatie plaats die in staat zou zijn ommet complexe bewegingen in het beeld om te gaan.

Een nadeel aan deze methode is dat ze veel rekenwerk vraagt.

2.1.7 Projectie op convexe verzamelingen

Paper [SO89] maakt dan weer gebruikt van de zogenaamde “Projectie op convexe verza-melingen” methode. Deze techniek zal ook op voorhand wat voorkennis toevoegen aanhet hoge-resolutiebeeld. Dit wordt gedaan door een aantal convexe verzamelingen te de-finiëren waaraan een hoge-resolutiebeeld moet voldoen. Per lage-resolutiebeeld kan menook zo een verzameling definiëren dat er zal voor zorgen dat het dit beeld bijdraagt tot deuiteindelijke oplossing. Het hoge-resolutiebeeld zal ergens liggen in de intersectie van aldeze verzamelingen. In het geval van M zulke verzameling wordt het beeld dus bekomendoor volgende formule iteratief toe te passen:

Xk+1 = PMPM−1...P2P1Xk (2.8)

hierbij stelt Pk de projectie operator voor die een beeld projecteert op de kde convexeverzameling.

Het nadeel aan deze techniek is dat ze traag convergeert en dus veel rekenwerk vraagt.

2.2 Voorbeeldgebaseerde superresolutieDe voorbeeldgebaseerde techniek vertrekt van maar één enkele afbeelding en een databankvan voorbeeldparen om zo tot een superresolutiebeeld te komen. Deze paren zullen be-staan uit een lage-resolutieblok en een overeenkomstig hoge-resolutieblok. Deze techniekzal dus een bepaalde voorkennis toepassen. Alleen bestaat deze voorkennis niet uit eenbepaalde opgelegde beperking, maar zal deze bestaan uit blokparen die opgebouwd zijnaan de hand van hoge-resolutie trainingsbeelden. De voorkennis van deze methodes is alshet ware aangeleerd in plaats van gebaseerd te zijn op een wiskundig model.

2.2.1 Oorsprong blokparen

Technieken met getrainde databank De meeste technieken [FP00, FJP02, KK08,YWMH08, CYX04, WTS05] zullen gebruik maken van een databank die getraind is aande hand van een aantal hoge-resolutiebeelden van goede kwaliteit. Het principe bestaaterin dat men zo een hoge-resolutiebeeld degradeert tot een lage-resolutiebeeld. Men zaldit doen door het beeld te vervagen en vervolgens te bemonsteren met een lagere fre-quentie. Hierna kan men de lage-resolutieblokken uit het gedegradeerd beeld en de hoge-resolutieblokken uit het hoge-resolutiebeeld extraheren. Men zal elk lage-resolutieblokkoppelen aan het hoge-resolutieblok dat te vinden is op dezelfde positie in het beeld enmen zal deze blokparen dan opslaan in de databank zodat ze later kunnen gebruikt wordenbij de constructie van een superresolutiebeeld.

11

Technieken zonder getrainde databank Een aantal technieken [GBI09, LRPP10,RLPP11] doen het ook zonder een op voorhand getrainde databank. Men probeert daneen superresolutiebeeld te construeren door enkel gebruik te maken van de afbeeldingzelf. Bij deze technieken gaat men ervan uit dat er op verschillende resolutieschalen veelgelijkaardige blokken te vinden zijn en zal men dus de zelfsimilariteiten op de verschillenderesolutieschalen uitbuiten. Men zal het beeld dus (meerdere malen) herschalen om op diemanier de blokparen te kunnen reconstrueren. Het op te schalen beeld wordt dan als hetware gebruikt als databank.

2.2.2 Constructie superresolutiebeeld

Een naïeve manier om een superresolutiebeeld te construeren zou zijn om gewoon voor elk(overlappend) lage-resolutieblok dat zich in het op te schalen beeld de beste overeenkomstin de blokparen te zoeken en dan het hoge-resolutieblok direct te gaan gebruiken om hetsuperresolutiebeeld te construeren. Merk op dat hoge-resolutieblokken ook zullen overlap-pen; dit kan men oplossen door de overlappende delen uit te middelen. Het probleem bijdeze methode is dat er veel artefacten zullen voorkomen in het beeld. Dit zal te wijtenzijn aan het feit een slecht voorbeeld in de databank een grote invloed kan hebben op hetresultaat en dat de beste overeenkomst voor elk lage-resolutieblok apart wordt gekozen.Dit wil zeggen dat er geen rekening gehouden wordt met de overlap van de gebruiktehoge-resolutieblokken en dat die dus grote verschillen kunnen vertonen.

Markov Random Fields Om die artefacten te vermijden maken veel technieken ge-bruik van het Markov Random Fields model. Dit komt neer op dat men voor elk lage-resolutieblok een blokpaar zoekt dat goed overeenkomt met dat lage-resolutieblok, maardat tegelijkertijd ook past tussen de naburige hoge-resolutieblokken. Met goed passenwordt hier bedoeld dat overlappende delen van de hoge-resolutieblokken weinig verschilvertonen. De verschillende papers stellen veel verschillende manier voor om dit probleemop te lossen.

Sparse representatie [YWMH08] stelt nog een alternatieve manier voor. In plaatsvan voor elk lage-resolutieblok één best passend blokpaar te kiezen, zal deze techniek eenlineaire combinatie zoeken van blokparen. Voor elk lage-resolutieblok zal men trachtenmet zo weinig mogelijk blokparen een zo goed mogelijke benadering te vinden van hetlage-resolutieblok.

2.2.3 Post-processing

Omdat de voorbeeldgebaseerde technieken gebruik maken van voorbeeldparen is er geengarantie dat het bekomen superresolutiebeeld klopt met het lage-resolutiebeeld. Hiermeebedoelen we dat er serieuze verschillen kunnen zijn tussen de gedegradeerde versie vanhet superresolutiebeeld en het geobserveerde lage-resolutiebeeld. Voor deze reden zijner heel wat papers [Pel90, SnZTyS03, WTS05, YWMH08] die nog een post-processingstap uitvoeren. Dit komt neer op het uitvoeren van de iteratieve terugprojectie die webesproken hebben in Sectie 2.1.3. In dit geval zal de terugprojectie uitgevoerd wordenmet maar één lage-resolutiebeeld ter beschikking.

12

Hoofdstuk 3

VSPB-techniek:Videosuperresolutie met behulpvan probabilistischebewegingsestimatie

3.1 AlgemeenDe eerste voorgestelde techniek is sterk gebaseerd op de techniek uit de paper [PETM09].Er zal dus gebruik gemaakt worden van de zogenaamde probabilistische bewegingsesti-matie. Wij hebben dit gekozen omdat de deterministische bewegingsestimatie (wegenshet globale karakter) niet geschikt is voor video. De probabilistische bewegingsestimatiedaarentegen schat de beweging voor kleine blokken in het beeld en zou dus veel beter instaat moeten zijn om om te gaan met complexe videobewegingen.

In tegenstelling tot de techniek uit de paper zal onze techniek geen gebruik makenvan frames uit toekomstige frames. Op deze manier kan een binnenkomend frame van eeneventuele videostroom direct omgezet worden aan de hand van dat frame en informatie uitvorige frames. Figuur 3.1 toont welke informatie we ter beschikking zullen hebben tijdenshet superresolutieproces.

Ook zal onze techniek de relatie die bestaat tussen een hoge-resolutieblok en een lage-resolutieblok licht wijzigen.

Het algoritme zal voor elk videoframe de volgende stappen doorlopen:

1. Opschalen van het lage-resolutiebeeld via Lanczos-interpolatie

2. Elk (overlappend) hoge-resolutieblok in dat in de Lanczos-interpolatie te vinden iste overlopen en volgende stappen toepassen:

(a) Voor al de lage-resolutieblokken in het omliggende zoekvenster het gewichtberekenen.

(b) Aan de hand van die gewichten het gewogen gemiddelde berekenen van hetlage-resolutieblok.

(c) De pixels van het gewogen lage-resolutieblok invullen in het superresolutie-beeld op een aantal pixelposities van het beschouwde hoge-resolutieblok. Deze

13

Figuur 3.1: Gebruikte beelden in het superresolutieproces

posities worden bepaald door de relatie tussen het lage-resolutieblok en hethoge-resolutieblok.

3. Een restoratiestap toepassen op het superresolutiebeeld om de vervaging in het beeldtegen te gaan.

4. Een tweede iteratie toepassen door elk hoge-resolutieblok in dat in het bekomensuperresolutiebeeld te vinden is te overlopen en opnieuw dezelfde stappen als in stap2 toe te passen.

5. Opnieuw een restoratiestap toepassen op het bekomen superresolutiebeeld.

De reden voor een tweede iteratie is dat de probabilistische bewegingsestimatie beterzal kunnen gebeuren ten op zichte van een superresolutiebeeld en we dus verwachten dateen tweede iteratie betere resultaten zal opleveren. Een tweede reden is dat er bij evenschaalfactoren een klein probleem optreed dat kan eenvoudig kan opgelost worden dooreen tweede iteratie in te voeren (zie Sectie 3.5).

3.2 ZoekvensterFiguur 3.2 toont het zoekvenster dat rond een bepaald hoge-resolutieblok in het beeld zalzijn gelegen. Met elk beschouwd hoge-resolutieblok zal er dus een zoekvenster overeenko-men en voor al de lage-resolutieblokken in zo een zoekvenster zullen we dus het gewichtberekenen.

Het zoekvenster in de lage-resolutiebeelden zal dus de lage-resolutieblokken bevattendie rondom de positie in het beeld van het hoge-resolutieblok gelegen zijn en voor eenbepaald aantal voorgaande frames.

14

Figuur 3.2: Zoekvenster rondom een te zoeken superresolutieblok.

15

Figuur 3.3: Vernieuwde relatie tussen de lage-resolutieblokken en hoge-resolutieblokken.

3.3 Relatie tussen een lage-resolutieblok en een hoge-reso-lutieblok

De relatie gebruikt in [PETM09] hebben we licht gewijzigd. De paper gebruikte, in hetgeval van schaalfactor s en lage-resolutieblokgrootte b × b, een hoge-resolutieblokgroottevan s(b − 1) + 1 × s(b − 1) + 1 (zie figuur 2.5). Omdat bij opschaling met factor s eenpixel vervangen wordt door s×s blok van pixels klopt deze relatie niet helemaal. Nu is ditniet zo erg voor oneven schaalfactoren, maar in het geval van even schaalfactoren wordtde relatie tussen lage-resolutieblokken en hoge-resolutieblokken iet wat scheefgetrokken.

Daarom werd voor het vergelijken van de lage-resolutieblokken met het te zoeken hoge-resolutieblok een nieuwe relatie gebruikt. Elk b×b lage-resolutieblok komt nu overeen meteen s · b × s · b hoge-resolutieblok. Figuur 3.3 toont hier een voorbeeld van voor lage-resolutieblokgrootte 3× 3 en schaalfactoren 2 en 3.

3.4 Probabilistische bewegingsestimatieDe probabilistische bewegingsestimatie houdt in dat men voor elk beschouwd hoge-reso-lutieblok al de lage-resolutieblokken in het omliggend zoekvenster zal beschouwen en dieallemaal zal laten bijdragen tot het uiteindelijk hoge-resolutieblok. Elk lage-resolutieblokin het zoekvenster zal dus met een bepaalde wegingsfactor bijdragen en deze wegingsfactorwordt bepaald door de kans dat een bepaald lage-resolutieblok zich zal bewegen naar depositie van het beschouwd hoge-resolutieblok. Deze kans zal berekend worden aan de handvan de gelijkenins tussen het lage-resolutieblok en het beschouwde hoge-resolutieblok. Dushoe harder een blok lijkt op het beschouwd hoge-resolutieblok, hoe groter de kans is dat

16

deze beweging heeft plaatsgevonden.De gelijkenis tussen een lage-resolutieblok uit het zoekvenster en een beschouwd hoge-

resolutieblok wordt bepaald aan de hand van de Root Mean Square Error (RMSE). Hetprobleem hierbij is dat het lage-resolutieblok en het hoge-resolutieblok een verschillenderesolutie hebben, maar zoals te zien is in Figuur 3.2 zal met elk lage-resolutiebeeld aleen superresolutiebeeld overeenkomen en dus zal elk lage-resolutieblok uit het zoekvensterovereenkomen met een hoge-resolutieblok in een superresolutiebeeld. Dit blok wordt dangebruikt bij de vergelijking.

In de eerste iteratie van het algoritme zal de RMSE voor elk lage-resolutieblok in hetzoekvenster berekend worden tussen het overeenkomstig hoge-resolutieblok en het hoge-resolutieblok uit het interpolatiebeeld van het huidige lage-resolutieframe.

In de tweede iteratie zal de RMSE niet meer berekend worden ten opzichte van hetinterpolatiebeeld, maar zal men het verkregen superresolutiebeeld uit de eerste iteratiegebruiken.

De RMSE tussen twee blokken bl1 en bl1 van grootte b× b kan berekend worden viavolgende formule:

RMSE =

√√√√√ 1b2

b∑i=1

b∑j=1

[bl1(i, j)− bl2(i, j)]2. (3.1)

Op basis van deze gelijkheid zullen we dan de wegingsfactor voor elk lage-resolutieblokin het zoekvenster kunnen berekenen. De gebruikte wegingsfactor is exponentiëel en wordtberekend aan de hand van volgende formule:

wk = e−RMSE2

k2∗σ2

n∑k=1

e−RMSE2

k2∗σ2

. (3.2)

wk stelt hier dus het gewicht door van het kde blok in het zoekvenster. RMSEk is deRMSE tussen het kde blok in het zoekvenster en het beschouwde hoge-resolutieblok.

3.5 Constructie superresolutiebeeldNadat we voor al de lage-resolutieblokken in het zoekvenster een wegingsfactor hebbenberekend kunnen we die samenvoegen door het gewogen gemiddelde te bepalen van aldeze blokken:

blgewogen(i, j) =n∑k=1

wkbl(i, j). (3.3)

Nu we voor een beschouwd hoge-resolutieblok een gewogen lage-resolutieblok bekomenhebben, moeten we de pixelwaarden van dit lage-resolutieblok op de correcte positie inhet superresolutiebeeld plaatsen. Die posities worden bepaald door de relatie tussen hetlage-resolutieblok en het hoge-resolutieblok zoals beschreven staat in Sectie 3.3.

Voor oneven schaalfactoren is dit vrij eenvoudig. Figuur 3.4 toont het voorbeeld voordrie verschillende beschouwde hoge-resolutieblokken. In de linkerkolom staan de gewogenlage-resolutieblokken en in de rechterkolom staan de overeenkomstige hoge-resolutieblok.De rasters stellen dus een te zoeken superresolutiebeeld voor, waarbij elk vierkantje een

17

pixel voorstelt. Men kan dus zien dat voor elk beschouwd hoge-resolutieblok de overeen-komstige lage-resolutieblokken op een bepaalde positie worden ingevuld en dat men dooral de hoge-resolutieblokken in het te beeld te beschouwen men zo goed als al de pixelsvan het superresolutiebeeld zal kunnen berekenen. Alleen aan de randen zullen er nogongekende pixels aanwezig zijn. Dit probleem kan eenvoudig opgelost worden door hetbeschouwde beeld aan de randen uit te breiden met een aantal gekopïeerde pixels. Inhet geval van het voorbeeld uit Figuur 3.4 moet men het beeld aan elke rand uitbreidenmet een rij gekopiëerde pixels om zo al de pixels van het superresolutiebeeld te kunnenberekenen.

De constructie bij even schaalfactoren is zeer gelijkaardig. Het verschil is dat ereen klein probleem is met de relatie tussen lage-resolutieblokken en hoge-resolutieblokkenwaardoor die een beetje dient aangepast te worden.

Probleem bij even schaalfactor

Figuur 3.5 toont een voorbeeld van het probleem bij een lage-resolutieblokgrootte van 2×2en een schaalfactor 2. De lage-resolutiepixelwaarden mappen niet op hoge-resolutiepixel-posities. Hierdoor zal elke pixel van het gewenst superresolutiebeeld juist in het middentussen 4 hoge-resolutiepixels vallen. Men zou dit (in dit voorbeeld) kunnen oplossen doorelke hoge-resolutiepixel te bereken als het gemiddelde van de 4 omliggende lage resolutiepixels. Maar dit brengt weer vervaging met zich mee en dit is uiteraard niet gewenst.

De gebruikte oplossing kan u zien in Figuur 3.6 en zal een licht gewijzigde relatiegebruiken. In de eerste iteratie van ons algoritme zal men de relatie aan de linkerkantgebruiken. In deze relatie zijn de lage-resolutiepixels een halve pixel naar links en naarboven verschoven, waardoor het uiteindelijk bekomen superresolutiebeeld ook een halvepixel naar links en boven verschoven zal zijn. Deze verschuiving zal natuurlijk visueelamper merkbaar zijn, maar bij het berekenen van de prestaties van het algoritme aande hand van PSNR-waarden vormt dit uiteraard wel een probleem. Ook het feit dat derelatie tussen het lage-resolutiebeeld en het superresolutiebeeld nog in de constructie vanvolgende frames gebruikt wordt zou er kunnen voor zorgen dat dit verschuivingsprobleemuitvergroot wordt.

Door in de tweede iteratie nog een ander relatie te gebruiken kan ook dit probleemopgelost worden. Deze relatie staat rechts in Figuur 3.6 en zal dus het beeld opnieuwverschuiven, maar deze keer wordt het beeld naar rechts onder verschoven waardoor hetweer op de originele positie zal terechtkomen.

3.6 RestoratiestapNa elke constructie van het superresolutiebeeld dient er ook een restoratiestap te gebeu-ren. Deze stap zal vervaging in het beeld tegengaan. Deze vervaging is ontstaan omdatonze techniek pixelwaarden van een lagere resolutieschaal zomaar gebruikt in een hogereresolutieschaal. Deze restoratiestap gebeurt aan de hand van een breghman deconvolutie.Hoe deze restoratiestap precies in zijn werk gaat valt buiten het bestek van deze thesis ende code hiervoor hebben we gekregen van onze begeleider.

18

(a)

(b)

(c)

Figuur 3.4: Constructie superresolutiebeeld bij een schaalfactor 3 en een lage-resolutieblokgrootte 2× 2.

19

Figuur 3.5: Probleem bij even schaalfactoren.

Figuur 3.6: Gebruikte relatie tussen lage-resolutieblokken en hoge-resolutieblokken bijeven schaalfactoren.

20

Hoofdstuk 4

Resultaten VSPB-techniek

4.1 Gebruikte parametersOm tot de resultaten te komen die getoond zijn in dit hoofdstuk maakten we gebruik vaneen lage-resolutieblokgrootte van 3× 3. Dit werd zo gekozen omdat we ondervonden datkleinere blokgroottes beter in staat waren om om te gaan met complexe bewegingen in devideo.

Bij de exponentiële weging (zie vergelijking (3.2)) gebruikten we een σ met waarde1. De grootte van het temporele zoekvenster was ingesteld op 10. Wat dus wil zeggendat we naar lage-resolutieblokken zochten in het huidig frame en de 9 voorgaande frames.Bij het spatiale zoekvenster was de grootte ingesteld op 11 × 11-. Dit betekent dus datwe per beschouwd hoge-resolutieblok telkens het gewicht voor 10 · 112 = 1210 lage-resolutieblokken berekenden.

Aangezien het algortime recursief werkt en dus gebruik maakt van voorgaande framesom aan superresolutie te doen, hebben we dus een aantal voorgaande frames nodig. Omhet algoritme te starten schaalden we de eerste 9 frames op via een Lanczos-interpolatieen begonnen we vanaf frame 10 met de superresolutieopschaling.

4.2 Vergelijking met de originele techniekIn dit deel zullen we de resultaten van onze aangepaste techniek vergelijken met de resulta-ten uit [PETM09]. De resultaten uit deze paper zijn te vinden op http:\\www.cs.technion.ac.il \~matanpr\NLM-SR. Al de resultaten uit deze paper zijn bekomen door eerst eenreferentievideo neer te schalen met factor drie daar dan witte gaussiaanse ruis met stan-daardafwijking 2 aan toe te voegen om die dan uiteindelijk op te schalen met het voorge-stelde algoritme.

Als we de resultaten visueel vergelijken voor de Foreman (Figuur 4.1) en Suzie (Figuur4.2) video, dan zien we dat de resultaten uit [PETM09] iets scherpere resultaten geven.Dit zal te wijten zijn aan een grotere verscherping tijdens de restoratiestap. Figuur 4.3zoomt in op een rand in de Suzie video en hier is duidelijk te zien dat de methode vanProtter de rand een stuk scherper zal proberen maken en dat het contrast tussen de wittetelefoon en de donkere achtergrond zelfs te groot wordt in vergelijking met de originelehoge-resolutievideo.

De grafieken van Figuur 4.5 vergelijken de PSNR-waarden van de eerste en tweede

21

(a) (b) (c)

Figuur 4.1: Vergelijking van de aangepaste recursieve methode met de originele techniekvan Protter uit [PETM09] op de frames 10, 15, 20, 25 en 30 van de Foreman video. (a)Lanczos interpolatie. (b) Methode van Protter. (c) VSPB-techniek.

22

(a) (b) (c)

Figuur 4.2: Vergelijking van de aangepaste recursieve methode met de originele techniekvan Protter uit [PETM09] op de frames 10, 15, 20, 25 en 30 van de Suzie video. (a)Lanczos interpolatie. (b) Methode van Protter. (c) VSPB-techniek.

23

(a) (b) (c)

Figuur 4.3: Vergelijking randen. (a) Originele hoge-resolutievideo. (b) Methode vanProtter. (c) VSPB-techniek.

Figuur 4.4: Voorbeeld van artefacten aan de beeldrand in de rechterbovenhoek van deForeman video.

iteratie van onze techniek met de techniek uit [PETM09]. De vergelijking vond plaatsvoor frames 10 tot en met 30 van de Foreman en Suzie video. Omdat zowel voor demethode uit [PETM09] als voor onze voorgestelde techniek er kleine artefacten aan hetrand van het beeld voorkwamen werden de pixels aan de beeldrand niet meegeteld bij hetberekenen van de PSNR-waarden. Deze artefacten ontstonden bij de restoratiestap en eenvoorbeeld daarvan is te zien in figuur 4.4.

De grafiek toont aan dat de tweede iteratie in het geval van oneven schaalfactorenmaar een lichte kwaliteitsverbetering zal aanbrengen.

Als we onze methode gaan vergelijken met die uit [PETM09] dan zien we dat er weinigtot geen verschil is in het geval van de Foreman video. Bij de Suzie video zien we echter datde methode van Protter duidelijke betere PSNR-waarden vertoont. Dit kan te wijten zijnaan het feit dat de Suzie video minder detail en grotere randen vertoont dan de Foremanvideo en dat de restoratiestap van Protter beter presteert op zo een randen. Ook het feitdat Protter ook toekomstige frames gebruikt in het algoritme en dus een betere zoekruimteter beschikking zal hebben kan de betere resultaten verklaren.

Rekentijd Een nadeel aan dit algoritme is dat het voor elk hoge-resolutieblok in het tezoeken superresolutiebeeld al de lage-resolutieblokken in het zoekvenster moet overlopenom het gewicht te bepalen. Dit wil zeggen dat bij de Foreman video met een resolutie(van het superresolutiebeeld) van 288x312 en een hoge-resolutieblokgrootte van 9x9 (want

24

30,50

31,00

31,50

32,00

32,50

33,00

33,50

34,00

34,50

10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

PSN

R

Frame

Foreman Lanczos interpolatie

Protter's methode

VSPB-techniek: eerste iteratie

VSPB-techniek: tweede iteratie

(a)

31,00

31,50

32,00

32,50

33,00

33,50

34,00

34,50

10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

PSN

R

Frame

Suzie Lanczos interpolatie

Protter's methode

VSPB-techniek: eerste iteratie

VSPB-techniek: tweede iteratie

(b)

Figuur 4.5: Vergelijking van de VSPB-techniek met de originele techniek van Protter uit[PETM09].

lage-resolutieblokgrootte is 3 en schaalfactor = 3) er (288 − 9 + 1) · (312 − 9 + 1) =85120 zoekvensters moeten worden doorlopen. In ons geval zal een zoekvenster 1210 lage-resolutieblokken bevatten wat dus wil zeggen dat er per frame van de Foreman video er eengewicht zal moeten berekend worden voor 85120 · 1210 = 102995200 lage-resolutieblokkenn dit voor 2 iteraties. Dit zal resulteren in een gemiddelde rekentijd van ongeveer 6000seconden per frame. Voor de Suzie video met een resolutie van 240x350 is die rekentijdongeveer 5500 seconden per frame. Deze tijden werden bekomen door de Matlab code vanons algoritme te laten lopen op een laptop met een Intel Core i7-2630QM 2 GHz processoren 8GB RAM.

4.3 Invloed ruisAls je in Figuur 4.1 en Figuur 4.2 de resultaten van de voorgestelde techniek vergelijktmet die van de Lanczos-interpolatie, dan zie je dat de superresolutietechniek beter in staatzal zijn om ruis te onderdrukken.

Om dit verder te onderzoeken schaalden we de Foreman en Suzie video neer met eenfactor 2 en voegden we witte gaussiaanse ruis toe met verschillende standaardafwijkingen.Hierop pasten we dan onze superresolutietechniek op toe.

25

Standaardafwijking ruis

Video 0 2 5 10

Suzie Lanczos interpolatie 34,16 33,65 31,61 27,89Superresolutie 34,42 34,21 32,88 28,00

Foreman Lanczos interpolatie 35,13 34,49 32,11 28,14Superresolutie 35,93 35,69 33,87 28,36

Tabel 4.1: PSNR-waarden (dB) voor verschillende ruisniveau’s.

Figuur 4.6 vergelijkt visueel de resultaten voor de Lanczos-interpolatie met onze su-perresolutietechniek voor de verschillende standaardafwijkingen σ van de ruis. Hierop is tezien dat de superresolutietechniek de ruis met een lage standaardafwijking zonder proble-men kan wegwerken. Bij een σ = 5 is de kwaliteit al iets minder, maar is het resultaat nogaltijd een stuk beter dan de Lanczos-interpolatie. Bij σ = 10 zal de ruis te groot zijn enis er geen duidelijke kwaliteitsverbetering meer ten opzichte van de Lanczos-interpolatie.

Deze resultaten worden bevestig door de PSNR-waarden in Tabel 4.1. Men kan ziendat de resultaten voor σ = 5 het grootste kwaliteitsverschil oplervert ten op zichte vande Lanczos-interpolatie en dat bij σ = 10 deze verbetering bijna te verwaarlozen is. Dezeresultaten zijn bekomen door telkens het tiende frame van de testvideo’s te vergelijken.

26

(a) Lanczos bij σ = 0 (b) Superresolutie bij σ = 0

(c) Lanczos bij σ = 2 (d) Superresolutie bij σ = 2

(e) Lanczos bij σ = 5 (f) Superresolutie bij σ = 5

(g) Lanczos bij σ = 10 (h) Superresolutie bij σ = 10

Figuur 4.6: Invloed van ruis.

27

Hoofdstuk 5

VVS-techniek:VoorbeeldgebaseerdeVideosuperresolutie

5.1 AlgemeenDe tweede voorgestelde techniek is een voorbeeldgebaseerde techniek. Bij deze techniekworden lage-resolutieblokken gekoppeld aan overeenkomstige hoge-resolutieblokken om zoblokparen te construeren die dan bij de constructie van het superresolutiebeeld kunnendienen als voorbeeld. Als we voldoende van deze blokparen hebben, kunnen we dus voorelk lage-resolutieblok uit een lage-resolutieframe de best passende blokparen zoeken en opbasis daarvan het superresolutiebeeld construeren.

Onze techniek zal geen gebruik maken van een databank die getraind is aan de handvan een aantal hoge-resolutietrainingsbeelden. Al de gebruikte blokparen zullen uit devideo zelf geëxtraheerd zijn.

Onze techniek zal dus de voorbeeldgebaseerde superresolutie technieken die gebruikmaakt van slechts één enkele afbeelding ([GBI09, LRPP10, RLPP11]) uitbreiden naar eentechniek bedoelt voor videostromen. Wij zullen dit doen door een databank toe te voegendie blokparen uit vorige frames zal bevatten. De voorgestelde techniek zal dus niet enkel dezelfsimilariteit uitbuiten op de verschillende resolutieschalen, maar zal ook gebruik makenvan zelfsimilariteit tussen opeenvolgende frames.

Figuur 5.1 stelt schematisch voor welke stappen onze techniek zal toepassen als heteen nieuw frame wil opschalen. Deze stappen zijn:

• Extractie van de nieuwe blokparen uit huidige frame.

• Toevoegen van de nieuwe blokparen aan de databank.

• Constructie van het superresolutiebeeld met behulp van het lage-resolutiebeeld ende databank.

• Verwijderen van de minst gebruikte blokparen zodat enkel de meest gebruikte blok-paren overblijven in onze databank.

28

Figuur 5.1: Schematische voorstelling van de voorbeeldgebaseerde videosuperresolutie.

In dit hoofdstuk zullen we in Sectie 5.2 beginnen met uit te leggen hoe de blokparengeëxtraheerd uit het frame en onder welke vorm we die blokparen kunnen opslaan in dedatabank.

Hierna zullen we in Sectie 5.3 beschrijven hoe we met behulp van de blokparen uitde databank en het lage-resolutiebeeld een superresolutiebeeld kunnen construeren. Wezullen hier een aantal verschillende technieken beschrijven van hoe we blokparen hiervoorkunnen gebruiken.

In Sectie 5.4 beschrijven we hoe we verschillende soorten databanken kunnen gebruikenom de blokparen op te slaan om zo deze blokparen te kunnen gebruiken bij de opschalingvan het huidig frame of toekomstige frames. We zullen drie verschillende databankenvoorstellen.

Tot slot zullen we in Sectie 5.5 een eenvoudige post-processing stap voorstellen die bijbepaalde manieren van opslag van blokparen nodig zal zijn.

5.2 Extractie en opslag van blokparenDeze sectie legt uit hoe we aan de hand van een nieuw lage-resolutieframe een aantalnieuwe blokparen kunnen construeren. Deze blokparen worden dan toegevoegd aan dedatabank om zo bij te kunnen dragen tot de constructie van het huidig superresolutieframeen eventueel ook tot de constructie van toekomstige superresolutieframes.

Verder bespreken we ook de drie verschillende technieken om de blokparen op te slaanen de gevolgen hiervoor voor bij constructie van het superresolutiebeeld.

5.2.1 Beschrijving blokpaar

Een blokpaar bestaat dus uit een lage-resolutieblok en een overeenkomstig hoge-resolutie-blok en wordt tijdens het superresolutieproces gebruikt als voorbeeld. In het geval van eenschaalfactor s zal zo een lage-resolutieblok met grootte b × b dus overeenkomen met eenhoge-resolutieblok van grootte s·b×s·b. Een hoge-resolutieblok kan als het ware beschouwd

29

worden als b × b subblokken van grootte s × s. Elk subblok van het hoge-resolutieblokkomt dan overeen met één pixel in het lage-resolutieblok.

Figuur 5.2 toont een voorbeeld van zo een blokpaar bij een schaalfactor 2. Hier heefthet lage-resolutieblok de grootte 3 × 3 en bestaat het hoge-resolutie blok dus uit 3 × 3subblokken van grootte 2× 2.

5.2.2 Extractie blokparen

Een eenvoudige manier om al de blokparen die in een frame te vinden zijn te extraheren isom al de (overlappende) hoge-resolutieblokken in het frame te overlopen en daarvoor hetbijhorende lage-resolutieblok te berekenen door het hoge-resolutie blok neer te schalen.Deze neerschaling zal gebeuren met een factor gelijk aan de gewenste opschalingsfactorvan het superresolutieproces. Dus als men bijvoorbeeld een video wil opschalen met factor2, dan zal men de blokparen construeren door de lage-resolutieframes neer te schalen meteen factor 2.

Als we gebruik maken van een lage-resolutieblokgrootte van b× b en een schaalfactor szal de extractie van deze blokparen dus neerkomen op het overlopen van alle hoge-resolutie-blokken van grootte s · b× s · b en het berekenen van de bijhorende lage-resolutieblokkenvan grootte b× b. Merk op dat er in een lage-resolutieframe met hoogte h en breedte w er(h−s·b+1)(w−s·b+1) (overlappende) hoge-resolutieblokken van grootte s·b×s·b te vindenzijn en kunnen er dus per lage-resolutieframe ook zoveel blokparen kunnen geëxtraheerdworden.

Een lage-resolutieblok kan gemakkelijk berekend worden aan de hand van het hoge-resolutieblok door gewoon voor elk subblok van grootte s × s de gemiddelde waarde teberekenen en die te gebruiken als overeenkomstige pixelwaarde in het lage-resolutieblok.

Een lage-resolutieblok bllr kan dus uit een hoge-resolutieblok blhr berekend wordenvia de volgende formule:

bllr(i, j) = 1s2

s∑k=1

s∑l=1

blhr((i− 1) · b+ k, (j − 1) · b+ l). (5.1)

Met i = 1..b en j = 1..b.Figuur 5.2 toont dus een voorbeeld van een hoge-resolutieblok en het bijhorende lage-

resolutie blok. In deze figuur is de blokgrootte b gelijk aan 3 en de schaalfactor 2. Deberekening van het lage-resolutie blok is zoals je kan zien vrij eenvoudig. Voor bijvoorbeeldhet eerste 2× 2 subblok zal de overeenkomstige pixelwaarde in het lage-resolutie blok dusgelijk zijn aan:

110 + 144 + 146 + 884 = 122, 0

5.2.3 Opslag hoge-resolutieblokken

In dit deel bespreken we drie verschillende technieken om de hoge-resolutieblokken op teslaan.

Opslag als pure pixelwaarden

Een eerste eenvoudige en voor de hand liggende techniek is om gewoon de pixelwaardenvan de hoge-resolutieblokken op te slaan zoals ze in het beeld voorkomen. Dus zoals te

30

(a)

(b)

Figuur 5.2: Voorbeeld van een blokpaar. (a) Hoge-resolutie blok. (b) Lage-resolutie blok.

31

zien is in het voorbeeld van Figuur 5.2. Een nadeel aan deze manier van opslaan is datpure pixelwaarden waarden kunnen aannemen tussen 0 en 255 en dat er dus heel watmogelijke blokken kunnen gevormd worden en hoe meer verschillende blokken er zijn, hoegroter de kans dat er voor de op te schalen lage-resolutieblokken in het frame geen goedeovereenkomst gevonden zullen worden (sie Sectie 5.3).

Dit vergroot dus de kans dat het bekomen superresolutiebeeld niet consistent zal zijnmet het lage-resolutiebeeld. Hiermee bedoelen we dat de neergeschaalde versie van hetsuperresolutiebeeld grote verschillen zou kunnen vertonen met het lage-resolutiebeeld. Dereden voor zo een inconsistentie is dat een slechte overeenkomst tussen een op te schalenlage-resolutieblok en een gebruikt hoge-resolutieblok wil zeggen dat de de neergeschaaldeversie van dat hoge-resolutieblok sterk zal afwijken van het lage-resolutieblok . Het feitdat wij alleen blokparen uit het huidige frame en de vorige frames halen en we dus meteen beperkte aantal blokparen in de databank zitten, zal dit probleem alleen maar ergermaken.

Er zijn een aantal papers die trachten dit probleem op te lossen door gebruik te makenvan iteratieve terugprojectie (zie Sectie 2.1.3). Wij hebben dit probleem trachten op telossen door een nieuwe manier in te voeren om de hoge-resolutieblokken op te slaan.

Opslag als verschil met de dichtste-buurinterpolatie

Om het probleem van inconsistentie op te lossen hebben we een tweede manier van op-slaan van hoge-resolutieblokken beschouwd die dit probleem niet heeft. Deze techniek zalde hoge-resolutieblokken opslaan door van elk van de subblokken van grootte s × s degemiddelde waarde van dat blok er van af te trekken. Op deze manier zal elk opgeslagensubblok van het hoge-resolutieblok de gemiddelde waarde 0 hebben.

Merk op dat deze manier van opslaan ook kan beschouwd worden als het verschil vanhet hoge-resolutieblok met de dichtste-buurinterpolatie van het bijhorende lage-resolutie-blok. Dit komt doordat het lage-resolutieblok via formule (5.1) berekend wordt als gemid-delde waarde van elk subblok uit het hoge-resolutieblok en dat de dichtste-buurinterpolatiemet een schaalfactor s er op neerkomt dat elke pixel vervangen wordt door een s× s blokvan gedupliceerde pixels.

Constructie superresolutiebeeld Als we de hoge-resolutieblokken op deze techniekopslaan zal de constructie van het superresolutiebeeld ook op een andere manier moetengebeuren.

Om het superresolutiebeeld te berekenen zullen we voor elk lage-resolutieblok uit het opte schalen beeld een bijhorend hoge-resolutieblok zoeken of berekenen aan de hand van deblokparen uit de databank (zie Sectie 5.3) en dan die hoge-resolutieblokken gebruiken voorde constructie van het superresolutiebeeld. Nu zullen deze gevonden hoge-resolutieblokkenopgeslagen zijn als verschil met de dichtste-buurinterpolatie. Dit wil zeggen dat ze nietrechtsreeks zullen kunnen gebruikt worden om een superresolutiebeeld te construeren.

Om dit op te lossen zal zo een hoge-resolutieblok eerst worden opgeteld bij de dichtste-buurinterpolatie van het beschouwde lage-resolutie blok. Dit komt dus neer op het ver-vangen van elk lage-resolutiepixel door een s× s subblok met gedupliceerde pixels. Dezehoge-resolutieblokken kunnen dan rechtstreeks gebruikt worden voor constructie van hetsuperresolutiebeeld.

32

Aangezien elk s× s subblok van deze hoge-resolutieblokken geconstrueerd wordt dooreen subblok van gedupliceerde pixels (uit het op te schalen lage-resolutie blok) en eensubblok waarvan de gemiddelde waarde gelijk aan 0 is (wegens deze methode van opslaan)zal de gemiddelde waarde van elk subblok in het hoge-resolutieblok gelijk zijn aan degedupliceerde pixelwaarde van het op te schalen lage-resolutie blok. Als we dit hoge-resolutieblok dan neerschalen door voor elk subblok de gemiddelde waarde te berekenenzal de neergeschaalde versie dus gelijk zijn aan het op te schalen lage-resolutieblok. Doordeze hoge-resolutieblokken te gebruiken zullen we dus een superresolutiebeeld bekomendie consistent is met het op te schalen lage-resolutiebeeld.

Figuur 5.3 toont hier een voorbeeld in het geval van een lage-resolutieblokgrootte 3×3en een schaalfactor 2. Men kan dus zien dat als men het superresolutieblok (d) gaatneerschalen dat men weer het oorspronkelijke lage-resolutieblok (a) zal bekomen.

Opslag als verschil met de Lanczos-interpolatie

Een derde techniek om de hoge-resolutieblokken op te slaan is om in plaats van dichtste-buurinterpolatie, een andere vorm van interpolatie te gebruiken. Wij hebben gekozen voorLanczos-interpolatie. Een gelijkaardige manier van opslaan werd voorgesteld in [FJP02].

De hoge-resolutieblokken worden dan geëxtraheerd uit het verschil tussen het hoge-resolutiebeeld en de Lanczos-interpolatie van het lage-resolutiebeeld. Figuur 5.4 toonthier het voorbeeld voor een frame uit de Foreman video. Het beeld wordt dus eerstneergeschaald en dan weer opgeschaald via Lanczos-interpolatie om zo tot een verschil-beeld te kunnen komen. We zullen dit verschilbeeld dan gebruiken om hieruit de hoge-resolutieblokken uit te extraheren.

Merk op dat we de manier van opslaan uit de vorige sectie ook kunnen beschouwenals opslaan het extraheren van hoge-resolutieblokken uit een verschilbeeld. Het enigsteverschil is dat dan de dichtste-buurinterpolatie gebruikt wordt in plaats van de Lanczos-interpolatie.

Constructie superresolutiebeeld Bij de constructie van het superresolutiebeeld zul-len we starten met verschilbeeld te bereken aan de hand van het de opgeslagen hoge-resolutieblokken en het lage-resolutiebeeld. Dit verschilbeeld zullen we dan optellen bij deLanczos-interpolatie van het op te schalen lage-resolutiebeeld om zo tot het uiteindelijkesuperresolutiebeeld te kunnen komen.

Het idee achter deze methode is dat de Lanczos-interpolatie zal zorgen voor de lagefrequenties in het superresolutiebeeld en dat het verschilbeeld daar dan de hoge frequentieszal aan toevoegen.

5.2.4 Opslag lage-resolutieblokken

Aangezien er bij de methodes die de hoge-resolutieblokken opslaan als een verschil met hetinterpolatiebeeld (Sectie 5.2.3 en Sectie 5.2.3) er enkel hoge frequenties worden opgeslagenleek het ons logisch om voor deze technieken ook enkel de hoge frequenties van de lage-resolutieblokken op te slaan. Het idee hierachter is dat de hoge frequenties van het lage-resolutiebeeld meer zullen zeggen over de hoge frequenties in het superresolutiebeeld dande lagere frequenties uit dat beeld.

33

(a) (b)

(c) (d)

Figuur 5.3: Constructie van het superresolutieblok bij opslag van het hoge-resolutieblokals verschil met de dichtste-buurinterpolatie. (a) Op te schalen blok. (b) Dichtste-buurinterpolatie van op te schalen blok. (c) Hoge-resolutieblok dat gevonden is voorde opschaling van (a). (d) Superresolutieblok = (b) + (c)

34

Figuur 5.4: Verschilbeeld met Lanczos-interpolatie.

De gewone lage-resolutieblokken werden omgezet naar hoge frequenties door simpelweghet gemiddelde van het blok er vanaf te trekken. In Sectie 6.3.2 wordt deze manier vanopslaan vergeleken met het opslaan als pure pixelwaarden.

5.3 Constructie van een superresolutiebeeldIn deze sectie leggen we uit hoe we aan de hand van de blokparen uit de databank en hetlage-resolutiebeeld het superresolutiebeeld kunnen construeren.

Als we de hoge-resolutie blokken opslaan als pure pixelwaarden zullen we het super-resolutiebeeld rechtstreeks kunnen berekenen aan de hand van de blokparen. Als we dehoge-resolutie blokken opslaan als verschil met één van de twee interpolaties (Sectie 5.2.3en Sectie 5.2.3) zullen we eerst het verschilbeeld moeten berekenen (zie Figuur 5.4) dieerna zal worden opgeteld bij de interpolatie van het lage-resolutiebeeld om zo tot hetuiteindelijke superresolutiebeeld te komen.

Als we in dit hoofdstuk spreken over het superresolutiebeeld zullen we hier in het gevalvan de hoge-resolutieblokopslag als pure pixelwaarden het te zoeken superresolutiebeeldbedoelen en in het geval van hoge-resolutieblokopslag als een verschil met een interpolatiebedoelen we hiermee het verschilbeeld.

Samenvoegen van hoge-resolutieblokken

Voor elk lage-resolutieblok dat in een lage-resolutiebeeld te vinden is zullen we aan dehand van de blokparen van de databank een hoge-resolutieblok kiezen of berekeken. Dezehoge-resolutieblokken zullen we dan samenvoegen tot het uiteindelijke superresolutiebeeld.Aangezien we elk lage-resolutieblok in het beeld beschouwen zullen deze dus overlappenen zullen er in een beeld met breedte w en hoogte h zullen dus (h− b+ 1)(w− b+ 1) vandie lage-resolutieblokken van grootte b× b te vinden zijn.

Doordat de beschouwde lage-resolutieblokken overlappen zullen de gevonden hoge-resolutieblokken ook moeten overlappen. Figuur 5.5 stelt dit grafisch voor in het geval vaneen schaalfactor 2 en een lage-resolutieblokgrootte van 2×2. In het op te schalen frame zieje dus 4 lage-resolutieblokken overlappen met elkaar en zie je dat dit zal overeenkomen in

35

het superresolutieframe met 4 overlappende hoge-resolutieblokken. Om nu bijvoorbeeld de4 grijze pixels in het superresolutieframe te bepalen heeft men dus keus uit de pixelwaardenvan 4 verschillende hoge-resolutieblokken.

Een mogelijke oplossing hiervoor zou zijn om voor elk hoge-resolutieblok enkel demiddelste pixels te gebruiken voor de constructie van het superresolutiebeeld. In hetvoorbeeld uit de figuur zou dit dus neerkomen op het gebruiken van het 2× 2 blok in hetmidden van elk hoge-resolutieblok. Op deze manier zal je er dus voor zorgen dat met elkepixel in het superresolutiebeeld slechts één hoge-resolutieblok overeenkomt.

Een tweede oplossing is om de overlappende delen uit te middelen. De grijze pixelsuit Figuur 5.5 zullen in dit geval dus geconstrueerd worden door voor elke pixel hetrekenkundig gemiddelde te berekenen van de vier pixels uit de vier verschillende hoge-resolutieblokken.

Als we de twee methodes visueel vergelijken zien we dat de laatste duidelijk betereresultaten geeft. Figuur 5.6 vergelijkt deze methodes voor beelden uit de Foreman, Suzieen Highway video. Bij het vergelijken werd de Markov Random Fields methode gebruiktom de hoge-resolutieblokken te kiezen (zie Sectie 5.3.3) uit de databank.

Berekenen of kiezen van hoge-resolutieblok

Om de hoge-resolutieblokken te kunnen samenvoegen moeten we natuurlijk eerst weten hoewe deze kunnen berekenen of kiezen uit de databank. Om voor elk lage-resolutieblok in hetlage-resolutiebeeld een bijhorend hoge-resolutieblok te vinden, hebben we 3 verschillendetechnieken beschouwd:

• Het kiezen van het hoge-resolutieblok met beste lage-resolutieblok overeenkomst

• Het berekenen van het (gewogen) gemiddelde van hoge-resolutieblokken met bestelage-resolutieblok overeenkomsten

• Het kiezen van een hoge-resolutieblok op basis van Markov Random Fields die ookrekening houdt met de overlap tussen de verschillende hoge-resolutieblokken.

Deze methodes drie methodes zullen we nu in meer detail uitleggen.

5.3.1 Beste overeenkomst

De eenvoudigste methode is om voor elk lage-resolutieblok in het beeld te zoeken naarde beste lage-resolutie overeenkomst in de databank. Hiermee bedoelen we dat we zoekennaar het blokpaar waarvan het lage-resolutieblok het minste verschil vertoont ten op zichtevan het op te schalen lage-resolutieblok. Het verschil tussen twee blokken werd door onsberekend aan de hand van de Root Mean Square Error (RMSE) en die kan via de volgendeformule berekend worden:

RMSE =

√√√√√ 1b2

b∑i=1

b∑j=1

[bl1(i, j)− bl2(i, j)]2. (5.2)

Hierbij zijn bl1 en bl2 de te vergelijken blokken met een blokgrootte van b × b. Hetlage-resolutieblok uit de databank dat ten op zichte van het op te schalen blok de laagsteRMSE vertoont, beschouwen we dus als het blok dat het best overeenkomt. Het bijhorende

36

(a) (b)

Figuur 5.5: Overlap in het superresolutieframe (schaalfactor = 2 en blokgrootte = 2×2).(a) Op te schalen frame. (b) Superresolutieframe.

37

(a)

(b)

Figuur 5.6: Samenvoegen van hoge-resolutieblokken. (a) Geen overlap tussen pixels vanhoge-resolutieblokken. (b) Uitmiddeling van pixels in hoge-resolutieblokken.

hoge-resolutieblok uit de databank zullen we dan gebruiken om het superresolutiebeeld teconstrueren.

Merk op dat als men de lage-resolutieblokken opslaat door eerst de gemiddelde blok-waarde er van af te trekken (zie Sectie 5.2.4) dat we van het op te schalen lage-resolutieblokook eerst de gemiddelde blokwaarde moeten aftrekken alvorens de RMSE te berekenen.

Een nadeel aan deze methode is dat ze per lage-resolutieblok maar één hoge-resolutie-blok kiest uit de volledige databank. Dit zorgt ervoor dat deze methode gevoelig zal zijnaan ruis en dat ze dus niet zeer robuust zal zijn. Als er een aantal slechte voorbeeldparen inde databank terechtgekomen zijn, kunnen via deze methode gemakkkelijk voor artefactenin het beeld zorgen.

Nog een ander nadeel is dat deze methode geen rekening houdt met de overlap tussennaburige hoge-resolutieblokken en dat naburige hoge-resolutieblokken onafhankelijk vanelkaar gekozen worden. Dit kan er voor zorgen dat de overlappende delen van de hoge-resolutieblokken sterk van elkaar verschillen. Wat natuurlijk een slechte invloed zal hebbenop het uiteindelijke superresolutiebeeld.

5.3.2 Uitmiddeling van beste overeenkomsten

In een poging om de superresolutieconstructie wat robuuster te maken, zoeken we bij dezemethode naar de n beste overeenkomsten in plaats van enkel de beste overeenkomst tebeschouwen. Deze n blokparen zijn dus de blokparen waarvoor de lage-resolutieblokkende kleinste RMSE vertoont ten opzichte van het op te schalen lage-resolutieblok. Den gevonden hoge-resolutieblokken voegden we dan samen door middel van uitmiddeling.Deze uitmiddeling wordt beschreven aan de hand van de volgende formule:

38

blhr(i, j) =n∑k=1

(wk · blk(i, j)). (5.3)

Hierbij stelt blk het kde lage-resolutieblok voor en wk de wegingsfactor.Deze wegingsfactor zal bepaald worden door de techniek van uitmiddelen. Wij be-

schouwden drie soorten van uitmiddeling:

• Rekenkundig gemiddelde, elk blok heeft dezelfde wegingsfactor:

wk = 1/n.

• Op basis van inverse RMSE:

wk = 1/RMSEkn∑k=1

(1/RMSEk).

• Op basis van een exponentiële wegingsfactor:

wk =exp(−RMSE2

k2σ2 )

n∑k=1

exp(−RMSE2k

2σ2 ).

In bovenstaande formules stelt RMSEk de RMSE voor tussen het kde blok en het op teschalen lage-resolutieblok.

Deze methode zal dus door de uitmiddeling van verschillende hoge-resolutieblokkenuit de databank er voor zorgen dat het algoritme minder gevoelig zal zijn aan slechtevoorbeeldparen in die databank. Een nadeel blijft wel dat er nog steeds geen rekeninggehouden wordt met de overlap tussen de verschillend hoge-resolutieblokken.

5.3.3 Markov Random Fields

In tegenstelling tot de vorige twee technieken zal de Markov Random Fields techniek hetsuperresolutieprobleem op een globale manier trachten op te lossen. Deze techniek zal dusniet enkel lokaal rekening houden met het hoge-resolutieblok uit de databank dat het bestpast bij het op te schalen lage-resolutieblok, maar zal ook globaal een bepaalde gladheidopleggen aan de oplossing. Deze gladheid zullen we opleggen door er voor te zorgen datoverlappende delen van naburige hoge-resolutieblokken niet te veel van elkaar verschillen.

De Markov eigenschap zegt dat de globaal beste oplossing kan bekomen worden doorvoor elk te zoeken hoge-resolutieblok enkel rekening moeten houden met de naburigeblokken. In ons geval zijn deze naburige blokken het onderliggende lage-resolutieblok en denaburige hoge-resolutieblokken. Deze methode zal dus voor elk lage-resolutieblok uit hetop te schalen frame één hoge-resolutieblok uit de databank kiezen die goed overeenkomtmet het op te schalen blok en tegelijkertijd weinig verschil vertoont in de overlap metnaburige hoge-resolutieblokken.

Om dit probleem op te lossen maken we gebruik van de neighbourhood-consensusmessage passing methode uit [RPP11]. Deze methode tracht de globaal beste oplossingzo goed mogelijk te benaderen en toch de rekentijd beperkt te houden. Om de rekentijd

39

te beperken zal deze methode eerst voor elk op te schalen lage-resolutieblok de n bestehoge-resolutieblokken zoeken (op basis van RMSE tussen lage-resolutieblokken). Hiernawordt dan uit deze n hoge-resolutieblokken het globaal best passende hoge-resolutieblokgekozen. Dit doet men door voor elk van deze hoge-resolutieblokken een belief te berekenendat in enkele iteraties van het algoritme geüpdatet wordt. Na de benodigde iteratieszal dan voor elk lage-resolutieblok het hoge-resolutieblok met het hoogste belief gekozenworden als globaal best passend. Dit hoge-resolutieblok zal dan gebruikt worden om hetsuperresolutiebeeld te construeren.

Het belief van een hoge-resolutieblok zal in elke iteratie herberekend worden aan dehand van de overeenkomst met het lage-resolutieblok en de overeenkomst met naburigehoge-resolutieblokken die het beste belief hadden in de vorige iteratie. Stel dat xi,k hetkde hoge-resolutieblok is dat overeenkomt met een lage-resolutieblok yi op positie i in hetlage-resolutiebeeld, dan wordt het belief in dit blok berekend aan de hand van de volgendeformule:

bel(xi,k) = φ(xi,k, yi)mσi→i(xi,k). (5.4)

Hierbij stelt de functie φ voor in welke mate het hoge-resolutieblok van het blokpaarovereenkomt met het op te schalen lage-resolutieblok yi en stelt de functiem de boodschapvoor uit de omgeving van positie i. Deze boodschap zal de informatie bevatten over hoegoed de hoge-resolutieblokken overlappen.

De functie φ wordt als volgt gedefinieerd:

φ(xi,k, yi) = exp

(−RMSE′(xi,k, yi)2

2σR2

). (5.5)

Hierbij steltRMSE′(xi,k, yi) de Root Mean Square Error voor tussen het lage-resolutieblokhorend bij xi,k (want xi,k is afkomstig uit een blokpaar) en het op te schalen lage-resolutieblok yi.

De boodschap m uit de omgeving rond positie i wordt als volgt berekend:

mσi→i(xi,k) = exp

−∑j∈σi

bel′(x′j)RMSE(xi,k, x′j)2

2σN 2

. (5.6)

bel′(x′j) stelt hier het belief voor uit de vorige iteratie en x′j het hoge-resolutieblok uit devorige iteratie op positie j in het beeld met het hoogste belief. Verder stelt σi de omgevingrond positie i voor en in ons geval bevat deze omgeving enkel het hoge-resolutieblok links,rechts, boven en onder het hoge-resolutieblok op positie i. RMSE(xi,k, x′j) stelt de RootMean Square Error voor tussen de overlappende delen van de naburige blokken x′j en hetblok xi,k.

De RMSE van hoge-resolutieblokken die een hoog belief hadden in de vorige iteratiezal dus zwaarder doorwegen. Dit wil zeggen dat een slechte overlap met een naburighoge-resolutieblok met een groot belief zwaarder zal worden afgestrafd.

Het algoritme start door eerst voor elk hoge-resolutieblok het belief te bereken doormσi→i(xi,k) gelijk te stellen aan 1, dus door deze formule toe te passen:

belinit(xi,k) = φ(xi,k, yi). (5.7)

40

Dit belief zal dan aan de hand van vergelijking (5.4) in een aantal iteraties geüpdatet wor-den. Na de benodigde iteraties zal het algoritme op elke positie i het hoge-resolutieblokkiezen met het hoogste belief en dit dan gebruiken om het superresolutiebeeld te constru-eren.

5.4 Gebruikte databankIn deze sectie leggen we uit hoe de blokparen worden opgeslagen in de databank en welkeblokparen er voor een bepaald op te schalen lage-reosollutieblok dus kunnen gebruiktworden voor de constructie van een superresolutieframe. Wij beschouwen drie verschillendedatabanken om deze blokparen op te slaan:

• De volledige databank: al de blokparen die uit een frame worden geëxtraheerd op-slaat in één databank.

• De databank die gepartitioneerd is op basis van gemiddelde pixelwaarde: de ge-middelde pixelwaarde van een lage-resolutieblok van een blokpaar bepaalt in welkepartitie van de databank het blokpaar wordt opgeslagen.

• De databank die gepartitioneerd is op basis van beeldblokken: de positite in hetbeeld van het blokpaar bepaalt in welke partitie van de databank het blokpaarwordt opgeslagen.

Elke van deze databanken bevatten naast de blokparen uit het huidig frame ook blokparenuit de vorige frames. Als we in dit hoofdstuk zullen spreken over de databankgrootte, danbedoelen we hiermee het aantal blokparen dat telkens naar het volgende frame zal wordenovergedragen.

Een databank zal dus voor elk op te schalen frame al een aantal blokparen bevatten uitvorige frames. Deze blokparen worden dan aangevuld met de blokparen die geëxtraheerdzijn uit het huidige frame en deze worden dan gebruikt voor de superresolutieopschalingvan dat frame. Na de constructie van het superresolutieframe kuisen we de databankop door enkel de meest gebruikte blokparen te behouden. Deze blokparen kunnen dangebruikt worden bij de superresolutieconstructie van toekomstige frames. Het aantal tebehouden blokparen wordt bepaald door de databankgrootte.

5.4.1 Overgedragen blokparen

De databankgrootte bepaalt dus hoeveel blokparen er via de databank worden overgedra-gen voor gebruik in het volgend frame. De eerste kandidaten hiervoor zijn de de blokkendie het meest zijn gebruikt tijdens de constructie van het huidig superresolutieframe. Alsdeze blokparen nog niet voldoen om de databank te vullen, zullen de blokken die hetmeest gebruikt waren in het vorig frame worden toegevoegd en als dit nog niet genoeg isgebruiken we de meest gebruikte blokken uit het frame ervoor en dit gaat zo door totdater evenveel blokken gevonden zijn als dat de databankgrootte aangeeft.

Definitie van meest gebruikte blokparen

Als de Markov Random Fields methode (zie Sectie 5.3.3) gebruikt wordt om het superre-solutiebeeld te construeren is het eenvoudig om de meest gebruikte blokken te definiëren.

41

Figuur 5.7: Volledige databank.

Voor elk lage-resolutieblok wordt er immers één blokpaar gekozen uit de databank. Demeest gebruikte blokparen zijn dan diegene die het meest gebruikt zijn bij de constructievan het superresolutiebeeld.

Bij de methode op basis van uitmiddeling (zie Sectie 5.3.2) worden er meerdere blokpa-ren gekozen per lage-resolutieblok, want het hoge-resolutieblok wordt geconstrueerd dooruitmiddeling van verschillende hoge-resolutieblokken uit de databank. Elk van deze hoge-resolutieblokken krijgt een bepaald gewicht mee in de uitmiddeling. Het is dit gewicht datgebruikt zal worden om de meest gebruikte hoge-resolutieblokken te bepalen. Voor elkekeer dat een blokpaar ergens in de constructie superresolutiebeeld gebruikt wordt zullen degebruikte gewichten opgeteld worden. De blokparen met de hoogste opgetelde gewichtenworden dan beschouwd als de meest gebruikte blokparen.

5.4.2 Volledige databank

De eenvoudigste databank is de databank die al de blokparen uit het frame in één endezelfde databank opslaat en deze dan allemaal zal gebruiken bij de constructie van hetsuperresolutieframe. Figuur 5.7 stelt het toevoegen van de blokparen aan deze databankschematisch voor. Al de blokparen die uit het lage-resolutiebeeld geëxtraheerd worden,worden dus toegevoegd aan de databank.

Een nadeel aan deze techniek van opslaan is dat de databank redelijk groot kan worden.Voor grotere beeldresoluties zullen er dus veel meer blokparen in de databank zitten. Ditwil zeggen dat bij het opschalen, men voor elk lage-resolutieblok moet kiezen uit veel meerblokparen en dit terwijl het aantal lage-resolutieblokken bij grotere resolutie ook stijgt.Dit zal er voor zorgen dat de rekentijd kwadratisch zal stijgen ten opzichte van het aantalpixels in het op te schalen beeld.

5.4.3 Databank gepartitioneerd op basis van gemiddelde pixelwaarde

In een poging om de rekentijd wat te verminderen kunnen we de databank partitioneren.Bij deze techniek hebben we de databank gepartitioneerd op basis van de gemiddelde pixel-waarde van het lage-resolutieblok. Figuur 5.8 toont hier een schematische voorstelling vanin het geval van een partitionering in 3 bibliotheken. Zoals te zien is zullen de blokparenmet de hoogste pixelwaarden (lichtste kleuren) in de bovenste databank worden opgeslagenen blokparen met de laagste pixelwaarden (donkerste kleuren) in de onderste databank.Bij de partitionering maakten we gebruik van partities met een gelijke grootte, dus als we

42

Figuur 5.8: Databank gepartitioneerd op basis van gemiddelde lage-resolutieblok pixel-waarde.

de databank opsplitsten in bijvoorbeeld 4 partities dan werd het bereik van pixelwaarden[0,255] opgesplitst de volgende partities: [0,63], [64,127], [128,191] en [192,255].

Het idee achter deze partitionering is dat gelijkaardige lage-resolutieblokken ook eengelijkaardige gemiddelde pixelwaarde zullen hebben.

Bij de constructie van het superresolutiebeeld zal dan voor elk lage-resolutieblok degemiddelde pixelwaarde berekend worden en zal op basis daarvan enkel in de bijhorendepartitie van de databank gezocht worden naar blokparen.

Merk op dat al deze partities ook al blokparen uit vorige frames kan bevatten.

5.4.4 Databank gepartitioneerd op basis van beeldblokken

Een derde techniek techniek om de databank te partitioneren, is op basis van de positie inhet beeld. Dit is schematisch weergegeven in Figuur 5.10. Het beeld zal dus gepartitioneerdworden in een aantal beeldblokken met een bepaalde partitiegrootte en met elk beeldblokzal dus een aparte partitie van de databank overeenkomen.

Een klein probleem bij deze beeldblokken is dat een beeld meestal niet perfect kangeparitioneerd worden in beeldblokken met een vaste grootte. Figuur 5.9 toont hier eenvoorbeeld van. Men kan dus zien dat in de meeste gevallen de meest rechtse en onderstepartities kleiner zullen zijn dan de andere. Om in deze partities van de databank tochevenveel blokparen ter beschikking te hebben tijdens de superresolutieconstructie wer-den de dichtst gelegen blokparen uit de naburige beeldblokken ook toegevoegd aan dezepartities.

Het idee achter deze partitionering is dat binnen zo een beeldblok veel gelijkaardigelage-resolutieblokken te vinden zijn en dat de kans groter is dat men een nuttig blokpaarkan extraheren uit hetzelfde deel van het beeld dan ergens anders in het beeld. Ook zaldeze opdeling er voor zorgen dat de rekentijd niet meer kwadratisch zal stijgen met hetaantal pixels in het beeld. Dit komt omdat we de beeldblokken een vaste grootte hebben en

43

Figuur 5.9: Partitionering in beeldblokken.

Figuur 5.10: Databank op basis van beeldblokken.

dat zorgt er voor dat elk lage-resolutieblok telkens met evenveel blokparen moet vergelekenworden voor om het even welke beeldresolutie.

Deze partitionering op basis van beeldblokken geldt alleen voor de blokparen uit hethuidig frame. Blokparen die overgedragen zijn uit vorige frames zullen we opslaan in éénglobale databank. Deze databank zal dus de blokparen bevatten die het meest gebruiktzijn in het volledige vorige frame en de frames ervoor. De reden voor deze globale databankis dat deze databank veel algemeen gebruikte blokparen zal gaan bevatten en dat dat eengoede aanvulling kan betekenen voor de uit het beeldblok geëxtraheerde blokparen.

Bij de constructie van het beeld zal men voor elk lage-resolutieblok de blokparen duskiezen uit twee verschillende databanken: een lokale databank die de blokparen van hethuidig beeldblok bevat en een globale databank met blokparen uit de vorige frames.

44

5.5 Post-processing stapBij het opslaan van de hoge-resolutieblokken als het verschil met een interpolatiebeeld (zieSectie 5.2.3 en Sectie 5.2.3) zullen we dus eerst een verschilbeeld te berekenen en dit danop te tellen bij de interpolatie van het op te schalen lage-resolutiebeeld.

Het probleem dat hierbij is dat het verschilbeeld negatieve waarden bevat en het kangebeuren dat het uiteindelijke superresolutiebeeld negatieve pixelwaarden zal bevatten.Daarenboven kan het ook gebeuren dat er pixelwaarden hoger dan 255 zullen voorkomenen dit terwijl in ons geval 255 de maximale intensiteit van een pixel is. Deze problemenwerden simpelweg opgelost door negatieve pixelwaarden te vervangen door de nulwaardeen de pixelwaarden boven de 255 te vervangen door de waarde 255.

Deze stap zal visueel geen verschil geven aangezien ons intensiteitsbereik in Matlabom de afbeelding weer te geven ingesteld staat van 0 tot en met 255. De PSNR-waardenvan onze resultaten zullen hierdoor uiteraard wel verbeteren.

45

Hoofdstuk 6

Resultaten VVS-techniek

6.1 AlgemeenIn dit hoofdstuk zullen we de verschillende technieken uit het vorige hoofdstuk vergelijkenen zullen we de bekomen resultaten bespreken.

Sectie 6.2 begint met het beschrijven van onze testomgeving en de gebruikte testvideo’s.Hierna zullen we in Sectie 6.3 de verschillende technieken om blokparen op te slaan

vergelijken, alsook de gebruikte blokgrootte. Sectie 6.4 vergelijkt de verschillende technie-ken van superresolutieconstructie en een aantal bijhorende parameters. Daarna wordende drie verschillende databanken en een aantal bijhorende parameters vergeleken in Sectie6.5.

Tot slot bespreken we in Sectie 6.6 de resultaten van beste technieken op de volledigevideo en vergelijken we deze resultaten met een aantal andere superresolutietechnieken.Eén van die technieken is onze VSPB-techniek uit Hoofdstuk 3.

6.2 Testomgeving

Computeromgeving

Al onze algoritmes zijn geïmplementeerd in Matlab en de tests in verband met de rekentijdverliepen op een laptop met een Intel Core i7-2630QM 2 GHz processor en 8 GB RAMgeheugen.

Testvideo’s

Om de verschillende technieken te kunnen vergelijken hebben we gebruik gemaakt van vijfverschillende testvideo’s waar we onze methodes op testten. Deze testvideo’s werden eerstneergeschaald met een factor 2 voordat we onze superresolutietechnieken er op toepasten.De originele video kon dan gebruikt worden om de PSNR-waarden voor de verschillendetechnieken te berekenen. De vijf testvideo’s hebben niet allemaal dezelfde resolutie. Tabel6.3 toont de namen van de testvideo’s en de bijhorende resoluties. De Foreman, Highwayen Suzie zijn dus van dezelfde grootteorde en de Football en Map video zijn van een anderegrotere grootteorde. De eerste frames van deze testvideo’s zijn te zien in Figuur 6.1.

46

Figuur 6.1: Eerste frame van de 5 testvideo’s. Van links naar rechts/boven naar onder:Foreman, Highway, Suzie, Football, Map

47

Video Resolutie hoge-resolutiebeeld Resolutie lage-resolutiebeeld

Foreman 288× 352 144× 176Highway 288× 352 144× 176Suzie 240× 350 120× 175Football 480× 640 240× 320Map 480× 640 240× 320

Tabel 6.1: Resolutie van de testvideo’s.

Vergelijkende tests

De meeste van onze vergelijkende tests werden slechts toegepast op het eerste frame vande video. Dit wil dus zeggen dat er voor de opschaling gebruik gemaakt werd van eendatabank die enkel blokparen bevat die uit het lage-resolutiebeeld zelf geëxtraheerd waren.Tenzij het anders vermeld wordt, gebruikten we de Markov Random Fields methode (zieHoofdstuk 5.3) met een lage-resolutieblokgrootte van 3× 3 om het superresolutiebeeld teconstrueren.

6.3 Extractie en opslag van blokparen

6.3.1 Opslag hoge-resolutieblokken

In dit deel vergelijken we de drie verschillende technieken om het hoge-resolutieblok op teslaan:

• Opslag als pure pixelwaarden (Sectie 5.2.3).

• Opslag als verschil met de dichtste-buurinterpolatie (Sectie 5.2.3).

• Opslag als verschil met de Lanczos-interpolatie (Sectie 5.2.3).

Als we de PSNR-waarden uit Tabel 6.2 vergelijken zien we dat, zoals verwacht, hetopslaan als pure pixelwaarden een stuk slechter resultaat dan de andere twee methodes.De PSNR-waarden van deze twee laatste methodes liggen dicht tegen elkaar met een lichtvoordeel voor de methode op basis van het verschil met de Lanczos-interpolatie.

Als we dan de resultaten visueel vergelijken (Figuur 6.2) zien we opnieuw dat de eerstemethode duidelijk de slechtste resultaten geeft. Op het frame uit de Football video iszelfs duidelijk te zien dat de zwarte strepen op de broek een stuk grijzer zijn geworden,wat betekent dat dit superresolutiebeeld inconsistent zal zijn met het lage-resolutiebeeld.Als we dan de twee laatste methodes vergelijken zien we dat de methode op basis vande dichtste-buurinterpolatie een resultaat geeft dat iets minder glad is en dat een aantalkleine blokartefacten bevat.

Aangezien de PSNR-waarden voor de methode op basis van de Lanczos-interpolatielicht in het voordeel is en aangezien die ook visueel betere resultaten geeft, zullen we dezemethode dus verkiezen boven de twee andere. In wat volgt zullen de hoge-resolutieblokkendus opgeslagen worden als het verschil met de Lanczos-interpolatie.

48

(a) (b) (c)

Figuur 6.2: Vergelijking van de opslagmethodes voor de hoge-resolutieblokken. (a) Opslagals pure pixelwaarden. (b) Opslag als verschil met dichtste-buurinterpolatie. (c) Opslagals verschil met Lanczos-interpolatie.

49

Pure pixelwaarden Verschil met Verschil metVideo dichtste-buurinterpolatie Lanczos-interpolatie

Foreman 29,69 32,03 32,31Suzie 32,66 34,49 34,61Highway 30,05 31,27 31,03Football 31,04 33,65 34,73Map 28,28 29,31 30,04

Gemiddelde 30,34 32,15 32,54

Tabel 6.2: Vergelijking van PSNR-waarden (dB) tussen de verschillende opslagtechniekenvoor hoge-resolutieblokken.

Video Pure pixelwaarden Hoge frequenties

Foreman 33,14 32,31Suzie 34,50 34,61Highway 31,02 31,03Football 34,29 34,73Map 29,82 30,04

Gemiddelde 32,55 32,54

Tabel 6.3: Vergelijking van PSNR-waarden (dB) tussen de twee opslagtechnieken voorlage-resolutieblokken

6.3.2 Opslag lage-resolutieblokken

Bij de opslag van de lage-resolutieblokken in de databank konden we kiezen uit de opslagals pure pixelwaarden of de opslag van enkel de hoge frequenties. De hoge frequentieswerden bekomen door de gemiddelde pixelwaarde van het lage-resolutieblok er van af tetrekken.

De PSNR-waarden in Tabel 6.3 tonen een licht voordeel voor de opslag van hogefrequenties. Alleen bij de Foreman video zien we een redelijk groot voordeel voor hetopslaan van pure pixelwaarden. Dit is volgens ons te wijten aan het feit dat een aantalranden op de muur van de video wat smaller werden weergegeven bij de opslag van hogefrequenties waardoor er op die plaatsen een groot verschil is in pixelwaarden onstond.

Als we de resultaten visueel vergelijken zien we dat in de meeste gevallen het opslaanvan de hoge frequenties het beter doet dan het opslaan van de pure pixelwaarden. Figuur6.3 toont een aantal van deze gevallen. Daarom hebben we gekozen om enkel de hogefrequenties van de lage-resolutieblokken op te slaan.

6.3.3 Gebruikte lage-resolutieblokgrootte

Nu we de manier van opslaan van de blokparen gekozen hebben dienen we ook de tegebruiken lage-resolutieblokgrootte te bepalen.

Als we de PSNR-waarden voor de verschillende blokgroottes in Tabel 6.4 vergelijkenzien we dat de blokgroottes 2×2 en 5×5 mindere resultaten opleveren. Bij een blokgrootte

50

(a) (b)

Figuur 6.3: Vergelijking van de opslagmethodes voor lage-resolutieblokken. (a) Purepixelwaarden. (b) Hoge frequenties.

51

BlokgrootteVideo 2× 2 3× 3 4× 4 5× 5

Foreman 31,99 32,31 32,19 32,09Suzie 34,26 34,61 34,62 34,53Highway 30,11 31,03 31,24 31,22Football 34,08 34,73 34,74 34,71Map 29,40 30,04 30,03 29,62

Gemiddelde 31,97 32,55 32,57 32,43

Tabel 6.4: PSNR-waarden (dB) voor veschillende lage-resolutieblokgroottes

van 2×2 zal dit te wijten zijn aan het feit dat vier pixels te weinig is om de superresolutie-pixels goed te kunnen schatten. Bij een blokgrootte van 5× 5 zal onze beperkte databanker voor zorgen dat in dit geval de gevonden overeenkomsten niet goed genoeg zullen zijn.Een grotere blokgrootte betekent immers dat er een veel groter aantal mogelijke blokkenkunnen gevormd worden.

Als we de resultaten voor de Highway video bekijken zien we dat de grotere blok-groottes duidelijk betere resultaten geven. Dit is te wijten aan het feit dat de Highwayvideo duidelijke trapartefacten heeft en dat grotere blokgroottes beter in staat zijn omdie trapartefacten op te vangen. Met een trapartefact bedoelen we het fenomeen waareen schuine lijn in je beeld er gekarteld uitziet in plaats van mooi recht (zie voorbeeld inFiguur 6.4). Grotere blokgroottes kunnen dit fenomeen beter opvangen omdat die bij hetzoeken naar een goede lage-resolutieblokovereenkomst een groter deel van zo een traparte-fact beschouwen en dat ze dus beter in staat zullen zijn om zo een artefact te herkennen.Figuur 6.4 toont het verschil tussen blokgroottes 3× 3 en 4× 4 voor een trapartefact uitde Highway video.

Daarentegen zullen de lagere blokgroottes beter in staat zijn om smallere randen endetails goed te reconstrueren. Dit komt doordat de kans op het vinden van een goedeovereenkomst groter is voor kleinere blokgroottes. Figuur 6.5 toont hier een aantal voor-beelden van. In de eerste video ziet u dat de schaduw op de telefoon beter overeenkomtmet de originele hoge-resolutie video. Bij de tweede video toont de superresolutie metblokgrootte 4 × 4 een klein artefact onderaan het nummer negen, terwijl dit bij blok-grootte 3× 3 niet het geval is. De laatste video toont dan weer iets scherpere letters vooreen 3× 3 blokgrootte.

Er zijn ook gevallen in het beeld waar de blokgrootte 4 × 4 een beter resultaat geeft,maar deze komen minder vaak voor dan bij een blokgrootte van 3×3. Dit zal weer te wijtenzijn aan het feit dat de kans groter is om bij blokgrootte 3× 3 een goede overeenkomst tevinden.

In deze thesis werd dus verder voor een blokgrootte van 3×3 gekozen. De reden hiervooris de goede PSNR-resultaten en de visueel iets betere resultaten dan een blokgrootte4× 4. Ook het feit dat we gebruik maken van een databank die maar een beperkt aantalblokparen zal bevatten, had een invloed op deze keuze. Bij een uitgebreidere databankzouden de grotere blokgroottes zeker te overwegen zijn. Een bijkomend voordeel is datkleinere blokgroottes ook minder geheugen vereisen.

52

(a) (b)

Figuur 6.4: Vergelijking trapartefact tussen blokgroottes 3×3 en 4×4. (a) Superresolutiemet blokgrootte 3× 3 (b) Superresolutie met blokgrootte 4× 4

(a) (b) (c)

Figuur 6.5: Vergelijking tussen blokgroottes 3 × 3 en 4 × 4. (a) Originele hoge-resolutievideo. (b) Superresolutie met blokgrootte 3× 3 (c) Superresolutie met blokgrootte 4× 4

53

Beste Exponentiële weging (σ2) Rekenkundig

Video overeenkomst 0,5 1 2 5 10 50 gemiddelde

Football 34,36 34,87 34,99 35,10 35,25 35,33 35,42 35,42Foreman 32,12 32,39 32,36 32,38 32,39 32,40 32,43 32,44Highway 30,82 30,63 30,66 30,70 30,77 30,82 30,88 30,90Map 29,93 30,05 30,18 30,32 30,51 30,60 30,67 30,67Suzie 34,47 34,27 34,33 34,39 34,44 34,47 34,54 34,61

Gemiddelde 32,34 32,44 32,50 32,58 32,67 32,72 32,79 32,81

Tabel 6.5: Vergelijking van PSNR-waarden (dB) voor verschillende σ2.

6.4 Constructie superresolutiebeeldIn dit deel vergelijken we de verschillende manieren om het superresolutiebeeld te constru-eren. We beginnen met een sectie over de verschillende manieren van uitmiddelen. Danvergelijken we de Markov Random Fields methode voor een aantal verschillende parame-ters en tot slot zullen we de beste Markov Random Fields methode vergelijken met debeste methode op basis van uitmiddeling.

6.4.1 Uitmiddeling van beste overeenkomsten

Exponentiële weging

Als men bij het uitmiddelen voor een exponentiële wegingsfactor kiest, dient men eenbepaalde parameter σ te gebruiken. Tabel 6.5 toont de resultaten voor verschillendewaarden van σ. Bij deze vergelijking werden telkens de 10 beste overeenkomsten gebruiktbij de uitmiddeling.

Merk op dat als men σ klein genoeg kiest, dat dan de beste overeenkomst een zodaniggroot gewicht zal krijgen dat dit overeen gaat komen met gewoon de beste overeenkomstkiezen. Als men σ groot kiest zullen alle gewichten gelijk zijn en zal dit dus neerkomenop het nemen van het rekenkundig gemiddelde. Deze twee methodes werden dan ookopgenomen in de tabel.

Tabel 6.5 toont dus aan dat het kiezen van de beste overeenkomst, zoals te verwachtenwas (zie Sectie 5.3.1), de slechtste resultaten oplevert. Het toont ook aan dat de kwaliteitstijgt naarmate de parameter σ stijgt. Dit wil dus zeggen dat voor deze testvideo’s hetnemen van het rekenkundig gemiddelde betere resultaten oplevert dan het gebruiken vaneen gemiddelde met exponentiële weging.

Inverse Root Mean Square Error

Als we bij het uitmiddelen de wegingsfactor op basis van de inverse Root Mean SquareError (RMSE) gebruiken dan bekomen we de resultaten uit Tabel 6.6. Deze tabel toontde resultaten voor het uitmiddelen van een verschillende aantal beste overeenkomendeblokken die gebruikt zijn in de uitmiddeling. Als u de resultaten voor 10 blokken ver-gelijkt met de resultaten voor het rekenkundig gemiddelde ziet u dat de resultaten zeergelijkaardig zijn met zelfs een klein voordeel voor het rekenkundig gemiddelde. Ondanks

54

Aantal uitgemiddelde blokken

Video 2 3 4 5 10 20 50

Football 34,87 35,09 35,19 35,27 35,42 35,52 35,53Foreman 32,30 32,36 32,40 32,43 32,43 32,46 32,38Highway 30,96 30,95 30,94 30,94 30,88 30,81 30,61Map 30,32 30,47 30,54 30,59 30,66 30,68 30,65Suzie 34,59 34,64 34,65 34,64 34,59 34,49 34,36

Gemiddelde 32,61 32,70 32,75 32,77 32,80 32,79 32,71

Tabel 6.6: Vergelijking van PSNR-waarden (dB) bij inverse RMSE voor verschillend aantalbeste overeenkomsten.

Aantal iteraties

Video 0 1 2 3 4 5 10

Football 34,36 34,81 34,85 34,83 34,85 34,83 34,83Foreman 32,12 32,39 32,37 32,35 32,34 32,33 32,33Highway 30,82 30,96 30,98 31,01 31,00 31,02 31,00Map 29,93 30,22 30,18 30,19 30,14 30,15 30,11Suzie 34,47 34,62 34,62 34,62 34,61 34,61 34,61

Gemiddelde 32,34 32,60 32,60 32,60 32,59 32,59 32,58

Tabel 6.7: Vergelijking van PSNR-waarden (dB) bij de Markov Random Fields methodemet verschillend aantal iteraties

dit resultaat verkiezen we toch de inverse RMSE methode. Dit om te vermijden dat echtslechte overeenkomsten te veel zouden meewegen in de uitmiddeling.

In de rest van deze thesis zullen we dus uitmiddelen op basis van de inverse RMSE enzullen we 10 blokken gebruiken voor die uitmiddeling. Tabel 6.6 toont aan dat dit aantalblokken een goede keuze is.

6.4.2 Markov Random Fields

Aantal iteraties

In dit deel onderzoeken we hoeveel iteraties het algoritme nodig heeft om tot goede resul-taten te komen. Bij de vergelijkende tests lieten we het algoritme per lage-resolutieblokhet belief berekenen voor de 10 beste overeenkomende blokparen. Voor σR en σN uit deformules (5.5) en (5.6) werden respectievelijk de waarden 10 en 20 gebruikt. Deze para-meters hadden geen grote invloed op de kwaliteit van het resultaat indien ze niet speciaalslecht gekozen waren.

De PSNR-waarden voor de verschillende iteraties zijn te zien in Tabel 6.7. Hierbijwil nul iteraties zeggen dat de belief nog niet geüpdatet is en dus via formule (5.7) isberekend en dit zal dus neerkomen op het kiezen van de beste overeenkomst voor elk lage-resolutieblok. Zoals u kunt zien, stijgt de kwaliteit van de beelden door het toepassen

55

Aantal keuzeblokken

Video 2 3 5 10 20 50

Football 34,57 34,70 34,76 34,81 34,82 34,82Foreman 32,36 32,38 32,39 32,39 32,38 32,38Highway 30,96 30,96 30,96 30,96 30,94 30,97Map 30,01 30,10 30,17 30,22 30,26 30,27Suzie 34,54 34,58 34,61 34,62 34,63 34,63

Gemiddelde 32,49 32,54 32,58 32,60 32,61 32,61

Tabel 6.8: Vergelijking van PSNR-waarden (dB) bij de Markov Random Fields methodemet verschillend aantal keuzeblokken

van de eerste iteratie en blijft die kwaliteit ongeveer gelijk voor een hoger aantal iteraties.Aangezien elke iteratie redelijk wat rekentijd vergt zullen we dus het algoritme maar ééniteratie laten doorlopen.

Aantal keuzeblokken

Het algoritme zal dus voor elk lage-resolutieblok een bepaald aantal beste overeenkomendehoge-resolutieblokken zoeken en dan hieruit een keuze maken aan de hand van het belief.We verwachten dat hoe groter dit aantal keuzeblokken is, hoe groter de kans gaat zijn dater een goed hoge-resolutieblok zal gevonden worden en dus hoe beter de kwaliteit van hetsuperresolutiebeeld zal zijn. Een nadeel aan een groter aantal keuzeblokken is dat voor aldeze blokken ook het belief moet berekend worden en dat de rekentijd dus stijgt.

De PSNR resultaten een verschillend aantal keuzeblokken zijn te zien in Tabel 6.8. Er iste zien dat voor de lage aantallen de kwaliteit inderdaad stijgt, maar dat vanaf het gebruikvan 10 blokken de kwaliteit ongeveer gelijk blijft. Dit is te wijten aan het feit dat de kansgroot is dat het hoge-resolutieblok met de hoogste belief bij de 10 keuzeblokken zit. Debijhorende lage-resolutieblokken (uit het blokpaar) tonen immers de beste overeenkomstmet het lage-resolutieblok.

In de rest van deze thesis kozen we dus om de belief te berekenen voor de 10 bestovereenkomende hoge-resolutieblokken.

6.4.3 Uitmiddelen versus Markov Random Fields

Nu we weten welke weging we best gebruiken bij de construtie op basis van uitmiddelingen welke parameters we best gebruiken voor de Markov Random Fields methode kunnenwe deze twee methodes met elkaar vergelijken. Tabel 6.9 vergelijkt de PSNR-resultatenen rekentijden tussen deze twee methodes. De tabel toont niet echt een betere methodeals het op PSNR-resultaten aankomt, voor de ene video is het uitmiddelen beter en voorde andere de Markov Random Fields methode. Als we de resultaten visueel vergelijken(Figuur 6.6) zien we ook geen grote verschillen. In het algemeen zullen de randen in hetbeeld bij de Markov Random Fields methode er iets scherper uitzien, maar dat wil nietzeggen dat dit dan ook effectief beter is.

Als we de rekentijden uit Tabel 6.9 vergelijken, zien we dus duidelijk dat de MarkovRandom Fields methode langer duurt dan de methode op basis van uitmiddelen. Dit is

56

(a) (b) (c)

Figuur 6.6: Superresolutieconstructie: Uitmiddelen versus Markov Random Fields. (a)Originele hoge-resolutie video. (b) Methode op basis van uitmiddelen. (c) Methode opbasis van Markov Random Fields.

57

Uitmiddelen MRF

Video PSNR Rekentijd (s) PSNR Rekentijd (s)

Foreman 32,43 101 32,39 164Highway 30,88 124 30,96 165Suzie 34,59 80 34,62 127Football 35,42 1188 34,81 1236Map 30,66 1073 30,22 1236

Gemiddelde 32,80 513 32,60 586

Tabel 6.9: Uitmiddelen versus Markov Random Fields

logisch aangezien we bij de Markov Random Fields methode per lage-resolutieblok in hetbeeld het belief voor een aantal hoge-resolutieblokken moeten berekenen. Daarentegen zalde methode op basis van uitmiddeling de hoge-resolutieblokken simpelweg uitmiddelen,wat natuurlijk een stuk minder tijd vergt.

6.5 Gebruikte databankIn deze sectie beginnen we met het vergelijken van de drie verschillende soorten databank:

• De volledige databank: al de blokparen die uit een frame worden geëxtraheerd op-slaat in één databank (zie Sectie 5.4.2).

• De databank die gepartitioneerd is op basis van gemiddelde pixelwaarde: de ge-middelde pixelwaarde van een lage-resolutieblok van een blokpaar bepaalt in welkepartitie van de databank het blokpaar wordt opgeslagen (zie Sectie 5.4.3).

• De databank die gepartitioneerd is op basis van beeldblokken: de positite in hetbeeld van het blokpaar bepaalt in welke partitie van de databank het blokpaarwordt opgeslagen (zie Sectie 5.4.4).

Na het vergelijken van de drie databanken wordt de invloed van de databankgrootteonderzocht.

6.5.1 Vergelijking van de databanken

We beginnen deze vergelijking met te bespreken wat de invloed is van de parititiegrootteop de superresolutiekwaliteit in het geval van de twee verschillende parititioneringen. Nadeze bespreking zullen we de drie soorten databank effectief vergeleken.

Invloed van aantal partities bij partitionering op basis van gemiddelde pixel-waarde

Bij de parititionering op basis van gemiddelde pixelwaarde wordt het pixelbereik opgedeeldin een bepaald aantal partities van gelijke grootte. Een groter aantal partities betekentdus een kleinere partitiegrootte. Het algoritme werd getest voor een verschillend aantalpartities voor zowel de superresolutieconstructie op basis van uitmiddeling als voor die op

58

Aantal partities

Video 256 128 64 32 16 8 4 2 1

Foreman 32,94 33,09 33,09 33,07 33,08 33,16 33,12 33,31 32,99Highway 29,00 29,50 29,93 30,33 30,74 30,98 31,06 30,95 30,89Suzie 34,11 34,17 34,23 34,35 34,48 34,59 34,60 34,58 34,59Football 34,88 35,03 35,12 35,22 35,30 35,37 35,44 35,46 35,42Map 30,22 30,31 30,39 30,48 30,55 30,64 30,76 30,77 30,66

Gemiddelde 32,23 32,42 32,55 32,69 32,83 32,95 33,00 33,01 32,91

Tabel 6.10: Invloed van aantal partities op basis van gemiddelde pixelwaarde bij superre-solutie constructie op basis van uitmiddeling.

Aantal partities

Video 256 128 64 32 16 8 4 2 1

Foreman 32,88 32,62 32,71 32,77 32,83 32,74 32,68 32,85 32,92Highway 29,92 30,21 30,45 30,69 30,94 31,12 31,21 30,99 30,96Suzie 34,26 34,31 34,44 34,56 34,56 34,62 34,64 34,66 34,62Football 34,60 34,59 34,57 34,59 34,69 34,73 34,85 34,85 34,81Map 29,86 29,95 29,98 30,10 30,12 30,19 30,28 30,29 30,22

Gemiddelde 32,31 32,34 32,43 32,54 32,63 32,68 32,73 32,73 32,71

Tabel 6.11: Invloed van aantal partities op basis van gemiddelde pixelwaarde bij superre-solutie constructie op basis van Markov Random Fields.

basis van Markov Random Fields. Tabel 6.10 en Tabel 6.11 tonen de resultaten voor debeide constructiemethode’s. De tabellen geven een lichte kwaliteitsverbetering aan voorde kleinste aantal opsplitsingen, maar naarmate we de databank meer opsplitsen ziet wede kwaliteit toch dalen.

De tabellen tonen ook aan dat de constructiemethode op basis van uitmiddeling ookvoor deze manier van opslaan betere resultaten geeft dan de methode op basis van MarkovRandom Fields.

Invloed van de partitiegrootte bij partitionering op basis van beeldblokken

Deze partitionering zal dus het beeld opdelen in een aantal blokken met een vaste grootte.Al de blokparen die in zo een blok voorkomen, komen dan terecht in dezelfde partitie vande databank. Zoals in de vorige sectie testten we deze partitionering voor de 2 soortensuperresolutieconstructie. De resultaten hiervan zijn te zien Tabel 6.12 en Tabel 6.13.Weer kan men zien dat ook voor deze databank de constructiemethode op basis vanuitmiddelen betere resultaten zal geven.

In tegenstelling tot de partitionering op basis van gemiddelde pixelwaarde zal hier departitionering bij geen enkele partitiegrootte zorgen voor een kwaliteitsverbetering. Hoekleiner de partitiegrootte, hoe meer de kwaliteit van het beeld naar beneden gaat. Ditwas natuurlijk te verwachten aangezien men voor elk lage-resolutieblok minder blokparen

59

Partitiegrootte

Video 10× 10 20× 20 50× 50 100× 100 120× 120 Volledige databank

Foreman 32,14 32,43 32,76 33,04 32,96 32,99Highway 30,28 30,66 30,86 30,83 30,84 30,89Suzie 34,51 34,62 34,64 34,60 34,59 34,59Football 34,54 34,80 35,02 35,11 35,23 35,42Map 29,61 29,73 30,03 30,37 30,29 30,66

Gemiddelde 32,22 32,45 32,66 32,79 32,78 32,91

Tabel 6.12: Invloed van de lokale databankgrootte bij superresolutie constructie op basisvan uitmiddeling.

Partitiegrootte

Video 10× 10 20× 20 50× 50 100× 100 120× 120 Volledige biliotheek


Gemiddelde 31,78 32,10 32,38 32,54 32,55 32,70

Tabel 6.13: Invloed van de lokale databankgrootte bij superresolutie constructie op basisvan Markov Random Fields.

zal hebben om uit te kiezen. We verwachten wel dat door het gebruik van een globaledatabank de kwaliteit van het beeld na enkele frames beter zal gaan aanleunen bij dekwaliteit in het geval van een volledige databank. Dit wordt onderzocht in Sectie 6.5.2.

Vergelijking van de drie databanken

Om de verschillende databanken met elkaar te vergelijken kijken we eerst eens naar derekentijd per frame bij het gebruik van de verschillende databanken. Om de rekentijdente vergelijken lieten we de verschillende soorten databanken weer enkele keren rekenen ophet eerste frame van onze testvideo’s en gebruikten we de constructiemethode op basisvan uitmiddeling.

De rekentijden voor de drie verschillende databanken zijn te zien in Tabel 6.14 enTabel 6.15. Er is duidelijk te zien dat als men de databanken partitioneert dat men derekentijden serieus kan doen dalen.

We zien ook in Tabel 6.14 dat de rekentijd voor partitionering op basis van de ge-middelde pixelwaarde niet steeds van dezelfde grootte is bij gelijke beeldresoluties. Dit isbijvoorbeeld te zien in het verschil in rekentijd tussen de Football en de Map video. Ditzal te wijten zijn aan het feit dat de blokparen van de Map video uniformer verdeeld zalzijn over de verschillende partities. Bij de paritionering op basis van beeldblokken is ditniet het geval. Dit komt doordat elke partitie in dit geval een gelijke grootte heeft en dus

60

Resolutie Aantal partities

Video lage-resolutiebeeld 256 128 64 32 16 8 4 2 1

Foreman 144× 176 12 14 17 20 28 42 55 85 141Highway 144× 176 21 21 21 25 30 38 50 75 142Suzie 120× 175 10 12 14 18 26 44 61 77 97Football 240× 320 93 147 256 437 763 1054 1055 1073 1366Map 240× 320 55 74 109 184 361 623 979 1044 1361

Gemiddelde 38 54 83 137 242 360 440 471 621

Tabel 6.14: Rekentijd (s) per frame bij de databank gepartitioneerd op basis van gemid-delde pixelwaarde van het lage-resolutieblok en de superresolutieconstructie op basis vanuitmiddeling.

evenveel blokparen bevat.Als we de rekentijden vergelijken tussen de twee verschillende partitioneringen dan

zien we dat voor de drie video’s met de laagste resolutie we de partitionering op basis vangemiddelde pixelwaarde moeten opslitsen in 4 paritities om rekentijden te bekomen diegelijkaardig zijn aan de partitionering op basis van beeldblokken met grootte 120 × 120.Bij de twee video’s met de hoogste resolutie zien we dat de partitionering op basis van ge-middelde pixelwaarde al moeten opsplitsen in 32 partities om tot gelijkaardige rekentijdente kunnen komen.

Bij grotere beeldresoluties zal de partitionering op basis van gemiddelde pixelwaardedus meer en meer moeten opsplitsen om gelijkaardige rekentijden te kunnen behouden.Bovendien is er niets dat garandeert dat de rekentijd sneller dan bij het gebruik vande volledige databank. In het slechtste geval zullen bijna al de blokparen in dezelfdepartitie vallen en zal de rekentijd ongeveer dezelfde zijn. Zo een geval is nog niet eens zoonrealistisch. Als een video bijvoorbeeld in het donker is opgenomen zullen er heel watblokparen opgeslagen worden in de partities met de laagste gemiddelde pixelwaarden enin het geval dat er een perfect zwart frame voorkomt in de video zullen al de blokparen indezelfde partitie vallen.

Bij de partitionering op basis van beeldblokken zijn al de partities even groot. Eengroter beeld zal gewoon opgedeeld zijn in een groter aantal partities. Hierdoor zal derekentijd altijd (op voorwaarde dat de partitiegrootte kleiner is dan de beeldresolutie) eenstuk sneller zijn dan bij het gebruik van de volledige databank. Om deze reden zullen wein wat volgt deze manier van partitionering verkiezen.

6.5.2 Invloed van de databankgrootte

In dit deel onderzoeken we de invloed van de databankgrootte. De databankgrootte be-paalt hoeveel blokparen er overgedragen worden naar een volgend frame. Om deze invloedte kunnen onderzoeken lieten we het algoritme lopen voor de eerste tien frames van detestvideo’s en berekende we de gemiddelde PSNR-waardes voor frames 5 tot en met 10.Het idee hierachter is dat we het algoritme de kans geven om een aantal goede blokparenop te slaan in de databank die dan telkens kunnen overgedragen worden naar het volgendframe. Voor de constructie van het superresolutiebeeld gebruikten we weer de methode

61

Resolutie Partitiegrootte (x× x) Volledige

Video lage-resolutiebeeld 10 20 50 100 120 databank

Foreman 144× 176 8 9 20 52 67 141Highway 144× 176 8 9 19 49 66 142Suzie 120× 175 7 8 17 42 55 97Football 240× 320 23 29 62 162 207 1366Map 240× 320 24 30 60 155 206 1361

Gemiddelde 14 17 35 92 120 621

Tabel 6.15: Rekentijd (s) per frame bij de databank gepartitioneerd op basis van beeld-blokken en de superresolutieconstructie op basis van uitmiddeling.

Databankgrootte

Video 0 1000 5000 10000 20000 50000


Gemiddelde 32,96 32,96 32,96 32,96 32,96 32,98

Tabel 6.16: Gemiddelde PSNR-waarde (dB) voor frames 5 tot 10 van de testvideo’s voorverschillende databankgroottes bij het gebruik van de volledige databank.

op basis van uitmiddeling.

Volledige databank

Tabel 6.16 toont de invloed op de PSNR-waarden en Tabel 6.17 de invloed op de rekentijdvan de databankgrootte in het geval van een volledige databank. Men kan zien dat vooronze testvideo’s de kwaliteit niet zal stijgen bij stijgende databankgroottes. De kwaliteitblijft zelfs gelijk aan het geval waarbij databankgrootte 0 werd gebruikt. Dit wil zeggendat het overdragen van blokparen naar volgende frames niet veel zin heeft in het gevalvan een volledige databank en dat het algoritme dus evengoed presteert met enkel deblokparen te gebruiken die uit het frame zelf geëxtraheerd zijn.

Als we de rekentijden vergelijken, zien we die stijgen bij hogere databankgroottes. Ditis logisch aangezien de databank groter wordt en er dus uit meer blokparen moet gekozenworden. De Football video zal bijvoorbeeld met een resolutie van 240x230 ongeveer 55 000blokparen per frame kunnen extraheren en als men daar voor elk frame nog eens 50 000blokparen gaat bijvoegen uit vorige frames dan zal deze rekentijd ongeveer verdubbelen.Dit wordt bevestigd door de resultaten van Tabel 6.17.

62

Databankgrootte

Video 0 1000 5000 10000 20000 50000

Foreman 139 145 169 200 261 459Highway 140 146 171 201 261 455Suzie 95 101 121 145 197 358Football 1370 1385 1464 1573 1775 2364Map 1361 1382 1464 1561 1755 2353

Gemiddelde 621 632 678 736 850 1198

Tabel 6.17: Invloed van de databankgrootte op de rekentijd (s) per frame bij het gebruikvan de volledige databank.

Databankgrootte

Video 0 1000 5000 10000 20000 50000


Gemiddelde 32,84 32,84 32,93 32,98 32,99 32,99

Tabel 6.18: Gemiddelde PSNR-waarde (dB) voor frames 5 tot 10 van de testvideo’s voorverschillende databankgroottes bij het gebruik van de databank gepartioneerd op basisvan beeldblokken met grootte 100× 100.

Databank geparitioneerd op basis van beeldblokken

Bij deze tests gebruikten we een beeldblokgrootte van 100x100 om de databank te parti-tioneren. Tabel 6.18 toont dat het resultaat hier wel verbetering vertoont voor databank-groottes groter dan 0. Vanaf de grootte 10 000 zien we de kwaliteit niet meer stijgen.

Een databankgrootte van 10 000 betekent dat er bij de constructie van het superresolu-tieframe evenveel blokparen uit vorige frames zullen gebruikt worden als blokparen uit hethuidig frame. Elke partitie van de databank heeft immers een grootte van 100× 100. Ditzal er voor zorgen dat de rekentijd zal verdubbelen ten opzichte van de databankgrootte0. Dat dit het geval is, is ook duidelijk te zien in Tabel 6.19.

6.5.3 Vergelijking tussen de volledige databank en de gepartioneerdedatabank op basis van beeldblokken op een volledige video

Figuren 6.7 en 6.8 vergelijkt de volledige databank met de gepartitioneerde databank vooronze vijf testvideo’s. De gepartitioneerde databank maakte weer gebruik van beeldblokkenvan grootte 100 × 100 en bij de constructie van het superresolutiebeeld werd gebruikgemaakt van de methode op basis van uitmiddeling.

Men kan zien dat de gepartitioneerde databank met een databankgrootte van 10 000

63

Databankgrootte

Video 0 1000 5000 10000 20000 50000

Foreman 52 59 76 101 147 303Highway 49 54 77 100 150 305Suzie 42 45 62 82 121 250Football 155 169 234 305 467 946Map 155 168 232 307 446 927

Gemiddelde 91 99 136 179 266 546

Tabel 6.19: Invloed van globale databankgrootte op de rekentijd (s) per frame bij hetgebruik van de databank gepartioneerd op basis van beeldblokken met grootte 100× 100.

gelijkaardige en soms zelfs betere resultaten vertoont ten opzichte van de volledige data-bank met dezelfde databankgrootte. Verder kan men zien dat het bij de gepartitioneerdedatabank in sommige gevallen noodzakelijk is om blokparen over te dragen tussen ver-schillende frames om tot resultaten te kunnen komen die gelijkaardig zijn aan die van devolledige databank.

Uit deze resultaten en uit het feit dat de gepartitioneerde databank veel betere reken-tijden oplevert (Tabel 6.17 versus Tabel 6.19) kunnen we besluiten dat het beter is om degepartitioneerde databank te gebruiken.

6.6 Resultaten op de volledige testvideo’sIn dit deel vergelijken we de twee constructiemethodes van de in dit Hoodfdstuk voorge-stelde VVS-techniek op twintig frames van onze testvideo. Deze methodes zijn de methodeop basis van uitmiddeling en de die op basis van Markov Random Fields. Nadat we dezemethodes met elkaar vergeleken hebben, vergelijken we die ook met de VSPB-techniek uitHoofdstuk 3 en tot slot is er nog een visuele vergelijking met enkele andere voorbeeldge-baseerde superresolutietechniken.

Bij de vergelijkingen werd telkens een databank gebruikt die gepartitioneerd was opbasis van beeldblokken en de partititiegrootte was ingesteld op 100× 100.

6.6.1 Vergelijking tussen de twee superresolutieconstructiemethodes

Figur 6.10 en Figuur 6.11 vergelijken de PSNR-waarden van de twee voorgestelde con-structiemethodes met de Lanczos-interpolatie.

De resultaten tonen gelijkaardige resultaten voor de twee constructiemethodes metweer een klein voordeel voor de methode op basis van uitmiddeling. Als we dan de ge-middelde rekentijd per frame gaan vergelijken in Tabel 6.20 dan zien we dat de construc-tiemethode op basis van Markov Random Fields telkens ongeveer 50% langer zal duren.Wat natuurlijk ook in het voordeel van de constructiemethode op basis van uitmiddeling.Verder zien we dat voor al de testvideo’s de twee superresolutiemethodes telkens een goedekwaliteitsverbetering zullen opleveren ten opzicht van de Lanczos-interpolatie.

Als we de resultaten visueel vergelijken (Figuur 6.9) zien we dat de in dit hoofd-stuk voorgestelde technieken vooral betere randen zullen vertonen in vergelijking met de

64

32,70

32,90

33,10

33,30

1 2 3 4 5 6 7 8 9 10

PSN

R (

dB

)

Frame

Foreman

Volledige databank Databankgrootte 10000

Gepartitioneerde databank Databankgrootte 0


(a)

30,10

30,30

30,50

30,70

30,90

31,10

31,30

31,50

31,70

31,90

1 2 3 4 5 6 7 8 9 10

PSN

R (

dB

)

Frame

Highway Volledige databank Databankgrootte 10000



(b)

34,20

34,40

34,60

34,80

35,00

1 2 3 4 5 6 7 8 9 10

PSN

R (

dB

)

Frame

Suzie

Volledige databank Databankgrootte 10000



(c)

Figuur 6.7: PSNR-waarden (dB) voor de volledige databank versus databank gepartio-neerd op basis van beeldblokken.

65

34,80

35,00

35,20

35,40

35,60

35,80

36,00

36,20

36,40

1 2 3 4 5 6 7 8 9 10

PSN

R (

dB

)

Frame

Football Volledige databank Databankgrootte 10000



(a)

30,20

30,40

30,60

30,80

31,00

1 2 3 4 5 6 7 8 9 10

PSN

R (

dB

)

Frame

Map Volledige databank Databankgrootte 10000



(b)

Figuur 6.8: PSNR-waarden (dB) voor de volledige databank versus databank gepartio-neerd op basis van beeldblokken.

66

Constructie op basis van Constructie op basis vanVideo uitmiddeling Markov Random Fields

Foreman 99 146Highway 99 146Suzie 82 121Football 301 450Map 303 447

Gemiddelde 177 262

Tabel 6.20: Gemiddelde rekentijd (s) per frame.

Lanczos-interpolatie. De randen zijn gladder en scherper. Als we de twee constructieme-thodes vergelijken zien we, zoals de PSNR-waarden aangeven, weinig verschil.

6.6.2 Vergelijking met andere superresolutietechnieken

Vergelijking met VPSB-techniek uit Hoofdstuk 3

In dit deel vergelijken we de in dit hoofdstuk voorgestelde VVS-techniek met de VPSB-techniek uit Hoofdstuk 3 voor de Foreman en Suzie sequence. De bij de VVS-techniekgebruikte constructiemethode was die op basis van uitmiddeling. De gebruikte bij deVPSB-techniek parameters waren dezelfde als die van in Hoofdstuk 3 en bij het berekenenvan de PSNR-waarden werden een pixels aan de rand weer niet meegeteld bij het berekenenvan de PSNR (zie Sectie 4.2).

De grafieken in Figuur 6.12 tonen betere resultaten voor de VVS-techniek als hetaankomt op PSNR-waarden. De mindere PSNR-resultaten van de VSPB-techniek zijn tewijten aan het feit dat deze methode ook wat ruis onderdrukt en aangezien er bij de indit hoofdstuk gebruikte video’s geen ruis toegevoegd is, zal deze eigenschap enkele kleinedetails als ruis beschouwen en dus iets mindere PSNR-resultaten opleveren.

De visuele vergelijken in Figuur 6.13 en Figuur 6.14 toont ook weer de ruisonderdruk-kende factor aan van de VSPB-techniek. Op de muur van de Foreman video is bijvoorbeeldduidelijk te zien dat een aantal zwarte stipjes zijn weggewerkt en als ruis zijn beschouwd.De VVS-techniek daarentegen zal niets van ruis onderdrukken en zal zoals te zien is in defiguur de randen verscherpen en gladder maken.

Vergelijking met andere voorbeeldgebaseerde technieken

Omdat onze techniek een voorbeeldgebaseerde techniek is, vergelijken we hier onze resulta-ten met twee verschillende voorbeeldgebaseerde technieken. Helaas bestaan de beschikbareresultaten voor deze technieken telkens uit enkele afbeeldingen en geen volledige video’s.

We hebben onze techniek dan maar getest op twee verschillende afbeeldingen en omeen video te simuleren hebben we de afbeeldingen beschouwd als een video met tweeidentieke frames. Op deze manier kon de globale databank gevuld worden door middelvan het eerste frame en zo kon die dus gebruikt worden tijdens de tweede maal dat we deafbeelding opschaalden. Opnieuw werd een partitiegrootte van 100×100 gebruikt voor dedatabank.

67

(a) (b) (c)

Figuur 6.9: Visuele vergelijking tussen de twee constructiemethodes voor het tiende framevan de testvideo’s. (a) Lanczos-interpolatie (b) Constructie op basis van uitmiddeling. (c)Constructie op basis van Markov Random Fields.

68

31,50

32,00

32,50

33,00

33,50

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

PSN

R

Frame

Foreman Lanczos

Markov Random Fields

Uitmiddelen

(a)

27,50

28,00

28,50

29,00

29,50

30,00

30,50

31,00

31,50

32,00

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

PSN

R

Frame

Highway

Lanczos


Uitmiddelen

(b)

33,50

34,00

34,50

35,00

35,50

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

PSN

R

Frame

Suzie Lanczos


Uitmiddelen

(c)

Figuur 6.10: Vergelijking van de PSNR-waarden (dB) tussen de 2 constructiemethodesvoor 20 frames van de drie testvideo’s met de laagste resolutie.

69

33,50

34,00

34,50

35,00

35,50

36,00

36,50

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

PSN

R

Frame

Football Lanczos


Uitmiddelen

(a)

29,00

29,50

30,00

30,50

31,00

31,50

32,00

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

PSN

R

Frame

Map Lanczos


Uitmiddelen

(b)

Figuur 6.11: Vergelijking van de PSNR-waarden (dB) tussen de 2 constructiemethodesvoor 20 frames van de twee testvideo’s met de hoogste resolutie.

70

33,5

34

34,5

35

35,5

36

36,5

37

37,5

38

38,5

10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

PSN

R (

dB

)

Frame

Foreman VSPB-techniek

VVS-techniek

Lanczos-interpolatie

(a)

33

33,5

34

34,5

35

35,5

10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

PSN

R (

dB

)

Frame

Suzie

VSPB-techniek

VVS-techniek

Lanczos-interpolatie

(b)

Figuur 6.12: Vergelijking van PSNR-waarden (dB) met de VSPB-techniek uit Hoofdstuk3.

71

(a) (b) (c)

Figuur 6.13: Vergelijking met de VSPB-techniek uit Hoofdstuk 3. (a) Lanczos-interpolatie.(b) VVS-techniek met constructie op basis van uitmiddeling. (c) VSPB-techniek.

(a) (b) (c)

Figuur 6.14: Vergelijking met de VSPB-techniek uit Hoofdstuk 3. (a) Lanczos-interpolatie.(b) VVS-techniek met constructie op basis van uitmiddeling. (c) VSPB-techniek.

72

De twee verschillende afbeeldingen hebben we twee maal opgeschaald via onze techniekmet een schaalfactor 2. De eerste opgeschaalde afbeelding is de Child afbeelding met eenresolutie van 107 × 107. Merk op dat door de partitiegrootte van 100 × 100 er bij dezeafbeelding bijna geen parititonering van de databank was tijdens de eerste opschaling.Bij de tweede maal opschaling was dit wel het geval. De tweede afbeelding is de Chipafbeelding en heeft een resolutie van 244× 200.

De methodes waarmee vergeleken zijn, zijn [KK08] en [GBI09]. [KK08] is een voor-beeldgebaseerde methode die gebruik zal maken van een getrainde databank. [GBI09]maakt dan weer geen gebruik van een getrainde databank en tracht dus de zelfsimilariteitop verschillende resolutieschalen uit te buiten.

Figuur 6.15 vergelijkt de resultaten visueel voor de Child afbeelding en Figuur 6.16 dievoor de Chip afbeedling.

Als we de resultaten vergelijken zien we weer dat er weinig verschil is tussen de tweeverschillende constructiemethodes van de VVS-techniek. In de Child afbeelding is te ziendat de methodes uit [KK08] en [GBI09] een iets scherper resultaat zullen geven. Als we deChip afbeelding dan gaan vergelijken dan zien we dat onze techniek toch een iets beterewitte rand vertoont dan [GBI09] en dat het resultaat even scherp is.

73

(a) Dichtste-buurinterpolatie (b) Lanczos-interpolatie (c) [KK08]

(d) [GBI09] (e) VVS met constructie op ba-sis van uitmiddeling

(f) VVS met constructie op basisvan MRF

Figuur 6.15: Vergelijking van de twee constructiemethodes met de methodes uit [KK08]en [GBI09] voor de Child afbeedling.

74

(a) Lanczos-interpolatie (b) [GBI09]

(c) VVS met constructie op basis van uitmiddeling (d) VVS met constructie op basis van MRF

Figuur 6.16: Vergelijking van de twee constructiemethodes met de methode uit [GBI09]voor de Chip afbeelding.

75

Hoofdstuk 7

Besluit

In dit werk werden twee verschillende superresolutietechnieken voorgesteld die op eenrecursieve wijze video’s kunnen opschalen. De eerste techniek hoorde tot de supperreso-lutietechnieken op basis van meerdere beelden en een andere techniek die hoorde bij dezogenaamde voorbeeldgebaseerde technieken.

De VSPB-techniek op basis van meerdere beelden maakte gebruik van probabilistischebewegingsestimatie. Hierdoor konden we een goede bewegingsestimatie bekomen voorkleine blokken in het beeld. Dit in tegenstelling tot de deterministische bewegingsestimatiedie globale bewegingen in het beeld moet beschouwen om goede bewegingsestimatie tekomen. Een bijkomend gevolg van deze probabilistische bewegingsestimatie is dat deVSPB-techniek een ruisonderdrukkende factor kreeg. Het grote nadeel aan deze methodeis dat ze veel rekentijd vergt.

De VVS-techniek maakte gebruik van blokparen die geëxtraheerd waren uit vorige fra-mes en het huidige frame om het huidig frame te kunnen opschalen. Deze blokparenbestonden uit een lage-resolutieblok en een hoge-resolutieblok en dienden als voorbeeldentijdens de superresolutieconstructie. Voor deze techniek onderzochten we verschillendetechnieken om de blokparen op te slaan, technieken om het beeld te construeren en hetgebruik van verschillende databanken.

Voor de opslag van de blokparen kwamen we tot de conclusie dat we deze best alshoge frequenties konden opslaan die dan later tijdens de superresolutieconstructie kondentoegevoegd worden aan de Lanczos-interpolatie van het lage-resolutiebeeld.

Bij de constructie onderzochten we twee verschillende technieken. De eerste techniekzocht per op te schalen lage-resolutieblok de tien beste overeenkomsten op basis van deRoot Mean Square Error en nam dan een gewogen gemiddelde van de bijhorende hoge-resolutieblokken om tot een hoge-resolutieblok te komen. De tweede techniek koos per opte schalen lage-resolutieblok slechts één blokpaar uit de databank, maar koos die zodat diegoed overeenkwam met het lage-resolutieblok en tegelijkertijd weinig verschil vertoonde inoverlap met naburige hoge-resolutieblokken. Uit ons onderzoek bleek dat voor de gebruikteschaalfactor 2 de methode op basis van uitmiddeling toch meestal licht in het voordeel was.Dit terwijl deze methode ook minder rekentijd vergde.

We onderzochten ook de invloed van drie verschillende soorten databank. Bij één vande databanken werden gewoon alle blokparen uit het frame bij elkaar opgeslagen. Bij

76

de twee andere databanken werden de blokparen opgeslagen in een verschillend aantalpartities. De ene partitioneerde de databank op basis van de gemiddelde waarde vanhet lage-resolutieblok van het blokpaar, terwijl de andere partitioneerd op basis van uitwelke positie in het beeld het blokpaar geëxtraheerd was. Uit ons onderzoek bleek datde partitionering op basis van de positie in het beeld interessanter was, omdat die betererekentijden kon voorleggen voor een gelijkaardige superresolutiekwaliteit. Verder bleekook dat door de databank te partitioneren we de rekentijden serieus konden doen dalenen dit terwijl de kwaliteit van het superresolutiebeeld gelijk bleef.

77

Bibliografie

[cit03] Super-resolution image reconstruction: a technical overview. IEEE SignalProcessing Magazine, 20(3):21–36, May 2003.

[CYX04] Hong Chang, Dit-Yan Yeung, and Yimin Xiong. Super-resolution throughneighbor embedding. Computer Vision and Pattern Recognition, IEEE Com-puter Society Conference on, 1:275–282, 2004.

[EHO01] Michael Elad and Yacov Hel-Or. A fast super-resolution reconstruction algo-rithm for pure translational motion and common space-invariant blur, 2001.

[FJP02] William T. Freeman, Thouis R. Jones, and Egon C. Pasztor. Example-basedsuper-resolution. IEEE Computer Graphics and Applications, 22:56–65, 2002.

[FP00] William T. Freeman and Egon C. Pasztor. Learning low-level vision. Inter-national Journal of Computer Vision, 40:2000, 2000.

[FREM03] Sina Farsiu, Dirk Robinson, Michael Elad, and Peyman Milanfar. Fast androbust multi-frame super-resolution. IEEE Transactions on Image Processing,13:1327–1344, 2003.

[GBI09] Daniel Glasner, Shai Bagon, and Michal Irani. Super-resolution from a singleimage. In ICCV, 2009.

[GZ07] Eran Gur and Zeev Zalevsky. Single-image digital super-resolution - a revisedgerchberg-papoulis algorithm. IAENG International Journal of ComputerScience, 34(2):251–255, 2007.

[Har07] R. Hardie. A fast image super-resolution algorithm using an adaptive wienerfilter. IEEE Transactions on Image Processing, 16(12):2953–2964, 2007.

[HT84] T. S. Huang and R. Y. Tsay. Multiple frame image restoration and registra-tion. In Advances in Computer Vision and Image Processing, volume 1, pages317–339, Greenwich, 1984.

[KK08] Kwang In Kim and Younghee Kwon. Super-resolution and jpeg artifact re-moval, 2008.

[LLP06] H. Luong, S. Lippens, and W. Philips. Practical and robust super resolu-tion using anisotropic diffusion for under-determined cases. In Proc. of SPS-DARTS 2006 (the second annual IEEE Benelux/DSP Valley Signal Proces-sing Symposium), pages 139–142, March 2006.

78

[LRPP10] H.Q. Luong, T. Ruzic, A. Pizurica, and W. Philips. Single-image super-resolution using sparsity constraints and non-local similarities at multipleresolution scales. 2010.

[Pel90] Michal Irani. Shmuel Peleg. Super resolution from image sequences, 1990.

[PETM09] Matan Protter, Michael Elad, Hiroyuki Takeda, and Peyman Milanfar. Ge-neralizing the non-local-means to super-resolution reconstruction. 2009.

[RLPP11] T. Ružic, H. Luong, A. Pižurica, and W. Philips. Single image example-basedsuper-resolution using cross-scale patch matching and markov random fieldmodelling. In International Conference on Image Analysis and Recognition(ICIAR) 2011, 2011.

[RPP11] T. Ružic, A. Pižurica, and W. Philips. Neighbourhood-consensus messagepassing and its potentials in image processing applications. In IS&T/SPIEElectronic Imaging, Image Processing: Algorithms and Systems IX, 2011.

[SnZTyS03] Jian Sun, Nan ning Zheng, Hai Tao, and Heung yeung Shum. Image halluci-nation with primal sketch priors. In Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition, pages 729–736, 2003.

[SO89] Henry Stark and Peyma Oskoui. High-resolution image recovery from image-plane arrays, using convex projections. J. Opt. Soc. Am. A, 6(11):1715–1726,Nov 1989.

[TMF+07] Hiroyuki Takeda, Student Member, Sina Farsiu, Peyman Milanfar, and SeniorMember. Kernel regression for image processing and reconstruction. IEEETransactions on Image Processing, 16:349–366, 2007.

[TMPE09] Hiroyuki Takeda, Peyman Milanfar, Matan Protter, and Michael Elad. Super-resolution without explicit subpixel motion estimation, 2009.

[WTS05] Qiang Wang, Xiaoou Tang, and Harry Shum. Patch based blind image superresolution. In Proceedings of the Tenth IEEE International Conference onComputer Vision (ICCV’05) Volume 1 - Volume 01, ICCV ’05, pages 709–716, Washington, DC, USA, 2005. IEEE Computer Society.

[YWMH08] Jianchao Yang, John Wright, Yi Ma, and Thomas Huang. Image superreso-lution as sparse representation of raw image patches. cvpr, 2008.

79

Intelligente resolutieverbetering voor (zeer) hoge...

Documents

Transcript of Intelligente resolutieverbetering voor (zeer) hoge...