Hybrydowe techniki wyznaczania map głębi i ich

advertisement
Maciej Kurc
Politechnika Poznańska
Wydział Elektroniki i Telekomunikacji
Katedra Telekomunikacji Multimedialnej i Mikroelektroniki
Stypendysta projektu pt. „Wsparcie stypendialne dla doktorantów na kierunkach uznanych
za strategiczne z punktu widzenia rozwoju Wielkopolski”, Poddziałanie 8.2.2 Programu
Operacyjnego Kapitał Ludzki
Hybrydowe techniki wyznaczania map głębi i ich wykorzystanie w
systemach obrazu trójwymiarowego
Tematyka pracy doktorskiej Autora związana jest z systemami telewizji nowej generacji
a w szczególności z systemami Telewizji Swobodnego Punktu Widzenia (ang. Free
Viewpoint Television - FTV) oraz z mechanizmami kompresji materiału wizyjnego. W
systemie telewizji FTV widz ma możliwość swobodnego poruszania się po scenie będącej
treścią materiału telewizyjnego poprzez dowolny wybór punktu widzenia. Dzięki temu to widz
staje się reżyserem programu - otrzymuje możliwości niedostępne w telewizji tradycyjnej.
Umożliwienie widzowi wybranie dowolnego punktu widzenia wymaga zastosowania
specjalnych technik rejestracji materiału wizyjnego połączonych z zaawansowanymi
algorytmami przetwarzania obrazu. Pojedyncza kamera nie wystarcza, aby zebrać
wystarczająco dużo informacji o filmowanej scenie. Niezbędne jest zastosowanie systemu
składającego się z większej liczby kamer umieszczonych w różnych punktach przestrzeni
tak, aby obejmowały maksymalnie duży fragment sceny. Sposób rozmieszczenia kamer jest
bardzo istotny. Najczęściej stosuje się układ liniowy lub łukowy. Na zdjęciu przedstawiony
jest liniowy system wielokamerowy, używany przez Autora do prac badawczych.
Liniowy system wielokamerowy (fot. Maciej Kurc).
Praca doktorska współfinansowana ze środków Unii Europejskiej w ramach
Europejskiego Funduszu Społecznego
Wyświetlenie obrazu z dowolnej kamery nie stanowi problemu. Jednak w przypadku,
kiedy widz zażyczy sobie obejrzeć scenę z punktu, w którym nie ma żadnej kamery obraz ten
musi zostać wygenerowany syntetycznie. Służy do tego mechanizm syntezy widoku
wirtualnego. W mechanizmie tym wykorzystywane są obrazy z kamer, położonych najbliżej
wybranego przez widza punktu widzenia, oraz związane z nimi informacje o odległości
obiektów - mapy głębi. Mapa głębi jest obrazem, w którym każdy punkt odzwierciedla
odległości pomiędzy kamerą a odpowiadającym mu punktem w scenie. Rysunek poniżej
przedstawia obraz z kamery wizyjnej wraz z odpowiadającą mu mapą głębi.
Obraz z kamery oraz skojarzona z nim mapa głębi (autor Maciej Kurc).
Jako, że tradycyjne kamery wizyjne nie potrafią rejestrować odległości, mapy głębi
wyliczane są na podstawie podobieństw oraz różnic obrazów pochodzących z dwóch lub
więcej sąsiednich kamer. Proces ten nosi nazwę estymacji głębi. Przy obecnym stanie
wiedzy algorytmy realizujące to zagadnienie są bardzo złożone a przez to ich działanie jest
bardzo czasochłonne. Problem ten jest na tyle istotny, że wyklucza estymacją map głębi w
czasie rzeczywistym z zachowaniem ich wymaganej rozdzielczości i dokładności.
Głównym celem badań Autora jest eliminacja konieczności estymacji map głębi
dzięki zastosowaniu specjalnych kamer rejestrujących odległości - kamer głębi.
Kamery te działają na zasadzie pomiaru czasu lotu fali świetlnej (ang. Time-of-Flight – ToF) i
pozwalają na bezpośredni pomiar odległości. Ich niewątpliwą wadą jest niska rozdzielczości
obrazu, co w połączeniu z wysoką rozdzielczością obrazu z kamer wizyjnych stwarza pewne
problemy. Badania Autora skupiają się na sposobach fuzji danych z kamer głębi o niskiej
rozdzielczości z obrazami z kamer wizyjnych o wysokiej rozdzielczości. Spodziewanym
rezultatem fuzji jest szczegółowa mapa głębi o wysokiej rozdzielczości i szczegółowości.
Opracowanie szybkiej i dokładnej metody estymacji map głębi, wspomaganej
kamerami ToF, dla systemów telewizji FTV otworzy nowe możliwości rozwoju dla branży
multimedialnej w regionie. Obecnie największym problemem, uniemożliwiającym wdrożenie
takich systemów, jest problem estymacji map głębi a dokładnie jego czasochłonność. Dzięki
rozwiązaniom, zaproponowanym przez Autora, systemy FTV będą mogły znaleźć praktyczne
zastosowanie i telewizja swobodnego punktu widzenia stanie się wreszcie dostępna dla
Praca doktorska współfinansowana ze środków Unii Europejskiej w ramach
Europejskiego Funduszu Społecznego
szerokiej rzeszy użytkowników. Poniższe zdjęcie przedstawia system wielokamerowy
wzbogacony o dwie kamery głębi.
System wielokamerowy z kamerami głębi (fot. Maciej Kurc).
Oprócz zagadnień związanych z estymacją map głębi, Autor porusza w pracy
zagadnienia kompresji materiału wizyjnego dla systemów telewizji FTV. Kompresja jest
niezbędnym elementem każdego systemu telewizyjnego, gdyż to dzięki niej możliwe jest
dostarczenie materiału do użytkownika końcowego bez konieczności angażowania
znacznych zasobów sieci telekomunikacyjnych. Algorytmy kompresji materiału FTV różnią
się od tych stosowanych dla telewizji tradycyjnej tym, że wykorzystują podobieństwo
obrazów z sąsiednich kamer w celu jeszcze większej redukcji przepływności bitowej
zakodowanego materiału. Oprócz tego stosowane są w nich dedykowane algorytmy
kompresji dla map głębi, gdyż ich charakterystyka znacznie odbiega od charakterystyki
obrazów z kamer wizyjnych.
Prace badawcze Autora skoncentrowane są na zagadnieniu fuzji map głębi
odpowiadających różnym kamerom w celu dalszej poprawy stopnia kompresji dla całej
sekwencji. Algorytmy, zaproponowane przez Autora, zostały włączone do propozycji kodera
dla telewizji FTV opracowanego w Katedrze Telekomunikacji Multimedialnej i Mikroelektroniki
Wydziału Elektrycznego Politechniki Poznańskiej. Propozycja kodera została zgłoszona na
konkurs, rozpisany przez grupę MPEG w 2011 roku, na technikę kompresji materiału dla
telewizji FTV. Propozycja Politechniki Poznańskiej okazała się drugą pod względem
efektywności kompresji taką techniką na świecie wyprzedzając tym samym wiele
wiodących firm i ośrodków badawczych na świecie.
Praca doktorska współfinansowana ze środków Unii Europejskiej w ramach
Europejskiego Funduszu Społecznego
Download