UNIVERSITETI I EVROPËS JUGLINDORE FAKULTETI I TEKNOLOGJISË INFORMATIVE

UNIVERSITETI I EVROPËS JUGLINDORE FAKULTETI I TEKNOLOGJISË INFORMATIVE Shkencat Kompjuterike PUNIM KËRKIMOR Tema: Procesimi inteligjent multimedial Mentori: Jehona Rushiti Studenti: Gëzim Sopi Dhjetor 2009

Parathënie Mënyra se si i qasemi informatës, udhëheqim biznese, komunikojmë, edukojmë, mësojmë dhe kënaqemi do te ndryshoj rrënjësisht me zhvillimin e shpejtë të teknologjisë multimediale. Teknologjia Multimediale po ashtu paraqet një mundësi të re për të hulumtuar bashkëveprimet ndërmjet shumëllojshmërisë mediale si: zëri, fotografia, video ja, teksti dhe grafika. Digjitalizimi dhe kodimi i imazheve dhe videove janë bërë më të përdorshme këtë dekadë të fundit, kompjuterët dhe sistemet e Ueb bazave të të dhënave kanë filluar të ruajnë shënime voluminoze të imazheve dhe videove. Jemi dëshmitar se si informatat vizuale online janë bërë të afërta me realitetin. Këto ndryshime janë si shkak i dëshirave dhe biznesit për të arritur një rehati më të mirë për të ardhmen. Sidoqoftë, si teknologjia e informimit të të dhënave po avancohet me shpejtësi, ne tani jemi të detyruar të indeksojmë dhe të jemi në gjendje të korrigjojmë informatat vizuale. Do të ishte e dëshirueshme që të kemi një mjet që në mënyrë efikase kërkon në Ueb për pikturën e dëshiruar (ose videon), tani veç kemi Uebe të ndryshëm qe janë enkas të konstruktuar vetëm për shfletimin e audiove dhe videove si p.sh: www.youtube.com e shumë tjerë, duke përdorur një pyetësor për shfletimin e tyre. Aktualisht, disa pyetësor do të dukeshin: Kërko imazhe me 30% kaltër në lartësinë e kornizës dhe 70% te gjelbër në ultësinë e saj ose Kërko imazhet ose klipet të ngjashme me këtë vizatim. Për të arritur këtë duhet qe të bëhet një punë më e madhe rreth pyetësorëve me të cilët do te arrihej një rezultat më i dëshiruar por kemi edhe pyetësorë subject-based 1 që do të ishin më të përshtatshëm në këtë aspekt mirëpo kërkojnë sfida teknologjike më të mëdha, të cilat kërkojnë për avancimin në dy fronte karakteristike: 1 subject-based është metodë e bazuar në procesin bazë të subjektit 3

Teknologjia e rrjetave kompjuterike. Risitë në komunikim dhe teknologjia e rrjetave janë kritike për sistemet e bazave të të dhënave multimediale për të mbështetur interfejsat dinamikë interaktiv. Një sistem i vërtetë medial duhet të lidhë klientët individual me adresën përmbajtëse të databazës multimediale. Kjo do të ndikonte drejtë për se drejti në mbështetjen e informatës për të ndarë share me klientët tjerë si me anë të lidhjes logjike poashtu edhe asaj fizike ndërmjet kompjuterëve në rrjetë përkatësisht transferit të të dhënave. Teknologjia e procesimit të informatës. Për ta avancuar këtë teknologji duhet përdorur text-based search kërkimin për ta indeksuar përmbajtjen e multimedias në datoteka voluminoze që gjinden në arkiva të ndryshme në strukturat e rrjetave kompjuterike. Përdorimi i kësaj teknologjie do te bëjë të përdorshme më shumë shërbime: tek profesionalistët, tek biznesmenët, tek zbuluesit, libraritë si dhe përdoruesit e përgjithshëm si studentet dhe amviset. Këto shërbime duhet t i kombinojnë sistemet e ndryshme multimediale dhe ndërlidhjet e tyre ne kohë reale. Zëri, imazhet dhe videot janë duke luajtur një rol shumë të rëndësishëm në procesimin e informatës multimediale si dhe ne spektrin e gjerë të aplikacioneve përcjellëse. Teknologjia Multimediale e së ardhmes nuk do të bart informata me këtë nivel inteligjente, këto do të përcjellën me teknologjinë Procesimi Inteligjent Multimedial (IMP). Përkatësisht kemi rastin e shifrimit (MPEG -1, MPEG -2, MPEG -4 ) tek MPEG -7, e cila fokusohet në përshkrimin e përmbajtjes multimediale përmes kësaj teknike bëhet funksionimi i sinjalit të multimedias në raport të hapësirës dhe kohës. Për këto, Rrjetat Neurale (RNs), nganjëherë në kombinim me dy njësi të inteligjencës llogaritëse (CI), sistemit fuzzy (FS) dhe njehsimin evolutiv (EC), mund te ofroj një horizont shumë premtues. 4

Kapitulli I 1.1 Rrjetat Neurale dhe Procesimi i Multimedias Arsye kryesore qe njësia e inteligjencës llogaritëse (CI) është e dalluar si teknologji kritike e bërthamës për IMP (Procesimi Inteligjent Multimedial), është nyja për mësimin e saj, adaptimin, arsyetimin dhe mundësin e evoluimit, përmes së cilës makinës i jep mundësi që të interpretoj shumëllojshmërinë e të njëjtit objekt apo modelit në hapësirë (p.sh. dimensioni, orientimi dhe perspektiva). Në përgjithësi pjesa e Rrjetës Neurale (RN) përdoret për ta mësuar objektin, ndërkaq pjesa logjike e Fuzzy t përdoret për prezantim të njohurive. Për ta mbërthyer gjithë këtë, sistemi IMP mund te adaptohet shpejt në një mjedis dinamik të ndryshueshëm nga RN dhe FS (Sistemi Fuzzy) dhe struktura e sistemit mund të zhvillohet përgjithësisht nga EC (Njehsimi Evolutiv). Njësitë e CI, RN kanë qenë veglat më të përdorura për IMP për arsye se: Rrjeta Neurale ofron mekanizma me të cilat arrihet njohja dhe dallimi i objekteve, të deformimit apo jo kompletimit të informatës. Kështu RN mund të trajnoj për ta vërejtur, dëgjuar, të dalloj objektet ose zërin apo te kuptoj gjestet humane. Rrjeta Neurale është model klasifikues shumë i fuqishëm ku përmes këtij arrihet që kur ka ndonjë përmbajtje eksplicite apo priori të censuroj apo ta përafroj. Rrjeta Neurale ofron një aftësi universale te përafrimit kur kemi të bëjmë me të dhëna të ndara apo të papërfillshme ose mungesore. Në këtë kontekst, disa modele Neurale kanë ndërfutur në mënyrë efektive procesimin statistikë të sinjaleve dhe kanë krijuar kushte më të përshtatshme. Modelet neurale të përkohshme krijohen për të pajtuar sinjalet me aplikacionet dhe pajisjet përcjellëse për ta procesuar multimedien, pjesërisht zërin. Struktura hierarkike e Rrjetës Neurale është më e përshtatshme dhe efektive për mekanizma kërkues që përdoren në sasi të mëdha, Ueb, databazë etj. 5

Si pasoj, RN aktualisht ka tërhequr vëmendjen në shumë aplikacione të multimedias. P.sh. (1) Perceptimin human: kategorizimin e gjesteve, ngjyrës, dhe vizualitetin e të dhënave multimediale. (2) Komunikimin Kompjuter-Human : njohja e fytyrës, analizimin e leximit të buzëve etj. (3) Prezantimi i shumë mundësive rikthimi i informatës: hyperlinking < url >, pyetësorët dhe shfletuesit e informatave multimediale, prezantimin e 3D objekteve etj. Një përfaqësim efikas i informacionit mund të lehtësojnë shumë funksione të dobishme multimediale, të tilla si objekte me bazë indeksi dhe akçesi. Për këtë qëllim, është thelbësore për të pasur të sofistikuar përpunimin e imazhit ose videos. Për shumë aplikacione multimediale, përpunimi është detyre e lehte, zakonisht i kryer në sinjale hyrëse për ta bërë pasuese punimin e modelimit dhe klasifikimit (për shembull, ndarja e 2D apo 3D imazheve, videove për përmbajtjen bazë në kodim dhe përfaqësim në kuadër të standardeve MPEG ose JPEG). Sa më shumë të sofistikuar të përfaqësimit të marra nga përpunimi aq më pak klasifikues të sofistikuar duhet të jenë. Kështu, një ekuilibër synergistic (ndërveprim eventualisht) në mes të përfaqësimit duhet të hulumtohen indeksimi. Sa më të ndryshme qe ekzistojnë tekstet, audiot, pamjet digjitale që gjenden të ato bëhen gjithnjë e më te vështira për të gjetur dhe për tu qasur në informata. Pra të nevojshme janë veglat kërkimore automatike për indeksim dhe qasje. Zbulimi i një (deformable) modeli apo objekti ka qenë prej kohësh një makinë për të mësuarit e rëndësishme dhe problem i vizionit kompjuterik. Detyra ka të bëjë me gjetjen e veçantë (por lokalist deformable) të modelit të imazhit (për shembull, fytyrat e njeriut). Kritika të fuqishme kërkimi janë të nevojshme për identifikimin e strategjive për përmbajtjen në zë ose gjurmë vizuale, ndoshta pa të mirën e informatave tekstuale. Kjo do të ketë rëndësi në aplikacionet komerciale, duke përfshirë makinat automatike te parave (ATM), qasja e kontrollit, mbikëqyrjes, dhe video konferencë e sistemeve. Sinjalet multimediale të përpunimit janë më shumë se "vënien së bashku" tekst, audio, imazhe, dhe video. Korrelacioni ndërmjet audio dhe video mund të shfrytëzohen për të arritur kodim dhe njohje më të efektshme. Në aplikimin e sistemeve të reja kërkimore ka mundësi të dalin në fushën e fuzionit dhe ndërveprimit midis këtyre medieve. Njerëzit më ane të perceptimit mund të kryejnë detyra të bazuara në njohjen e përbashkëta të përpunimit multimedial të të dhënave hyrëse. 6

Kapitulli II 2.1 Vizuelizimi i imazhit dhe copëzimi Detyra e ekstraktimit është tipar i rëndësishëm për kërkim të skemave, sepse një përfaqësim të efektshëm të informatave që mund të lehtësojnë shumë funksionalizimin pasues multimedial, të tilla si feature-based 2 ose objekti-bazuar në indeksim dhe hyrje. Përfaqësimi efektiv i të dhënave mund të jetë multimedial i arritur nga mekanizmat e grumbullit nervor. Objektivat e përgjithshme janë (1) për nxjerrjen e karakteristikave më të spikatura për të bërë klasifikimin më të lehtë, dhe (2) për nxjerrjen e media informatave të nevojshme nevojiten nivele të ndryshme të abstraksioneve (përmbledhjeve). Megjithëse ndarja e përsosur dhe monitorimi i objekteve 3D video mund të mos jetë gjithmonë e nevojshme, është e dëshirueshme që të ketë aftësi të telemjekësisë dhe biokimisë lidhur me aplikimet. Përdorimi i energjisë lokale të sipërfaqes së një tipar kryesor, një SOFM 3 mund të sigurojë D rezolucione të detajeve të sipërfaqes së objekteve të veçanta përmes procesit 3D të ndarjes. Teknika është zbatuar për ndarje dhe vizuelizimin në gjedhet e kromozomeve mikroskopike në pamjet dhe imazhet e njeriut. 2.2 Njohja dhe identifikimi personal Rrjetet nervore të njohura janë themeluar si një mjet për të ngritur më shumë modele të klasifikimit të problemeve. Në veçanti, ata janë aplikuar me sukses për t'u përballur me njohjen aplikative. Duke kombinuar të përballet me informata tjera me karakteristika të tilla si biometrike të shprehjes, kjo veti ofron fuzion të qasjes në saktësinë e përmirësuar, si dhe një shkallë gabimi të tolerancës (p.sh., ajo mund të tolerojnë dështimin e përkohshëm të një prej kanaleve Bimodal). 2 Feature-based: Bazim i ardhshëm 3 SOFM Program orientues në pamjet multimediale 7

Për vizualizimin dhe monitorimin e kërkesave të vëzhgimit, është e rëndësishme për të përcaktuar pozicionin e syve të njeriut nga një imazh që përmban një seri të ndryshme të formave të njeriun. Sapo sytë e njeriut janë të pozicionuar, të gjitha ato karakteristika të tjera të rëndësishme të fytyrës, të tilla si qëndrimet e hundë dhe në gojë, mund të përcaktohet lehtë. Informacioni bazë i gjeometrisë së fytyrës, të tilla si distanca midis dy sy, hundë dhe gojë madhësia, etj, mund të nxirren më tej edhe në kushte të ndryshme. Ky informacion gjeometrik mund të përdoret për një shumëllojshmëri qëllimesh, si për shembull njohjen që të përballet me nga një të dhënë të bazës së të dhënave. Ka shumë shembuj të suksesshëm që janë arritur të përballen me zbulimin dhe njohjen. Brunell Poggio 4 ka miratuar një rrjet që të përballet me RBF njohjen, duke përdorur nën hapësirat për përcaktimin e klasave që përballen me modelet. Pjesët e fytyrës të cilat ishin përcaktuar me njohjen e algoritmit fytyrë peshku të cilat ishin studiuar dhe krahasuar duke propozuar një përzierje për distancat e rrjetit VQ për të arritur njohjen e normës 95% të një regjistri prej 685 personave. Në rrjetet nervor ishin aplikuar me sukses zbulimet e formave të fytyrës së njeriut duke përcaktuar secilën nga gjymtyrët e fytyrës. 2.3 Imazhi dhe rikthimi i Videos, Kërkuesi, dhe Kontesti-Indeksi bazë Përpunimi i Videos digjitale në kohën e fundit ka një rëndësi thelbësore të përpunimit të informacionit të teknologjisë. Formati MPEG-4 i videos të kodimit standard mundëson të lejojë përmbajtjen e bazës interaktive, qasjes universale, dhe një shkallë të lartë të fleksibilitetit dhe zgjatshmërisë. Për të akomoduar të dhëna voluminoze të multimedias, shkencëtarët kanë sugjeruar bazë të përmbajtjes së indeksuar dhe paradigmë rikthyese. Bazimi i përmbajtjes inteligjente e përpunimit është kaq kritike për shkak se përfshin fusha të ndryshme duke përfshirë aplikimin e kodimit të videos, kompresimit, reprezentimin e objekteve të orientuara në video, përmbajtjen bazike të rikthimit në bibliotekën digjitale, video mozaikë, përbërjen e videos (një kombinim i skenave natyrore dhe sintetike), e kështu me radhë. 4 Brunell Poggio Fizikan, është marrë me problemin e dritës në fotografi 8

Një rrjet nervor në bazë të lidhjes së algoritmit është propozuar lënda bazë për rikthimin e databazës së imazhit dhe videos. Objekti klasifikues për lidhje kryhet duke përdorur DBRN 5 offline. Një qasje është hierarki e multirezolucionit duke përdorur hapësira të një funksioni në një imazh. Klasifikimi është kryer në dy faza, fillimisht duke përdorur ngjyra, karakteristika dhe pastaj ndërtimi është zbatuar për të përsosur klasifikimin (me anë të dy DBRN). Skema e indeksuar dhe procedurat e lidhjes janë përshkruar në figurën 1. Sistemi lejon konsumatorët në kërkim të imazhit nga furnizimi i bazës së të dhënave. Imazhet nuk janë të manipuluar në mënyrë të drejtpërdrejtë në fazën online. Çdo imazh është klasifikuar në një seri të paracaktuara offline duke përdorur ngjyra dhe cilësi dhe karakteristika të teknikave të rrjetit nervor. Pyetjeve iu janë përgjigjur duke kërkuar lidhje të bazës. Për dallim nga qasjet e mëparshme, e cila drejtpërsëdrejti manipuluan imazhin online duke përdorur templeta 6 ose të nivelit të ulët të parametrave të imazhit, kjo lidhje e sistemit të imazheve offline, e cila në masë të madhe rrit performancen. Procedura e lidhjeve përfshin katër hapa. Në hapin e parë, çdo imazh është shkurtuar në madhësi 25 njësi të blloqeve të barabartë. Secili mund të ketë një bllok të vetëm ose të shumëfishtë të objekteve. Në hapin e dytë, informacioni i ngjyrës është i punësuar për një klasifikim ku secili bllok klasifikohet në njërën nga këto familje: e zezë, ngjyrë hiri, e bardhë, e kuqe, e verdhë, e gjelbër, e kaltër, ose e purpurt në HSV (Sistemi i Horizontit Vertikal) ndër hapësira. Në hapin tjetër, ndërtimi i karakteristikave janë zbatuar për të përsosur klasifikimet duke përdorur DBRN si rezultat i klasifikimit të ngjyrave ku jo vetëm një grup i nënshtrohen kategorisë. Çdo bllok mund të jetë më tej klasifikues në njërën nga këto kategori: qielli, gjethi, zë i shpejt, objekt i bardhë, terren, dritë, dru, të panjohur, dhe të pasigurt. Në fund, një imazh të gjeneruar nga lidhja kërkoj tabelë duke përdorur objekt për njohjen e rezultateve të ruajtura në lidhjen bazës së të dhënave. Rezultatet eksperimentale për zbatimin e Ueb bazës, tregon se ky model është shumë efikase për një film të mëdha apo TV-programi bazë e orientuar në video digjitale. 5 DBRN Databaza e Rrjetave Neurale 6 Template Forma të gatshme 9

Figura 1 Indeksimi bazikë i sistemit: (a) Metodologjia vizuale e kërkimit (b) Proceduara nyjore (c) Ilustrimet e nyejve Indeksimi i videos në bazë të skemës së fytyrës së njeriut është propozuar nga S.H. Lin et7. Skema është zbatuar duke u përball me zbulimin dhe njohjen e teknikave. Në shumë video aplikacione, shfletimi nëpërmjet një sasi të madhe për të gjetur video materiale është një detyrë tejet e rëndësishme. Indeksimi i bazës së videos nga fytyra e njeriut që i ofron përdoruesit të fitojnë video klipe të efektshme për personin e interesuar. Për shembull, një studim i filmit të ekstraktuar të klipit të preferuar të aktorit / aktores nga një film i arkivit të studiojnë një shfaqje, dhe një gazetar i TV lajmeve së shpejti gjen një bazë të dhënash të lajmeve me përmbajtje të atij foto klipi, për disa politikan në mënyrë që të redaktoj lajmet e mbrëmjes. Skema përmban tre hapa. Hapi i parë përballet me kërkimin e video bazës në segmentin e video duke aplikuar një ndryshim skene për zbulimin e algoritmit. Ndryshimi i skenës së zbuluar të jep një ndryshim të ri. Çdo segment i krijuar nga skena me ndryshimin e zbulimit mund të konsiderohet si një histori të kësaj njësie. Pas videos copëzimi i renditur, një probabilitet i DBRN përballet me detektorin që është për të gjetur segmentet e invokuara (të shtëna) se shumica përmbajnë fytyra të njeriut. Nga çdo video të invokuar, në kuadër të përfaqësuesit të saj ku përballet me një detektor. Përfaqësuesit e kornizës të cilët përballen me zbulimin koefidencial të detektorëve dhe rezultatet shërbejnë si tregues për kërkim. 7 S.H. Lin et - Matematikan 10

Kapitulli III 3.1 Vizioni kompjuterik dhe njerëzimi interaktiv Rëndësia e bashkëveprimit në mes të njerëzve dhe kompjuterëve në sistemet multimedial kurrë nuk do të mund të nënvlerësohen. Ne do të donim të jetë e aftë për mirëkuptimin e njeriut ndaj kompjuterëve dhe të shprehjes nëpërmjet zërit, gjesteve vizuale, lëvizjeve të trupit, dhe kështu me radhë, si dhe të imitojë këto veprime. Hulumtimi multimedial të përshkruara në seksionet e mëparshme është i dobishëm për të trajtuar problemin e të kuptuarit. Për imitimet e veprimit të njeriut, vizioni kompjuterik dhe njerëzimi interaktiv (IHCV) mund të japë zgjidhje. Zhvillimi i vizionit që mund të përshtatet me algoritme të proceseve të dizajnuar për gjetje, parashikojnë, dhe në mënyrë të veçantë të përshkruaj ndërveprimet e njeriut me kompjuter në mënyrë që të jenë të dobishme për përdorues të veçantë në një detyre të caktuar që është shumë e rëndësishme në sistemet e multimedias. Ajo mundëson sjelljet, të tilla si realitete të shtuara si një ndihmë për ecurinë e njeriut, duke marrë përsipër detyra ose duke i bërë ata më të lehtë. IHCV është një problem i të mësuarit. Në zhvillimin e mësimit të algoritmeve që janë të mjaftueshme për të ndjekur, parashikojnë, dhe të përshkruajnë se si veçorit e njerëzve dhe interpretuan imazhet në detyra të ndryshme. Për shembull, ne mund të kemi një portret për përshkrimin e strukturave të tilla si nyjës, cilësisë, perimetri, etj. Ne gjithashtu mundë të kemi një përshkrim simbolik të strukturave siç janë formulat matematike. Dy shembujt të ndryshëm të skenës së animimit janë përfshirë në IHVC përafërsisht janë: * Lëvizja / parashikim i kufijve njerëzor / funksioni i etiketimit: detyra të ndryshme dhe vetit e imazheve - kërkojnë identifikimin e llojeve të ndryshme të teheve / tiparet e fytyrës. * Duke mësuar ne përcaktojmë simbolet njerëzore të vizatimit, (p.sh. barazimet): Identifikimi i performancave është invariant i madhësisë, orientimit, pozitës dhe shtrembërimet specifike. 11

Për të përmbledhur, objektivi i përdorimit i detyrës në menaxhimin e rrjetës neutrale (MRNs) është për të gjetur se çfarë bëjnë njerëzit duke parashikuar 0 raste të reja. Në një qasje e re për nxjerrjen e portretit të strukturave ishte propozuar. Portreti i strukturave në imazhe janë të referuara si nyje, cilësi, kontur, etj. Në IHCV, çështja që duhet të adresohen si adaptime nxjerrjen e atyre strukturave të konsiderohet e rëndësishme për perceptimin e njeriut. Në mënyrë tipike, faktorët që do të shqyrtojnë këto ndryshme në kushtet e sfondit dhe prototipit nga tiparet që përfaqësojnë strukturat nën nivelin e një ilustrimi të sfondi. Të DBRNs propozuar nga Kung dhe Taur 8 janë veçanërisht të përshtatshme për detyra të tilla. Motivimi për të përdorur këtë arkitekturë është se, në funksion e nxjerrjes, ajo do të jetë më e natyrshme për të miratuar parametra të shumta të vendimit dhe zbatimit të duhur në përcaktimin e parametrave si një funksion i kontekstin lokal, në vend të miratimit të shumë parametrave të vetme në të gjithë imazhin si në qasjet tradicionale. Një vendim-modular i bazuar në arkitekturën që përbën një përfaqësim natyror gjatë procesit vendimtar në qoftë se ne çdo nënrrjeti të emëruar që përfaqëson një ilustrim të nivelit të ndryshme në prapavijë, dhe në çdo njësi të nënrrjetit për të përfaqësuar karakteristika të ndryshme të prototipit korrespondues. Nëse analizohet një funksion i vektorit hyrës, në dy faza vendimi është bërë nga DBRN: * Brenda një nënrrjeti, të njësive të ndryshme që përfaqësojnë prototipat përkatëse nën ndriçim që konkurrojnë me të tjerët. Grupi duke dhënë më shumë prodhim pretendon në identitetin dalës të vektorit. * Pas kompletimit me të tjerët, dhe me një vlerë më të madhe të prodhimit do të pretendojnë identitetin e vektorit hyrës. Një karakteristikë shumë tërheqëse e DBRN është kundër zhurmës dhe ndërhyrjes. Që nga DBRN mësojmë mesataren e informacionit të prapavijës, zhurma dhe ndërhyrja është filtruar si sinjale të rastit. Fuqia e tillë ka qenë e demonstruar qartë në avantazhet e zbulimit. 8 Kung dh Taur Shkencëtar Japonez të Teknologjisë Multimediale 12

Çështje e hapur, e një drejtimi të ardhshëm studimor, dhe përfundimtar Në këtë punim, ne jemi përqendruar në atributet kryesore të rrjetave të rëndësishme për zbatimin e tyre në zgjimin e aplikacioneve multimediale. Hapësira e shtresuar e kufizimeve ndalojnë mbulimin e subjekteve. Më shumë shembuj ilustrues mund të gjenden në përpunimin e revistave të shumta. Edhe pse NRs kanë qenë mjaft të suksesshme në aplikimet e shumë IMP-ve, temat kërkimore mbeten për t'u zgjidhur. Nga perspektiva e sistemit komercial, ka shumë aplikues të shtyrë në probleme kërkimore. Këto përfshijnë analizën e ndryshuar në skenën e zbulimit, shprehjeve të fytyrës dhe gjesteve, përzierje e gjesteve, fjalim dhe emocione, audio sinjale, titra automatike për dëgjimin e të paaftëve ose të dytë në gjuhën e TV audiencës, telefonit multimedialë, shërbimet dhe zë interaktiv multimedial, fjalim, imazhe, dhe përmbajtjen e videos. Nga një hulumtim afat-gjatë, ekziston një nevojë për të ngritur një teori themelore për multimediale të teknologjisë inteligjente. Një teknikë para procesimit të fuqishëm, e aftë për të kërcyer kapitullimin e videove bazë, do të sigurojë një themel të shëndoshë për objektet e orientuara in-line të indeksimit vizual. Kjo sugjeron se një ekuilibër synergistic me bashkëveprim midis përfaqësimit indeksor duhet të hetohet me kujdes. Një tjetër objekt themelor hulumtimi që kërkon vëmendje të menjëhershme është modelimi dhe vlerësimi i cilësisë në komunikimin perceptual të njeriut. Për përmbajtjen bazë të pyetjes vizuale, duke inkorporuar përdoruesit interaktive në procesin e kërkimit do të jetë gjithashtu një temë sfiduese, por e dobishme. Në të ardhmen do të zhvillohet një telekomunikacionit me theks të madh të medieve për të drejtat e integrimit të komunikimit të njeriut. Sistemet multimediale mund të arrijnë potencialin e tyre vetëm kur ata janë vërtetë të integruar në tri mënyra kryesore: integrimin e përmbajtjes, integrimin e njeriut, dhe integrimin me sisteme të ndryshme të medies. Prandaj, në vijim do të shfaqim teknologjinë e cila të çon drejt së ardhmes të kërkimeve multimediale: 1. Teknologjitë e gjeneruar për çdo lloj të hapësirës së veprimit. 2. Teknologjitë duke e prishur hapësirën e veprimit 13

3. Teknologjitë për manipulimin e objekteve në hapësi e veprimit 4. Teknologjitë për të komunikuar me banorët e hapësirës së veprimit. Për ta përmbledhur, hulumtimin dhe aplikimin e mundësive në inteligjenten multimediale të përpunimit në të vërtetë është i pafundmë. Tani ne duhet të eksplorojmë më tej përfitimet e tyre të gjera. 14

Referenca [1] Ling Guan, Sun-Yuan Kung, Jan Larsen. Multimedia image and video processing 2001 by CRC Press LLC. [2] Jerry D. Gibson. Handbook of image and video processing Copyright t2 2000 by Academic Press [3] Aboul-Ella Hassanien, Ajith Abraham, Janusz Kacprzyk dhe James F. Peters. Computational Intelligence in Multimedia Processing Springer-Verlag Berlin Heidelberg 2008, (faqe 6-12, faqe 21-31) 15

Përmbajtja Parathënie... 3 Kapitulli I 1.1 Rrjetat Neurale dhe Procesimi i Multimedias... 5 Kapitulli II 2.1 Vizuelizimi i imazhit dhe copëzimi... 7 2.2 Njohja dhe identifikimi personal... 7 2.3 Imazhi dhe rikthimi i Videos, Kërkuesi, dhe Kontesti-Indeksi bazë... 8 Kapitulli III 3.1 Vizioni kompjuterik dhe njerëzimi interaktiv... 12 Çështje e hapur, e një drejtimi të ardhshëm studimor, dhe përfundimtar... 14 Referenca... 15 Përmbajtja... 16 16