DatamaskinerInformasjonsteknologi

Moderne data visjon. Oppgaver og datamaskinsynsevne. Programmering Computer Vision i Python

Hvordan lære en datamaskin til å forstå hva som er avbildet på bildet eller bilder? Dette virker enkelt, men for en datamaskin er dette bare en matrise som består av nuller og enere som du vil trekke ut viktig informasjon.

Hva er datamaskinen visjon? Det er evnen til å "se" din datamaskin

Vision - er en viktig kilde til informasjon for personen som bruker den, får vi, ifølge ulike beregninger, fra 70 til 90% av all informasjon. Og, selvfølgelig, hvis vi ønsker å skape en smart bil, trenger vi å gjennomføre de samme ferdighetene og datamaskin.

Problemet med datamaskinen visjon kan sies ganske klart. Hva er "se"? Det er enighet om at der det er bare ved å se. Som konkluderte med forskjellene på datamaskinen visjon og menneskelig visjon. Visjon for oss - det er en kilde til kunnskap om verden, så vel som en kilde til metriske informasjon - det vil si evnen til å forstå avstander og størrelser.

Semantisk kernel image

Ser på bildet, kan vi beskrive det med en rekke attributter, så å si, for å hente ut semantisk informasjon.

For eksempel ser på dette bildet, kan vi si at det er utendørs. Hva er bytrafikk. At det finnes biler. Vi kan gjette at dette er Sør-Øst Asia på konfigurasjonen av bygningen og hieroglyfer. Portrettet av Mao Zedong forstår at dette er Beijing, og hvis noen så levende bilder eller selv hadde vært der, ville gjette på at dette er den berømte Tiananmen Square.

Det vi kan si mer om bildet, ser det? Vi kan identifisere objekter i bildet, for å si, at det er folk her nærmere - gjerde. Her paraplyer, at bygningens plakater. Dette er eksempler på klasser er svært viktige objekter, som er engasjert i jakten på øyeblikket.

Likevel kan vi lære noen av de funksjoner eller egenskaper ved stedene. For eksempel, her kan vi fastslå at dette ikke er et portrett av en vanlig kinesisk, nemlig Mao Zedong.

I henhold til kjøretøyet kan bli bestemt at det er et bevegelig objekt, og det er vanskelig, som ikke deformeres under bevegelsen. Om flagg kan sies at det objekter, de er også i bevegelse, men de er ikke vanskelig, stadig deformert. Og i scenen der er den vind, som kan bestemmes ved å utvikle flagg, og kan til og med bestemme retningen av vinden, for eksempel er det blåser fra venstre til høyre.

Avstander og lengder i datamaskinen visjon

Svært viktig er det metriske informasjon om datamaskinen visjon vitenskap. Dette er alle typer avstander. For eksempel, for roveren er spesielt viktig fordi lagene er fra Jorden ca 20 minutter og svare på så mye. Følgelig lenken og tilbake - 40 minutter. Og hvis vi gjør en plan for bevegelse kommandoer of the Earth, må du ta hensyn til dette.

Vellykket integrert teknologi for datamaskinen visjon i videospill. Ifølge videoen, kan du bygge tredimensjonale modeller av objekter, mennesker og bilder på brukeren kan gjenopprette de tredimensjonale modeller av byer. Og deretter gå på dem.

datamaskin visjon - et ganske bredt spekter. Det er tett sammenvevd med ulike andre vitenskaper. En del av datamaskinen visjon Den fanger bildebehandling området og noen ganger tildeler datamaskinen visjon, historisk.

Analyse, mønstergjenkjenning - veien til etableringen av overlegen intelligens

La oss undersøke disse begrepene hver for seg.

Bildebehandling - dette er et område av algoritmer, der inngang og utgang - bilde, og vi har ham gjøre noe.

bildeanalyse - er arealet av datamaskinen visjon, som fokuserer på å jobbe med det todimensjonale bildet og gjøre konklusjoner fra dette.

Pattern Recognition - en abstrakt matematisk disiplin som gjenkjenner data i form av vektorer. Det er, ved inngangen - vektor og vi har noe å gjøre med det. Hvor vektoren er, vi er ikke så viktig å vite.

Computer visjon - det opprinnelig var å gjenopprette strukturen i todimensjonale bilder. I dag er dette området har blitt bredere, og det kan tolkes som aksept av alle de fysiske gjenstander gjør, basert på bildet. Det vil si, det er oppgaven av kunstig intelligens.

Parallelt med computer vision i et helt annet felt, i geodesy, har utviklet seg fotogrammetri - en måling av avstanden mellom gjenstander på to-dimensjonale bilder.

Roboter kan "se"

Og til slutt - dette er maskinen visjon. Under maskinen visjon betyr en visjon av roboter. Det er avgjørelsen av noen produksjonsproblemer. Vi kan si at datamaskinen visjon - er en stor vitenskap. Den kombinerer noen av de andre science del. Og når datamaskinen visjon blir noe bestemt program, gjør den til en maskin visjon.

Computer Vision-området har en masse på praktiske anvendelser. Det er forbundet med automatisering av produksjonen. At bedriftene bli mer effektive for å erstatte manuelt arbeid med maskinen. Maskinen blir ikke sliten, sover ikke, hun hadde uregelmessig arbeidsplan, er hun villig til å jobbe 365 dager i året. Så, ved hjelp av maskinarbeid, kan vi få en garantert resultat på et bestemt tidspunkt, og det er ganske interessant. Alle oppgavene har en klar bruk for datamaskinen visjon systemer. Og det er ingenting bedre enn å se resultatene umiddelbart på bildet bare i beregningen scenen.

På terskelen til en verden av kunstig intelligens

Pluss området - det er vanskelig! En betydelig del av hjernen som er ansvarlig for syn, og det antas at hvis du lærer datamaskinen for å "se", det vil si full bruk datamaskinen visjon, er det ett av målene om full kunstig intelligens. Hvis vi kan løse problemet på det menneskelige plan, mest sannsynlig på samme tid, vil vi løse problemet med AI. Det er veldig bra! Eller ikke veldig bra, hvis du ser, "Terminator 2".

Hvorfor er visjonen - det er vanskelig? Ettersom bildet av det samme objekt kan variere sterkt avhengig av ytre faktorer. Avhengig gjenstand for observasjon poeng se annerledes ut.

For eksempel, en og samme figur, tatt fra forskjellige vinkler. Og hva er mest interessant i figuren kan være ett øye, to øyne og en halv. Og avhengig av kontekst (dersom dette bildet av mannen i en skjorte med malte øyne), øyet kan være mer enn to.

Datamaskinen fremdeles ikke forstår, men det "ser"

En annen faktor som gjør det vanskelig - det er belysning. Det samme scene med forskjellig belysning vil se annerledes ut. objektstørrelse kan variere. Videre, objekter av en klasse. Hvordan kan du si om en mann at hans høyde på 2 meter? Ingenting. Menneskelig vekst og kan være 2,3 m, og 80 cm. Som med andre typer av gjenstander, men er gjenstander av samme klasse.

Spesielt levende objekter gjennomgå en rekke forskjellige stammer. Hår mennesker, idrettsutøvere, dyr. Se på bilder av hester kjører, finne ut hva som skjer med deres man og hale er rett og slett umulig. En overlappende objekter i et bilde? Hvis du skubbe et databilde, selv den kraftigste maskinen finner problemer for å gi den riktige avgjørelsen.

Neste visning - det er en forkledning. Noen gjenstander, dyr maskert som miljøet, og ganske dyktig. Og det samme stedene og fargestoffer. Likevel ser vi dem, men ikke alltid langveisfra.

Et annet problem - bevegelsen. Gjenstander i bevegelse utenkelig gjennomgå deformasjon.

Mange av objektene er svært variabel. Her, for eksempel i de to bildene nedenfor gjenstander av "stol".

Og på dette kan du sitte. Men å lære en maskin, slik at de ulike tingene i form, farge, materialer, alt er et objekt "stol" - er veldig vanskelig. Dette er utfordringen. Å integrere metoder for datamaskinen visjon - er å lære en maskin til å forstå, analysere, spekulere.

Integrering av maskinen visjon i ulike plattformer

Massen av datamaskinen visjon begynte å trenge mer i 2001, da han skapte den første ansiktet detektor. Vi gjorde det to forfattere: Viola, Jones. Det var det første rask og pålitelig nok algoritme, som demonstrerte kraften av maskinlæringsmetoder.

Nå datamaskin visjon nok nye praktiske anvendelser - anerkjennelse av menneskelig ansikt.

Men for å gjenkjenne mannen som i filmene - på tilfeldige vinkler, forskjellige lysforhold - det er umulig. Men for å løse problemet, eller en som er forskjellige mennesker med ulik belysning eller i en annen positur, tilsvarende som i fotografiet i passet, er det mulig med en høy grad av tillit.

passbilde krav i stor grad på grunn av trekk ved ansiktsgjenkjenning algoritmer.

For eksempel, hvis du har en biometrisk pass, i noen moderne flyplasser, kan du bruke den automatiske passkontrollen system.

Uløst problem på datamaskinen visjon - evnen til å gjenkjenne hvilken som helst tekst

Kanskje noen har brukt OCR-system. En av disse - en Fine Reader, er veldig populært i RuNet system. Det finnes mange former hvor du fyller inn dataene, de er perfekt skannet, informasjonen er anerkjent av systemet godt. Men med hvilken som helst tekst på bildet er situasjonen mye verre. Dette problemet er fortsatt uløst.

Spill som involverer datamaskinen visjon, motion capture

Separat stort område - er etableringen av tredimensjonale modeller og motion capture (som er ganske vellykket implementert i dataspill). Det første programmet, som bruker datamaskin visjon - et system av interaksjon med datamaskinen ved hjelp av gester. Da det ble opprettet var det mange ting åpne.

Algoritmen er utformet ganske enkelt, men å konfigurere det tok å lage en generator av syntetiske bilder av mennesker til å få en million bilder. Superdatamaskin med dem for å velge parametrene av algoritmen, som han nå fungerer godt.

Det er en million bilder og uke tellbar superdatamaskin tid mulig å lage en algoritme som bruker 12% av kapasiteten på en prosessor og tillater en person å oppfatte posisjon i sanntid. Denne Microsoft Kinect-systemet (2010).

Søk etter bilder av innhold kan du laste opp bilder til systemet, og resultatet av det vil gi alle bildene med det samme innholdet og laget av samme vinkel.

Eksempler på datamaskinen visjon: tredimensjonale og todimensjonale kart er nå gjort med det. Maps for navigasjon biler blir jevnlig oppdatert i henhold til DVR.

Det er en database med milliarder av geotaggede bilder. Ved å laste ned bildet i databasen, kan du finne ut hvor det ble gjort, og selv med litt perspektiv. Selvfølgelig forutsatt at stedet er populært nok til at på en gang turister og gjort en rekke bilder av området har vært der.

roboter er overalt

Robotics på det nåværende tidspunkt, overalt, uten at det på noen måte. Nå er det biler som har spesielle kameraer som gjenkjenner fotgjengere og veiskilt for å sende kommandoer til sjåføren (dette på en måte et dataprogram for å vise, hjelper bilist). Og det er en helautomatisk robot biler, men de kan ikke stole utelukkende på videokameraet system uten bruk av en stor mengde tilleggsinformasjon.

Moderne kamera - dette er et analogt kamera obscura

La oss snakke om det digitale bildet. Moderne digitale kameraer er ordnet på prinsippet om camera obscura. Bare i stedet for hullet gjennom hvilken lyset kommer inn i strålen og projisert på bakveggen av kammeret av vedkommende krets, har vi en spesiell optisk system som kalles linsen. Dens formål er å samle en stor lysstråle og konvertere det slik at alle stråler føres gjennom et virtuelt punkt for å oppnå den fremspring og danne et bilde på filmen eller matrise.

Moderne digitale kameraer (matrix) består av individuelle elementer - piksler. Hver piksel kan måle energi til lys som er innfallende på den totale pixel, og avgir en utgang nummer. Derfor, i et digitalt kamera, får vi i stedet for bildets lysstyrke sett lysmålinger, fanget i en enkelt piksel - datamaskinen synsfelt. Derfor, når bildet vi ser ikke flyter linjer og klare konturer, og et gitter av fargede kvadrater i forskjellige farger - piksler.

Nedenfor ser du den første digitale bildet i verden.

Men i dette bildet er ikke? Farge. Hva er farge?

Psykologisk oppfatning av farge

Color - dette er hva vi ser. Fargen på en og samme ting for mennesker og katter vil være annerledes. Siden vi (mennesker) og dyre optisk system - visjonen er annerledes. Derfor fargen - det er psykologisk kvaliteten på vår visjon som oppstår når observere objekter og lys. Og ikke en fysisk egenskap av objektet og lyset. Color - er et resultat av samspillet mellom lette komponenter, og åstedet for vår visuelle system.

Programmering Computer Vision i Python bruker bibliotekene

Hvis du har besluttet å engasjere seg seriøst i studiet av datamaskinen visjon, bør umiddelbart forberede seg på en rekke vanskeligheter, er denne vitenskapen ikke det enkleste og skjuler en rekke fallgruver. Men "Programmering Computer Vision på Python" forfatterskapet av Jan Erik Solema - en bok som beskriver alle de mest enkle språket. Her vil du bli kjent med metoder for anerkjennelse av ulike objekter i 3D, lære å arbeide med stereobildet, virtuell virkelighet og mange andre programmer på datamaskinen visjon. I boken er nok eksempler i Python. Men forklaringene presenteres, så å si, generalisert, for ikke å overbelaste for mye forskning og harde data. Arbeidet passer for studenter, amatører og entusiaster. Last ned denne boken og andre om datamaskinen visjon (pdf-format) kan være i nettverket.

For øyeblikket er det åpen kildekode bibliotek av computer vision algoritmer og bildebehandling og numeriske algoritmer OpenCV. Det er implementert på de fleste moderne programmeringsspråk, er åpen kildekode. Hvis vi snakker om datamaskinen visjon, bruker Python som programmeringsspråk, det har også støtte fra biblioteket, i tillegg er det stadig utvikling og har et stort fellesskap.

Selskapet "Microsoft" tilbyr sine tjenester Api-trene nevrale nettverk for å arbeide det med bilder av mennesker. Det er også anledning til å søke datamaskinen visjon, bruker Python som programmeringsspråk.

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 no.delachieve.com. Theme powered by WordPress.