Datamaskiner, Programmering
Hva er en crawler? crawler funksjonen "Yandex" og Google
Hver dag på internett er det en enorm mengde nye materialer for å lage et nettsted oppdatert de gamle nettsider, laste opp bilder og videoer. Uten skjult fra søkemotorer ble ikke funnet i World Wide Web, ingen av disse dokumentene. Alternativer som robotprogram som til enhver tid finnes ikke. Hva er et søk robot, hvorfor du trenger det, og hvordan du bruker?
Hva er et søk robot
Crawler området (søkemotor) - det er en automatisk program som er i stand til å besøke de millioner av nettsider, raskt navigere gjennom Internett uten brukertilsyn. Bots er stadig skanning plass i World Wide Web, finne nye nettsider og regelmessig besøk allerede indeksert. Andre navn på robotsøkeprogrammer edderkopper, søkeroboter, roboter.
Hvorfor er søkemotor edderkopper
De viktigste funksjonene som utfører søkemotor edderkopper - web sider indeksert, samt tekst, bilder, lyd og videofiler som er på dem. Bots sjekke referanser, speil nettsteder (kopier) og oppdateringer. Robotene utfører også HTML-kode kontroll for Samsvars standarder av World Organization, som utvikler og implementerer teknologiske standarder for World Wide Web.
Hva er indeksering, og hvorfor det er nødvendig
Indeksering - er, faktisk, er prosessen med å besøke en bestemt nettside av søkemotorer. Programmet skanner teksten på dette nettstedet, bilder, videoer, utgående koblinger, deretter siden vises i søkeresultatene. I noen tilfeller kan området ikke skannes automatisk, så det kan bli lagt til søkemotoren manuelt webmaster. Vanligvis skjer dette i fravær av eksterne linker til en bestemt (ofte bare nylig opprettet) side.
Hvordan søkemotor edderkopper
Hver søkemotor har sin egen bot med Google-søk roboten kan variere betydelig i henhold til mekanismen fungerer på en lignende program, "Yandex" eller andre systemer.
Generelt er en robot virkemåte som følger: programmet "kommer" på stedet og eksterne lenker fra hovedsiden, "leser" Nettressurs (inkludert de som leter overhead som ikke ser brukeren). Båten er hvordan man skal navigere mellom sidene på et nettsted og gå videre til andre.
Programmet vil velge hvilket nettsted å indeksere? Oftere enn ikke "tur" edderkoppen begynner med nyhetssider eller store ressurs kataloger og aggregatorer med stor referansevekt. Crawleren kontinuerlig skanner sidene en etter en, på den hastighet og konsistens av registreringen av følgende faktorer:
- Intern: perelinovka (interne lenker mellom sider av samme ressurs), site størrelse, riktig kode, brukervennlig og så videre;
- Ekstern: den totale referansevekt, noe som fører til nettstedet.
Det første søke robot søk på hvilken som helst nettside av robots.txt. Videre ressurs indeksering er utført basert på informasjon mottatt det er fra dette dokumentet. Denne filen inneholder spesifikke instruksjoner for "edderkopper" som kan øke sjansene for sidebesøk av søkemotorer, og dermed å oppnå en tidlig hit område i "Yandex" eller Google.
Program analoger crawlere
Ofte begrepet "søke robot" er forvirret med intelligent, bruker eller autonome agenter, "maur" eller "ormer". Nedsenket signifikante forskjeller bare i sammenligning med midler, andre definisjoner refererer til lignende typer roboter.
For eksempel kan agenter være:
- intellektuell: programmet, som er flyttet fra sted til sted, uavhengig bestemmer hvordan du går frem; de er ikke veldig vanlig på Internett;
- Autonom: Disse midler hjelpe brukeren i å velge et produkt, søk, eller utfylling av skjemaer, de såkalte filtre, som er litt beslektet med nettverksprogrammer;.
- bruker: programmet bidra til brukermedvirkning med World Wide Web, en nettleser (for eksempel Opera, IE, Google Chrome, Firefox), budbringere (Viber, telegram) eller e-postprogrammer (MS Outlook og Qualcomm).
"Maur" og "ormer" er mer lik søkemotoren "edderkopper". Den første formen mellom et kommunikasjonsnett og konsekvent samvirke slik maur koloni, "ormer" er i stand til å replikere i andre henseender den samme som den standard crawler.
Rekke søkemotor roboter
Skille mellom mange typer crawlere. Avhengig av formålet med programmet, er de:
- "Mirror" - Duplikater surfer nettsteder.
- Mobile - fokus på mobile versjoner av websider.
- Hurtig - fikse ny informasjon raskt ved å se de siste oppdateringene.
- Referanse - referanseindeks, telle sine tall.
- Indexers ulike typer innhold - spesifikke programmer for tekst, lyd, video, bilder.
- "Spyware" - på jakt etter sider som ennå ikke vises i søkemotoren.
- "Woodpecker" - periodisk besøke steder for å sjekke deres relevans og effektivitet.
- National - surfer på nettet ressursene som ligger på en av landets domener (f.eks, Mobi, eller .kz .ua).
- Globalt - index alle de nasjonale nettstedene.
Roboter store søkemotorene
Det er også noen søkemotor edderkopper. I teorien kan deres funksjonalitet varierer mye, men i praksis programmene er nesten identiske. De viktigste forskjellene indeksere nettsider Roboter to store søkemotorene er som følger:
- Stringentheten testing. Det antas at mekanismen for crawler "Yandex" noe strengere estimater nettstedet for overholdelse av standarder for World Wide Web.
- Konservering av integriteten av området. Google belte indekserer hele området (inkludert medieinnhold), "Yandex" kan også vise innhold selektivt.
- Speed test nye sider. Google legger ny ressurs i søkeresultatene innen få dager, i tilfelle "av Yandex" prosessen kan ta to uker eller mer.
- Frekvensen av re-indeksering. Søkeroboten "Yandex" se etter oppdateringer to ganger i uken, og Google - ett hver 14. dag.
Internett, selvfølgelig ikke begrenset til de to søkemotorene. Andre søkemotorer har sine roboter som følger sine egne indeksering parametere. I tillegg er det flere "edderkopper" som er utviklet ikke store søke ressurser og individuelle lag eller nettredaktører.
vanligste misforståelsene
I motsetning til det mange tror, "edderkopper" ikke behandler informasjonen. Programmet bare skanner og lagrer nettsider og videre behandling tar en helt annen roboter.
Også mange brukere mener at søkemotoren edderkopper ha en negativ innvirkning og "skadelig" Internet. Faktisk kan noen versjoner av "edderkopper" betydelig overbelaste serveren. Det er også en menneskelig faktor - webmaster, som skapte programmet, kan gjøre feil i roboten konfigurasjon. Likevel er de fleste av de eksisterende programmene er godt utformet og profesjonelt drevet, og eventuelle nye problemer raskt fjernet.
Hvordan håndtere indeksering
Søkemotor roboter er de automatiserte programmer, men indekseringsprosessen kan delvis styres av webmaster. Dette bidrar sterkt ekstern og intern optimalisering av ressursen. I tillegg kan du manuelt legge til et nytt nettsted til en søkemotor: store ressurser har et spesielt form av websider registrering.
Similar articles
Trending Now