Crawler
Crawler, nazývaný také bot, spider, spiderbot nebo web crawler, je internetový bot (počítačový program), který systematicky prochází World Wide Web a vytváří tzv. web index, což je obrovská databáze všech dostupných stránek a slov, která se na nich nachází.
Z této sbírky informací pak webový vyhledávač vybere na dotaz uživatele nejrelevantnější webové stránky, na nichž jsou klíčová slova k nalezení.
Web crawler pracuje tak, že vždy projde určený seznam URL adres, které prohledává a přes HTTP protokol si o nich ukládá důležitá data (obsah, metadata, zpětné odkazy apod.). V průběhu sbírá URL adresy pro procházení v budoucnu.
Podle jakých zásad (vyhledávacích politik) se spiderbot chová?
- Výběrová politika – stanovuje, které stránky bude crawler stahovat, nejčastěji podle počtu na ně vedoucích odkazů, zpětných odkazů nebo PageRanku.
- Politika opětovných návštěv – určuje, v jakých intervalech budou prověřovány změny na již zaindexovaných stránkách.
- Zdvořilostní politika – udržuje systém v procházení webů crawlerem, aby nedošlo k přetížení serveru například z důvodu rychlého stahování velkých objemů dat.
- Politika paralelního zpracování – zajišťuje, aby nedocházelo k paralelním nebo opakujícím se přístupům ke stejnému zdroji, a koordinuje distribuci webového vyhledávání.
Několik příkladů crawlerů: Bingbot, Googlebot, Seznambot a Scrapy.
Co na mou práci říkají klienti ?
Nezávazné nacenění SEO služeb
Chcete získat zákazníky? Buďte na internetu vidět!
Pomohu vám budovat značku ve vyhledávání dlouhodobě.
Napište mi, jaké jsou vaše cíle.