Perayap web
Perayap Web (bahasa Inggris: web crawler), merupakan mesin/perangkat lunak yang secara sistematis menjelajahi World Wide Web dan biasanya dioperasikan oleh mesin pencari untuk tujuan pengindeksan[1] maupun untuk tujuan pengarsipan.
Cara kerja Perayap web adalah dengan cara mengunjungi URL web tujuan, dan berkomunikasi dengan peladen web yang merespons URL tersebut, perayap web mengidentifikasi semua hyperlink di halaman web yang diambil dan menambahkannya ke daftar URL yang akan dikunjungi, atau yang dikenal dengan istilah crawl frontier. Pada saat perayap web melakukan pengarsipan, perayap akan menyalin dan menyimpan informasi yang ada pada web tersebut, kemudian arsip web akan disimpan, sehingga dapat dilihat, dibaca, dan dinavigasi seolah-olah berada di web asli langsung[2].
Daftar perayap web
[sunting | sunting sumber]Beberapa perayap web adalah sebagai berikut:
Perayap web dengan sumber terbuka
[sunting | sunting sumber]Beberapa perayap web sumber terbuka:
- GNU Wget
- GRUB
- Heritrix
- ht://Dig
- HTTrack
- mnoGoSearch
- Apache Nutch
- Open Search Server
- Scrapy
- Seeks
- StormCrawler
- tkWWW Robot
- Xapian
- YaCy
Perayap web komersial
[sunting | sunting sumber]Beberapa perayap web berbayar:
Referensi
[sunting | sunting sumber]- ^ Bai, Quan; Xiong, Gang; Zhao, Yong; He, Longtao (2014-01-01). "Analysis and Detection of Bogus Behavior in Web Crawler Measurement". Procedia Computer Science. 2nd International Conference on Information Technology and Quantitative Management, ITQM 2014 (dalam bahasa Inggris). 31: 1084–1091. doi:10.1016/j.procs.2014.05.363. ISSN 1877-0509.
- ^ Web archiving. Julien Masanès. Berlin: Springer. 2006. ISBN 978-3-540-46332-0. OCLC 262691786.