Przejdź do zawartości

YaCy

Z Wikipedii, wolnej encyklopedii
YaCy
Logo YaCy
Logo programu
Ilustracja
Autor Michael Christen
Aktualna wersja stabilna 1.922 / 13 października 2019; ponad 5 lat temu
Język programowania java
System operacyjny POSIX (w tym GNU/Linux), Windows, Mac OS
Rodzaj Wyszukiwarka
Licencja GPL
Strona internetowa

YaCy – rozproszona wyszukiwarka zbudowana na zasadzie sieci peer-to-peer (P2P). Podstawą jest program napisany w Javie, funkcjonujący na kilku tysiącach komputerów (stan na rok 2011), tak zwanych YaCy-peers. Każde YaCy-peer niezależnie przeszukuje internet, analizuje oraz indeksuje znalezione strony i gromadzi rezultaty indeksowania we wspólnej bazie danych (tak zwanym indeksie), który jest współdzielony z innymi użytkownikami YaCy tak, jak w sieciach P2P.

W odróżnieniu od częściowo rozproszonych wyszukiwarek, sieć YaCy cechuje się zdecentralizowaną architekturą. Wszystkie węzły (YaCy-peers) są równoważne i nie ma żadnego serwera centralnego. Program może funkcjonować albo w trybie crawl albo jako pośrednik sieciowy (proxy) indeksujący odwiedzane przez użytkownika strony (kilka różnych mechanizmów broni prywatności użytkownika).

Dostęp do wyników wyszukiwania zapewniony jest poprzez uruchamiany lokalnie serwer wyszukiwania ze stroną wyszukiwania i polem do wprowadzania zapytań. Wyniki przedstawiane są w typowy sposób, tak jak na innych stronach czy portalach.

Program udostępniany jest na licencji GPL.

Architektura

[edytuj | edytuj kod]

Wyszukiwarka YaCy opiera się na czterech elementach:

Crawler
Robot poruszający się ze strony na stronę i analizujący ich kontekst.
Indexer
Tworzy "odwrotny indeks słów" (Reverse Word Index - RWI) np. każde słowo zawarte w RWI ma listę powiązanych z nim URL i informacje rankingowe. Słowa zapisywane są w formie hashy.
Wyszukiwanie i interfejs administracyjny
Stworzone jako interfejs sieciowy udostępniany lokalnie przez HTTP.
Sieć P2P
Używana do magazynowania bazy danych RWI przy użyciu rozproszonej tablicy hashy.

Zalety

[edytuj | edytuj kod]
  • Jako że nie ma centralnego serwera, wyników nie da się ocenzurować, i niezawodność jest (przynajmniej teoretycznie) wyższa.
  • Dzięki temu że silnik wyszukiwarki nie jest własnością firmy, nie ma centralnej usługi reklamowej ani manipulowanego rankingu.
  • Ze względu na sposób w jaki zaprojektowane zostało YaCy, może być używane do indeksowania "ukrytych sieci" takich jak Tor, I2P czy Freenet.
  • Jako że nie ma centralnego serwera a sieć otwarta jest dla każdego, wrodzy użytkownicy (teoretycznie) mogą być w stanie częściowo manipulować efektami wyszukiwania.
  • Na chwilę obecną YaCy daje zdecydowanie mniej wyników i jest znacznie wolniejsze niż duże komercyjne wyszukiwarki.
  • Protokół YaCy używa zapytań HTTP, znacznie wolniejszych niż protokoły UDP czy TCP z ciągłymi połączeniami.

Linki zewnętrzne

[edytuj | edytuj kod]