Lista adresów IP robotów Google

2008-06-15 10:24

Poza zwykłymi użytkownikami, którzy odwiedzają nasze strony istnieją jeszcze roboty, które w większości przypadków analizują naszą stronę pod względem utworzenia
danych do wyszukiwarek. Czasem chcemy wiedzieć czy wchodząca osoba to żywa istota czy też jakiś automat.

Przedstawię w jaki sposób zrobić wykrywanie robotów google (googlebot) i zebrać listę ich adresów IP.

Pod zmienną $_SERVER['HTTP_USER_AGENT'] znajduje się informacja o oprogramowaniu, z którego ktoś ogląda naszą stronę i na tej podstawie określamy wstępnie czy to jest robot google. Zmienną tą można jednak spreparować, dlatego najlepiej sprawdzić za pomocą w whois czy adres, z którego przychodzi żądanie należy na pewno do google. W ten sposób zbadane adresy IP zapamiętujemy w plikach co dodatkowo przyspiesza działanie skryptu przy kolejnym wejściu robota.

Do czego ten kod może służyć? Poza śledzeniem robotów do kombinowania ;) Ukrywania linków przed google w systemach wymiany linków czy też przy wymianie / kupnie linków. Oczywiście takie ukrywanie danych nie do końca ujdzie płazem jeśli ktoś się zna. Dlatego niech każdy ma to na uwadze by nie było potem płaczu ;)

Ulepszony skrypt w postaci klasy, z przykładem użycia, można ściągnąć stąd : crawlshunter.tgz.

Słowa kluczowe: PHP, Techblog, adresy ip, crawl, google, googlebot, robot, wykrywanie, artykuł, blog

Projektowanie i tworzenie stron www w PHP5. Opisy i recenzje oprogramowania typu cms, blog, wiki, open source.
Wszelkie prawa zastrzeżone.