White Autobot – naturalny harvester URLi, tytułów i opisów z Google

White Autobot

Google w swoich wskazówkach korzystania z usługi wyszukiwania zabrania korzystania z automatycznych odpytań. Ostatnie dni i tygodnie pokazały, że systemy monitorowania pozycji stają się coraz bardziej niestabilne z powodu awarii serwerów proxy. Inne znane programy jak Scrape Box czy Ultra SEO Master mają trudności z realizacją harvestu z Google. Google uczy się jak rozpoznawać automatyczne zapytania o footprinty i szybko je odrzucać poprzez zwracanie captchy.

Wykorzystując iMacros dla Firefox stworzyłem makro, które potrafi pobierać dane z Google, a zarazem zachowuje się jak zwykły użytkownik. Zwróćmy uwagę na to, że rasowe harvestery i sprawdzacze pozycji mają zwykle tą samą nazwę User Agent, ten sam schemat tworzenia kwerend lub inne cechy, po których Google szybko orientuje się że to seria automatycznych odpytań.

Niekiedy potrzebowałem uzyskać zwykłą listę pierwszych stu wyników. Ostatni mój projekt, który jeszcze nie ujrzał światła dziennego, polega na na znalezieniu adresów WWW dla 500 firm, których znałem tylko nazwę. Niestety nigdzie nie znalazłem gotowego makra, które by wprowadzało zapytania do Google i jednocześnie zbierało wyniki, więc sam takie stworzyłem.

Po kilku udoskonaleniach, makro jest w stanie nie tylko pobrać adres URL wyświetlanych stron, także zapisuje tytuł oraz opis wyświetlany w wynikach wyszukiwania. Pamiętajmy, że makro to nie skrypt, który ma swoją logikę, pętle itp. Tutaj bazuje się na zwykłych krokach, które są powtarzalne. Dlatego makro zawiera 10 kroków, aby pobrać za każdym razem 10 wyników wyszukiwania. Jeśli makro uruchomimy w pętli i pętlę ustawimy na 100 iteracji, to makro będzie chodzić aż do wyniku nr 1000. Zdarza się to niezwykle rzadko, ponieważ po drodze Google zgłosi, że od któregoś miejsca wyniki są już ukryte bo:

Aby pokazać najbardziej trafne wyniki, pominęliśmy kilka pozycji bardzo podobnych do XYZ już wyświetlonych.
Jeśli chcesz, możesz powtórzyć wyszukiwanie z uwzględnieniem pominiętych wyników.

Makro można uruchomić na zalogowanym lub nie zalogowanym koncie Google. Makro można rozszerzyć do 100 kroków i na zalogowanym koncie po zmianie liczby wyświetlanych wyników z 10 na 100, zebranie danych będzie jeszcze szybsze, jednak już mniej naturalne. Dlatego zalecam do domowego użytku korzystanie z wersji 10 krokowej. Makro można uruchomić w każdej wersji językowej Google, testowałem na google.pl i języku polskim oraz google.com w języku angielskim, a także na google.de w języku niemieckim. Makro nie pobiera informacji o linkach serwowanych przez AdWords oraz pomija wyniki z map. Dane są zapisywane do domyślnego katalogu iMacros/Downloads

Lista pobieranych typów wyników:

  • klasyczne wyniki
  • wyniki wideo
  • obrazy, grafika

Wsparcie dla:

  • 10 wyników wyszukiwania
  • zalogowany użytkownik
  • niezalogowany użytkownik
  • nowy interfejs (menu) Google
  • stary interfejs Google
  • różne wersje językowe (polski, angielski i niemiecki w testach)

Brak wsparcia dla:

  • wyniki na mapach
  • wiadomości
  • wyniki linków sponsorowanych

Przykład działania naturalnego harvestera z Google zobaczysz oglądając poniższy film.

Poniżej można zapoznać się z kodem do iMacro w obu wersjach. Pierwsza pobiera tylko same adresy URL, natomiast druga pobiera adresy URL, tytuły i opisy. Makra umieszczam tylko do wglądu dla stałych czytelników.

Wcześniejsze makro, które opublikowałem jako pierwsze rozwiązanie w iMacros oczyszczało nienaturalne linki.

The following two tabs change content below.

Artur Strzelecki

Niezależny specjalista SEM, który upowszechnia wiedzę o marketingu w wyszukiwarkach internetowych. W wolnych chwilach doradza jak odnaleźć własną ścieżkę w Google.

8 komentarzy do “White Autobot – naturalny harvester URLi, tytułów i opisów z Google

  1. Jak widać rozwiązanie znajdzie się zawsze. Właśnie przetestowałem i do naturalnego harvestowania nadaje się idealnie!

  2. Fajne narzędzie. Nie miałem wcześniej styczności z iMacros, ale widzę, że makra pisze się dosyć łatwo. Dzięki za udostępnienie.

  3. Dla czytelników newslettera Silesia SEM. Pod artykułem jest informacja, że po zapisaniu się do Newslettera, treść staje się widoczna.

  4. Dzięki za skrypt, przyda się 🙂
    Z proxy to teraz prawdziwa plaga.
    Trzeba zupełnie inaczej podejść do odpytywania Google i samych proxy. Wtedy wydajność wzrasta. Metody powszechnie dostępne już nie są tak efektywne jak kiedyś.

  5. Moja strona dostała po pingwinie 2.1 i znalazła się na 28 stronie dopiero po kliknięciu pokaż pominięte wyniki, ktoś podpowie jak z tego wyjść?

    „Aby pokazać najbardziej trafne wyniki, pominęliśmy kilka pozycji bardzo podobnych do XYZ już wyświetlonych.
    Jeśli chcesz, możesz powtórzyć wyszukiwanie z uwzględnieniem pominiętych wyników.”

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *