Co zrobić z błędami niedostępności treści, kiedy one powstają i jak dzięki nim można poprawić optymalizację całej domeny internetowej? Te i inne pytania niedawno adresowałem w prezentacji „A imię jego czterdzieści i cztery” podczas semKRK#2 w Krakowie.
Transmisja danych z serwera internetowego rozpoczyna się od przesłania nagłówka HTTP. Nagłówek nie jest widoczny w kodzie HTML, a żeby bo podejrzeć trzeba albo zastosować wtyczkę do przeglądarki lub skorzystać z zewnętrznego sniffera. Jeden z wierszy w nagłówku informuje jaki jest kod stanu HTTP.
Kody odpowiedzi HTTP należą do kilku grup:
- 1xx – kody informacyjne,
- 2xx – kody powodzenia,
- 3xx – kody przekierowanie,
- 4xx – kody niedostępności,
- 5xx – kody błędu serwera.
Najczęściej spotykanymi odpowiedziami serwera, gdy jest problem z dostępnością treści to 404 i 410.
Kod odpowiedzi błędu 404
Ten kod odpowiedzi jest w zwracany gdy nastąpiło żądanie udostępnienia nieistniejącej strony, a będąc bardziej dokładnym pod żądanym adresem wyświetlono stronę błędu 404. Ten kod jednoznacznie informuję wyszukiwarkę internetową o braku treści pod tym adresem i nie umieszcza jej w indeksie. Dokumentacja mówi także o tym, że gdy Googlebot odwiedza stronę błędu 404 to jej nie pobiera, ale raczej to nie możliwe, bo skąd by wiedział co otrzyma w odpowiedzi.
Oprócz zwrócenia stanu 404, serwer przesyła też treść strony w HTML, która ma wyświetlić na ekranie błąd 404. Może to być standardowy komunikat „Strony nie znaleziono” lub niestandardowa strona z dodatkowymi informacjami dla użytkownika.
Kod odpowiedzi błędu 410
Kod niedostępności 410 informuje, że klient (przeglądarka, robot) nie powinien więcej odwoływać się do tego zasobu. Kod 410 można ustawić np. korzystając z wtyczki do WordPresa, która zamienia kody 404 na 410 lub skonfigurować taki kod odpowiedzi w pliku .htaccess.
Według dostępnej dokumentacji Google traktuje identycznie strony z kodem odpowiedzi 404 lub 410. Natomiast w jednym z filmów publikowanych na kanale dla Webmasterów, Matt Cutts przyznaje, że strony 404 objęte są kwarantanną czasową i są ponownie odwiedzane przez Googlebota w krótkim czasie.
Pozorny błąd 404
Strony internetowe, które mają źle skonfigurowany błąd 404 nazywane są pozornymi błędami 404. To sytuacja w której zawartość strony jest zupełnie niezwiązana z kodem HTTP. To, iż strona wyświetla informację o braku treści lub braku pliku nie oznacza, że jest to strona 404. Zwrócenie innego kodu niż 404 lub 410 w przypadku nie istniejącej strony może być przyczyną problemów, takich jak:
- Wyszukiwarka jest informowana o rzeczywistej stronie pod tym adresem (pobiera go i indeksuje).
- Źle wykorzystywany jest dostępny budżet na crawl.
- Być może zaczynamy rankować na hasła typu: ta strona nie istnieje.
Co potrafi strona 404?
Dobrze działająca strona 404 ma kilka cech własnych, do których należą:
- Strony 404 nie znajdują się w indeksie Google
- Błędy 404 nie wpływają na ranking w Google
- Google podąża za linkami na stronie 404
- Google zezwala na (http-equiv=”refresh”) na stronie 404
Jak powstają błędy 404?
Błędy, która sprawiają powstanie strony 404 mogą powstać z wielu różnych powodów. Często powstają one przez literówki, czyli błędnie wpisane adresy do przeglądarki internetowej lub złą konfigurację serwera internetowego.
Drugą często występującą przyczyną są błędy powstałe w wyniku ataku hakerskiego na stronę.
Googlebot także odwiedza strony z błędem 404 ponieważ na siłę chciałby odwiedzić adresy, które nie są prawdziwe. Mogę to być linki umieszczone w JavaScript, linki osadzone w treści Flash lub w innych obiektach. Podobnie ma się sprawa z wirtualnymi odsłonami w Google Analytics. Jeśli Googlebot zobaczy taki fragment kodu na stronie, będzie chciał ten adres odwiedzić, mimo tego że on nie istnieje.
Nie tylko błędne linki są powodem powstawania adresów 404. Wystarczy także błędne cytowanie adresu rozpoczynające się od http://, aby Googlebot wziął to za dobrą monetę i odwiedzał strony przez nielinkowane URLe tworząc błędy.
Kiedy zwracać kod stanu 404?
Są sytuacje, w których taka strona się przyda i będzie przynosić lepszy efekt niż umieszczenie tam treści lub przekierowanie adresu, na przykład gdy nie planujemy umieszczać pod takim adresem żadnej treści ani nie przerzucać użytkowników w inne miejsce. Taka potrzeba może powstać, gdy taki adres jest bombardowany wieloma linkami, których jedynym zadaniem, jest podbicie tego adresu na konkretne słowo. Szkodzi to całej domenie i właściciel może chcieć tak właśnie rozwiązać ten problem.
Jak sobie poradzić z 404?
W zakresie SEO
- Wyraźnie poinformuj użytkownika, że nie można znaleźć strony, której szuka.
- Upewnij się, że strona 404 wygląda i działa (włączając nawigację) tak samo, jak reszta witryny.
- Dodaj linki do najpopularniejszych artykułów lub postów, a także do strony głównej witryny.
- Zaoferuj użytkownikom możliwość zgłoszenia uszkodzonego linku.
- Upewnij się, że Twój serwer po otrzymaniu żądania nieistniejącej strony zwraca faktyczny kod stanu HTTP 404.
Źródło: https://support.google.com/webmasters/answer/93641?hl=pl
W zakresie Google AdWords
Korzystaj ze skryptu, który będzie cyklicznie sprawdzał, które z adresów wskazywanych przez reklamy Google AdWords zwracają kod odpowiedzi 404. Przykładowy skrypt można znaleźć pod adresem: https://developers.google.com/adwords/scripts/docs/solutions/link-checker
W zakresie Google Analytics
Utwórz niestandardowy alert, który będzie Cie informował na skrzynkę email o wzroście liczby stron 404 w skali, którą zdefiniujesz w alercie. Więcej pod adresem: http://analytics.blogspot.com/2013/09/monitoring-analyzing-error-pages-404s.html
Analizuj błędy 404 w Clusteric Search Auditor
Narzędzie umieszczone w Clusteric Search Auditor łączy się przez API z Google Search Console i jest w stanie pobrać wszystkie informacje o błędach 404 do jednego wymiaru i zapisać w formacie XLSX. Więcej pod adresem: https://www.silesiasem.pl/5-x-wiecej-danych-z-google-search-console-po-api-dzieki-clusteric-search-auditor
Odzyskaj linki z błędów 404
Jeśli chcesz odzyskać linki z miejsc, gdzie zostały one błędnie utworzone to polecam poradnik, który znajdziesz pod adresem https://blog.majestic.com/pl/general/po-polsku/narzedzia/schyl-sie-podnies-linki-ktore-leza-na-ziemi/ i zobaczysz jak przy użyciu narzędzi: Majestic, Excel, Notatnik++ i Screaming Frog sprawdzić dla dużej strony internetowej, które z linkowanych adresów zwracają błąd 404.
Ten temat przedstawiłem podczas drugiego spotkania semKRK w Krakowie. Prezentacja jest dostępna poniżej.
Zapisz się do newslettera wypełniając pola poniżej. Będziesz na bieżąco ze wszystkimi wydarzeniami związanymi z Silesia SEM i informacjami o marketingu internetowym w sieci. Nie spamujemy.
Zostanie wysłany do Ciebie e-mail potwierdzający: przeczytaj zawarte w nim instrukcje, aby potwierdzić subskrypcję.
Artur Strzelecki
Ostatnie wpisy Artur Strzelecki (zobacz wszystkie)
- Ciemne strony sztucznej inteligencji: zagrożenia automatyzacji w reklamie w wyszukiwarkach - 15 stycznia 2025
- Ukryta praca algorytmów: Jak ludzie (search quality raters) wspierają Google? - 4 stycznia 2025
- Black Friday i Cyber Monday w SEO – promocje - 29 listopada 2024
Dzięki za fajny rzeczowy artykuł, pozwolił na przypomnienie sobie kilku rzeczy.
Ps. Uwielbiam smaczki w stylu tytułu prezentacji
Świetnie i przejrzyście opisane podstawy! Raport Pages w MJ też bywa bardzo przydatny 😉
A jak się ma 301 na 404?