Google codziennie odpowiada na wiele pytań dotyczących zdrowia i informacji medycznych. Ludzie przyzwyczaili się do szukania tego typu informacji. W niniejszym artykule przedstawiono badanie, w ramach którego zbadano widoczność stron internetowych zawierających informacje zdrowotne i medyczne. Celem badania było ustalenie, dlaczego Google zmniejsza widoczność takich stron internetowych i jak można zmierzyć ten spadek. Od sierpnia 2018 r. Google bardziej rygorystycznie ocenia te strony internetowe, ponieważ mogą one potencjalnie wpływać na zdrowie ludzi. Ten rygor powszechnie znany jest pod nazwą Google Medic Update.
Pełne wyniki badania są dostępne w artykule:
Strzelecki, A. (2020). Google Medical Update: Why Is the Search Engine Decreasing Visibility of Health and Medical Information Websites? International Journal of Environmental Research and Public Health, 17(4), 1160.
Wprowadzenie
Badana próba składała się z 21 stron internetowych wybranych z 10 krajów europejskich. Wyniki badań wskazują, że w przypadku sekwencyjnych ujęć czasowych widoczność w wyszukiwarkach zmniejszyła się. Spadek ten nie był zależny od kraju czy języka. Głównym powodem, dla którego Google zmniejsza widoczność takich stron, jest fakt, że nie spełniają one wysokich kryteriów jakościowych.
Niektóre rodzaje stron internetowych mogą potencjalnie wpływać na przyszłe szczęście, zdrowie, stabilność finansową lub bezpieczeństwo ludzi. Google nazywa takie strony „Your Money or Your Life” (YMYL). Google rozpoznaje pięć typów stron YMYL.
- Pierwsze z nich to strony dotyczące zakupów lub transakcji Strony te umożliwiają dokonywanie zakupów, przekazywanie pieniędzy, płacenie rachunków itp. w Internecie (np. w sklepach internetowych i bankowości).
- Drugimi są strony z informacjami finansowymi. Strony te dostarczają porad lub informacji o inwestycjach, podatkach, planowaniu emerytur, zakupach domów, płaceniu za studia, kupowaniu ubezpieczeń, i tak dalej.
- Trzecie są strony informacyjne o tematyce medycznej. Strony te dostarczają porad lub informacji na temat zdrowia, leków, konkretnych chorób lub schorzeń, zdrowia psychicznego, odżywiania, itd.
- Czwarte są informacyjne strony prawne. Strony te dostarczają porad prawnych lub informacji na takie tematy jak rozwód, opieka nad dzieckiem, sporządzanie testamentu, stanie się obywatelem, i tak dalej.
- Po piąte, są to artykuły informacyjne lub publiczne/oficjalne strony informacyjne, które są ważne dla świadomego obywatelstwa. Strony te zawierają informacje o lokalnych/państwowych/krajowych procesach rządowych, polityce, ludziach i prawach, usługach związanych z reagowaniem na katastrofy oraz programach rządowych i usługach socjalnych; jak również wiadomości na ważne tematy, takie jak wydarzenia międzynarodowe, biznes, polityka, nauka i technologia, i tak dalej. Oczywiście, nie wszystkie artykuły prasowe są koniecznie uważane za YMYL.
Dane i metoda
W badaniu wybrałem 10 krajów europejskich na podstawie liczby ludności (wykorzystując tę listę: https://en.wikipedia.org/wiki/List_of_European_countries_by_population), w tym kraje znajdujące się tylko w Europie, a nie w Azji (to wyklucza Rosję, Turcję i Kazachstan) oraz kraje, w których działa Google. W przypadku pierwszych dziewięciu pozycji na liście nie było wątpliwości co do populacji. Na dziesiątej pozycji pięć krajów miało ponad 10 mln mieszkańców, co wystarczało do wyboru jednego z nich. Wybrałem Grecję, ponieważ ta część Europy nie była jeszcze reprezentowana w tym badaniu, a kraje francusko i holenderskojęzyczne były już na liście, dlatego też nie wybrałem Belgii.
Najpierw przeanalizowałem 20 pierwszych wyników na podstawie sekwencji słów kluczowych: „google medical update site:.cc„, gdzie „site” jest operatorem wyszukiwania zawężającym wyniki, w tym przypadku do nazwy domeny w danym kraju, a „.cc” oznacza nazwę domeny w danym kraju. Wybrałem 10 krajów o największej liczbie ludności w Europie: Niemcy, Francja, Wielka Brytania, Włochy, Hiszpania, Ukraina, Polska, Rumunia, Holandia i Grecja.
Termin „Google medical update” odnosi się do zmian w algorytmie Google od 1 sierpnia 2018 roku. Wyniki dla tych sekwencji słów kluczowych pozwoliły na zebranie stron internetowych, na które potencjalnie miało wpływ zmniejszenie widoczności przez wyszukiwarkę Google. Nowy algorytm nagradza strony internetowe o dobrze przygotowanych, dokładnych treściach zdrowotnych i medycznych oraz zmniejsza widoczność tych, których treści są mało wiarygodne .
Przeanalizowałem 20 pierwszych wyników zwróconych przez Google na zapytanie „google medical update site:cc” i zebrałem listę serwisów, która może być przedmiotem dalszych badań. Etapy wyszukiwania i badania wyników zostały powtórzone 10 razy dla każdego kraju, przy użyciu końcówki domeny dla danego kraju. Tabela 1 przedstawia listę znalezionych i wybranych stron internetowych do dalszego badania.
Tabela 1. Lista zebranych stron internetowych z 10 krajów europejskich pod Google medical update.
Kraj | Kod | Strona | Język | Index |
Niemcy | de | bessergesundleben.de | niemiecki | 9260 |
Niemcy | de | gesundheitsberater-berlin.de | niemiecki | 7730 |
Francja | fr | docteurclic.com | francuski | 8310 |
Francja | fr | amelioretasante.com | francuski | 11,000 |
Wielka Brytania | uk | bmihealthcare.co.uk | angielski | 15,500 |
Wielka Brytania | uk | theprivateclinic.co.uk | angielski | 2790 |
Włochy | it | pazienti.it | włoski | 85,400 |
Włochy | it | farmacoecura.it | włoski | 5400 |
Hiszpania | es | reproduccionasistida.org | hiszpański | 29,400 |
Hiszpania | es | lavidalucida.com | hiszpański | 7130 |
Ukraina | ua | doc.ua | rosyjski | 84,200 |
Ukraina | ua | likarni.com | rosyjski | 89,300 |
Polska | pl | poradnikzdrowie.pl | polski | 127,000 |
Polska | pl | portal.abczdrowie.pl1 | polski | 180,000 |
Polska | pl | wylecz.to | polski | 23,500 |
Rumunia | ro | csid.ro | rumuński | 67,300 |
Rumunia | ro | sfatulmedicului.ro | rumuński | 461,000 |
Holandia | nl | ziektevrijleven.nl | holenderski | 271 |
Holandia | nl | boerenmedical.nl | holenderski | 1820 |
Grecja | gr | healthyliving.gr | grecki | 28,600 |
Grecja | gr | medlabgr.blogspot.com1 | grecki | 13,300 |
1 Index zmierzony dla subdomeny.
W Tabeli 1 kod odnosi się do kodu kraju użytego w zapytaniu. Prawie wszystkie zebrane strony internetowe używają nazw domen krajowych, jednak niektóre strony używają ogólnych nazw domen, takich jak „.com” lub „.org” lub innych, takich jak „.to”, które należą do Tonga, ale w języku polskim oznacza „to”. Większość stron internetowych używa oficjalnego języka, ale strony ukraińskie są w języku rosyjskim. Wielkość indeksu to liczba wyników wyświetlanych przez wyszukiwarkę Google dla operatora wyszukiwania „site:domena „. Google wyświetla maksymalnie 1000 wyników, ale liczba ta jest wyświetlana poniżej zapytania i powyżej pierwszych wyników. Jest to wskaźnik wielkości strony internetowej i szacunkowa liczba stron, które należą do jednej witryny. Wielkość wskaźnika została pobrana 19 grudnia 2019 roku.
W tym badaniu dane nie pochodziły z Google, ale z usługi zewnętrznej. Dane dotyczące widoczności zostały pozyskane za pomocą komercyjnego narzędzia internetowego Ahrefs. Narzędzie to specjalizuje się w wyszukiwaniu i zapisywaniu danych dotyczących widoczności strony w wyszukiwarkach internetowych. Ahrefs, oprócz zachowania podstawowej widoczności, importuje dodatkowe dane i opracowuje własne wskaźniki widoczności. Dane te zostały wykorzystane do porównania widoczności stron internetowych w wyszukiwarkach w zakresie informacji zdrowotnych i medycznych przed i po wprowadzeniu nowej aktualizacji Google.
Wyniki
Pierwszym etapem badania było zebranie danych na temat widoczności stron internetowych zawierających informacje zdrowotne i medyczne. Korzystając z Ahrefs, pobrałem cztery snapshoty danych. Każdy snapshot ma 5- lub 6-miesięczny przedział czasowy. Zebrane dane zostały przetworzone za pomocą opracowanej przez Ahrefs metryki widoczności, zbudowanej na podstawie liczby słów kluczowych i pozycji oraz szacunkowego współczynnika kliknięć. Zrzuty danych zostały wykonane w następujących datach:
- Snapshot S1: 30 lipca 2018 r.
- Snapshot S2: 1 stycznia 2019 r.
- Snapshot S3: 1 czerwca 2019 r.
- Snapshot S4: 30 listopada 2019 r.
Metryka widoczności szacuje całkowity miesięczny ruch na stronie docelowej na podstawie organicznych wyników wyszukiwania. Jest ona obliczana jako suma ruchu ze wszystkich słów kluczowych, dla których strona docelowa znajduje się na stronie z wynikami wyszukiwarki. Uzyskane dane przedstawione są w tabeli 2.
Uzyskane dane mają bardzo duży zakres, który w dużej mierze zależy od wielkości indeksu w wyszukiwarce Google. Strony z większą ilością stron indeksowanych mają większe szanse na to, że będą widoczne w wynikach wyszukiwania, ponieważ można wyświetlać więcej różnych stron. Widoczność w dużym stopniu zależy od słów kluczowych, co powoduje, że strony są wyświetlane w wynikach wyszukiwania. Im więcej stron zindeksowanych z jednej witryny, tym więcej słów kluczowych spowoduje wyświetlenie strony w wynikach wyszukiwarki.
Tabela 2. Widoczność 21 stron, które ucierpiały Google medical update.
Strona | S1 | S2 | S3 | S4 |
bessergesundleben.de | 399,758 | 140,437 | 139,965 | 14,760 |
gesundheitsberater-berlin.de | 45,200 | 21,670 | 20,603 | 28,465 |
docteurclic.com | 712,711 | 711,744 | 154,889 | 568,476 |
amelioretasante.com | 1,215,983 | 17,454 | 231,230 | 84,006 |
bmihealthcare.co.uk | 93,293 | 62,312 | 65,098 | 66,319 |
theprivateclinic.co.uk | 31,597 | 10,882 | 24,845 | 9,584 |
pazienti.it | 1,515,014 | 1,691,641 | 867,826 | 694,602 |
farmacoecura.it | 3,008,684 | 3,608,904 | 2,434,143 | 2,967,836 |
reproduccionasistida.org | 643,038 | 55,762 | 62,037 | 12,390 |
lavidalucida.com | 383,920 | 40,333 | 74,143 | 6,100 |
doc.ua | 266,285 | 80,954 | 182,940 | 187,664 |
likarni.com | 143,864 | 143,138 | 87,398 | 125,360 |
poradnikzdrowie.pl | 12,592,643 | 13,130,013 | 4,821,490 | 9,730,085 |
portal.abczdrowie.pl1 | 6,110,596 | 3,018,926 | 3,588,311 | 1,489,164 |
wylecz.to | 1,990,617 | 2,401,242 | 1,337,807 | 1,146,077 |
csid.ro | 1,894,383 | 3,205,719 | 438,859 | 1,655,861 |
sfatulmedicului.ro | 1,709,594 | 1,165,206 | 516,015 | 954,856 |
ziektevrijleven.nl | 5669 | 4605 | 2960 | 2219 |
boerenmedical.nl | 7718 | 7620 | 9544 | 6229 |
healthyliving.gr | 183,773 | 371,273 | 134,460 | 162,141 |
medlabgr.blogspot.com1 | 157,154 | 110,688 | 72,118 | 85,238 |
1 Widoczność mierzona dla subdomeny.
W drugim etapie badania dane zostały znormalizowane w podobny sposób, jak dane prezentowane w Google Trends. W GT najpopularniejsze słowo kluczowe jest ustawione na wynik 100 i jest wykorzystywane jako wskaźnik. Inne słowa kluczowe są odniesione do tego wskaźnika i mają wynik od 1 do 100. W tym zestawie danych wszystkie wyniki dla snapshot S1 zostały znormalizowane do 100 i zostały użyte jako początkowy wskaźnik widoczności. Następnie wyniki z trzech kolejnych snapshotów zostały odniesione do wskaźnika początkowego. Wyniki z czterech ujęć przedstawiono na rysunku.
Rysunek jest boxplotem ilustrującym, że widoczność zmniejszyła się w kolejnych ujęciach czasowych. Snapshot S1 został wykonany dwa dni przed ogłoszeniem przez Google zmian w jego algorytmie dla serwisów z informacjami zdrowotnymi i medycznymi. Wartość dla każdej witryny została znormalizowana do 100, dlatego wszystkie statystyki opisowe w tabeli 3 dla snapshota S1 wynoszą 100. Dane z drugiego zrzutu pokazują, że zaobserwowano zmiany w algorytmie Google. Na zrzucie S2 pięć witryn miało zwiększoną widoczność, jedna taką samą, a 15 witryn miało zmniejszoną widoczność w wynikach wyszukiwarki Google. Statystyki opisowe dla snapshot S2 pokazują medianę 70 i średnią 77,57, podczas gdy poprzednio obie wynosiły 100.
Na zrzucie S3 widoczność jest nadal widoczna. Tylko jedna strona miała większą widoczność w stosunku do daty rozpoczęcia. Pozostałe mierzone witryny charakteryzowały się dalszym spadkiem widoczności w wynikach wyszukiwarki Google. Statystyki opisowe dla snapshot S3 pokazują medianę 52 i średnią 51,43. Na zrzucie S4 widoczność utrzymywała się na tym samym poziomie, co w przypadku poprzedniego znacznika czasu. Część stron ma lepszą widoczność niż w S3, ale zbiór danych nadal miał mniejszą widoczność w porównaniu z datą początkową.
Tabela 3. Statystyki boxplot dla rysunku.
S11 | S2 | S3 | S4 | |
Górny wąs | 100 | 202 | 124 | 99 |
Trzeci kwartyl | 100 | 104 | 69 | 80 |
Mediana | 100 | 70 | 52 | 58 |
Pierwszy kwartyl | 100 | 35 | 30 | 30 |
Dolny wąs | 100 | 1 | 10 | 2 |
Liczba danych | 21 | 21 | 21 | 21 |
Średnia | 100 | 77.57 | 51.43 | 53.57 |
1 Snapshot S1 jest znormalizowany do 100.
Tabela 3 przedstawia opisową statystykę boxplot dla wszystkich migawek. Pokazuje ona, że widoczność w obserwowanych okresach zmieniła się, a w tym zestawie danych widoczność zmniejszyła się na zdjęciach S2 i S3. Ostatnie ujęcie, S4, jest bardzo podobne do poprzedniego.
Podsumowanie
Zgodnie z wynikami tego opracowania, badane strony internetowe mają mniejszą widoczność w wyszukiwarce Google. Ponieważ dokładne kryteria stosowane przez Google nie są powszechnie znane (np. aktualny algorytm rankingu jest uważany za poufny), przyjmuje się, że główną przyczyną niższej widoczności są treści niskiej jakości. Strony internetowe o niskiej jakości mogły być przeznaczone do korzystnego celu. Nie osiągają one jednak dobrze swojego celu, ponieważ brakuje im istotnego wymiaru, np. niezadowalającej ilości głównych treści, lub ponieważ twórcy głównej treści brakuje wiedzy na temat przeznaczenia strony.
Źrodło: Strzelecki, A. (2020). Google Medical Update: Why Is the Search Engine Decreasing Visibility of Health and Medical Information Websites? International Journal of Environmental Research and Public Health, 17(4), 1160. PDF.