Obecnie wiele przedsiębiorstw technologicznych przetwarza ogromne ilości danych, które pochodzą od ich użytkowników. Można wymienić wyszukiwarki internetowe, sieci społecznościowe, firmy produkujące oprogramowanie, producenci urządzeń komputerowych i mobilnych czy producenci usług dostępnych w internecie. Te przedsiębiorstwa posiadają dane na temat swoich użytkowników. W zależności od tego, jakiego rodzaju świadczą usługę, to mogą posiadać dane o samym użytkowniku lub o jego aktywności w ramach korzystania z usług oferowanych przez przedsiębiorstwo.
Wiele z tych dużych firm technologicznych, jak Google; Facebook; Microsoft; Twitter; Apple; LinkedIn; Snap; Pinterest; Dropbox; Cloudflare; czy Oath publikuje raporty przejrzystości, w których informują, czy i jakie działania podjęli względem danych które przetwarzają oraz z czyjej inicjatywy te działania zostały podjęte. Dane publikowane w raportach przejrzystości mogą pochodzić na wniosek organów rządowych różnych państw, organizacji pozarządowych, przedsiębiorstw i osób prywatnych.
Organy rządowe zazwyczaj przesyłają żądania do firm technologicznych o udostępnienie danych nt. wskazanych użytkowników korzystających z usług firmy lub żądają usunięcia publicznie dostępnych danych. Dane zazwyczaj publikowane są w okresach 6 miesięcznych i zawierają liczbę przesłanych wniosków pochodzących z danego kraju oraz typ żądania, czy to żądania udostępnienia danych czy żądania usunięcia treści. Instytucje państwowe, sądy i strony w sprawach cywilnych często proszą firmy telekomunikacyjne i technologiczne o dane dotyczące użytkowników.
Organy administracji państwowej mogą poprosić firmy technologiczne o ograniczenie dostępu do publikowanych treści, które ich zdaniem naruszają ustawodawstwo krajowe. Tego rodzaju wnioski są analizowane w celu określenia, czy dane treści faktycznie naruszają przepisy prawa krajowego. W przypadku stwierdzenia naruszenia blokowany jest dostęp do takich treści w danym kraju lub na określonym terytorium. Niektóre wnioski są podyktowane zarzutami o zniesławienie, inne domniemaniem, że treści naruszają lokalne przepisy zakazujące szerzenia nienawiści lub publikowania treści dla dorosłych. Prawo w tych kwestiach różni się w poszczególnych krajach. Firmy w raportach ujawniają informacje o liczbie i rodzajach żądań, jakie otrzymują od organizacji państwowych. Publikują te informacje w celu ukazania wpływu działań rządowych na użytkowników oraz na swobodny przepływ informacji w internecie.
Organizacje pozarządowe, przedsiębiorstwa i osoby prywatne zazwyczaj przesyłają żądania usunięcia treści publicznie dostępnych z powodu naruszenia praw autorskich. Typy treści jakie mogą podlegać usunięciu zależą zazwyczaj od firmy technologicznej i tego w jaki sposób ona udostępnia treści. W wyszukiwarce usunięciu mogą podlegać wyniki wyszukiwania zbudowane na podstawie stron internetowych. W sieciach społecznościowych będą to indywidualne posty, zdjęcia, filmy, reklamy, profile, konta, strony, grupy i wydarzenia. W usługach dyskowych mogą to być przechowywane dokumenty tekstowe, pliki graficzne, audio i video. Zgłoszenie przesłane przez posiadacza praw autorskich jest zazwyczaj przetwarzane przez zespół odpowiedzialny za własność intelektualną i prawa autorskie. Jeżeli zespół uzna, że zgłoszenie jest kompletne i prawidłowe, zgłoszona treść jest usuwana.
Osoby prywatne zamieszkujące na terenie Unii Europejskiej i Europejskiego Obszaru Gospodarczego, mogą poprosić o usunięcie danych z wyszukiwarki internetowej w celu ochrony danych osobowych. W maju 2014 r. Trybunał Sprawiedliwości Unii Europejskiej rozpatrując sprawę (C-131/12 z 13 maja 2014 r.) hiszpańskiego obywatela Mario Costeja González przeciwko Google, uznał, że każda osoba prywatna ma prawo wystąpienia do operatorów wyszukiwarek takich jak Google lub Bing z żądaniem o usunięcie wyników wyszukiwania zawierających imię i nazwisko takiej osoby.
Operator wyszukiwarki musi się zastosować do takiego żądania, jeśli wskazane w nim linki prowadzą do informacji, które są nieodpowiednie, przesadzone, nieadekwatne lub nieistotne, biorąc pod uwagę interes publiczny, w tym czynniki takie jak rola tej osoby w życiu publicznym. Strony są usuwane tylko z wyników będących odpowiedzią na zapytania zawierające imię i nazwisko danej osoby. Adresy URL usuwane są z wszystkich europejskich wyników wyszukiwania. Dotyczy to wyszukiwań prowadzonych na terytorium Europejskiego Obszaru Gospodarczego. Za pomocą geolokacji ograniczony jest dostęp do adresów URL z kraju osoby żądającej ich usunięcia. Jeżeli do wyszukiwarki wprowadzone jest zapytanie w postaci imienia i nazwiska, to pod listą z rezultatami wyświetlany jest komunikat “Niektóre wyniki mogły zostać usunięte na mocy europejskich przepisów o ochronie danych”.
Firmy technologiczne zazwyczaj udostępniają formularze, za pomocą których przyjmują zgłoszenia dotyczące usunięcia treści. Formularze przesyłane są przez instytucje państwowe, właścicieli praw autorskich oraz osoby prywatne chcące skorzystać z prawa do bycia zapomnianym. W formularzu zazwyczaj należy podać dane zgłaszającego, oświadczyć że jest jest się posiadaczem praw do treści lub osobą, której dane są przetwarzane oraz wskazać adresy, skąd treści należy usunąć lub przestać je wyświetlać w wynikach wyszukiwania. Żądanie usunięcia treści na podstawie naruszenia praw autorskich wystarczy potwierdzić tylko przesłanym formularzem. Natomiast aby skorzystać z prawa do bycia zapomnianym należy potwierdzić swoje dane za pomocą dokumentu tożsamości.
Wyszukiwarki regularnie otrzymują żądania usunięcia treści z wyników wyszukiwania, które mogą naruszać prawa autorskie. Publikowane raporty zawierają informacje o żądaniach usunięcia linków z wyników wyszukiwania oraz mają ułatwić wszystkim użytkownikom zrozumienie, jak prawa autorskie wpływają na dostępność treści w wyszukiwarkach internetowych.
Google i Bing
Wyszukiwarka Bing publikuje raporty ogólne, podając jedynie 4 wartości w zakresie usuwania wyników wyszukiwania na podstawie zgłoszenia naruszenia praw autorskich. Są to liczba przesłanych zgłoszeń usunięcia wyników wyszukiwania, liczba zgłoszonych adresów URL, liczba usuniętych adresów URL oraz liczba pozostawionych adresów URL. Wyszukiwarka Google publikuje pełne informacje o wszystkich przesłanych zgłoszeniach i żądaniach usunięcia adresów URL z wyników wyszukiwania oraz podjętych działaniach.
Wyszukiwarka Google oparła mechanizm usuwania wyników wyszukiwania o amerykańską ustawę Digital Millenium Copyright Act. DMCA to ustawa z zakresu prawa autorskiego, obowiązująca od 1998 w USA zabraniająca tworzenia i rozpowszechniania technologii, przy użyciu których mogą być naruszone cyfrowe mechanizmy ograniczeń kopiowania.
Zgodnie z regulaminem wyszukiwarki Google, odpowiada ona na jasno sformułowane, konkretne zawiadomienia o przypuszczalnym naruszeniu praw autorskich. Forma zgłoszenia określona w formularzu internetowym jest zgodna z ustawą DMCA i zapewnia mechanizm dla właścicieli praw autorskich z całego świata. Aby rozpocząć proces usuwania treści z wyników wyszukiwania, właściciel praw autorskich, który uważa, że adres URL prowadzi do treści naruszającej prawa autorskie, wysyła żądanie usunięcia takiego materiału. Po otrzymaniu prawidłowego żądania usunięcia treści, zespół reprezentujący wyszukiwarkę dokładnie sprawdza, czy jest ono kompletne i spełnia wszystkie wymagania. Gdy żądanie jest kompletne i uzasadnione, usuwany jest adres URL z wyników wyszukiwania. Google przyjmuje również zgłoszenia od zaufanych partnerów, których zaprosił do programu Trusted Copyright Removal Program. Obecnie tym programem objętych jest 178 partnerów i mogą oni przesyłać duże wolumeny zgłaszanych adresów URL.
Podobnie wyszukiwarka Bing w oparciu o zasady zawarte w ustawie DMCA przyjmuje zgłoszenia dotyczące naruszeń praw autorskich w wynikach wyszukiwania Bing. Bing przyjmuje zgłoszenia za pomocą trzech kanałów komunikacji, e-mail, formularz i dla wybranych organizacji zgłaszających za pomocą API. Ostatni kanał przewidziany jest dla partnerów zgłaszających wiele adresów URL.
Lumen
Treść wszystkich zgłoszeń przesłanych do wyszukiwarki Google i Bing jest dostępna w bazie danych Lumen. Baza danych Lumen to projekt instytutu Berkman Klein Center for Internet & Society na Uniwersytecie Harvarda. Lumen współpracuje z wieloma różnymi partnerami w dziedzinie badań międzynarodowych oraz informuje o globalnej sytuacji w kwestii żądań usunięcia treści z internetu.
Lumen publikuje i analizuje różne rodzaje żądań usunięcia materiałów z internetu, w tym żądania oparte na roszczeniach dotyczących praw autorskich. Informacje o takich żądaniach Lumen otrzymuje od firm, jak również od osób prywatnych. Jeśli jest to dozwolone na mocy prawa, wyszukiwarka Google wyświetla w wynikach wyszukiwania linki do żądań opublikowanych przez Lumen zamiast usuniętej treści. Przed zmianą nazwy na Lumen, baza danych udostępniająca zgłoszenia nosiła nazwę Chilling Effects Clearinghouse.
Celem artykułu jest znalezienie odpowiedzi na następujące pytania.
- Jak wiele wysłano zgłoszeń do wyszukiwarek internetowych i ile usunięto adresów URL?
- Jaki jest udział zgłoszeń żądania usunięcia treści na podstawie naruszenia praw autorskich w wyszukiwarce Google dotyczących polskich stron internetowych?
- Które polskie domeny internetowe są najczęściej wskazywane jako naruszające prawa autorskie oraz jak często są usuwane adresy URL pochodzące z tych domen?
- Jaką wiedzę można odkryć analizując dokładne dane o żądaniach usunięcie treści w różnych przedziałach czasowych?
- Jak często i czyje prawa są naruszane?
Dane
Zbiór danych dla wyszukiwarki Bing został pobrany ze strony na której Bing publikuje swoje raporty przejrzystości. Opublikowany zakres danych w obszarze usuwania treści z wyników wyszukiwania z powodu naruszenia prawa autorskiego jest niewielki, w porównaniu z zakresem opublikowanym przez Google. Dane pochodzące z Bing pozwalają tylko na ogólnym poziomie porównać podstawowe wartości z danymi pochodzącymi z Google. Bing udostępnia 5 plików z rozszerzeniem xlsx, które zawierają podstawowe informacje z okresów 6 miesięcy.
Obecnie dostępne dane są dla okresu od 1 stycznia 2015 roku do 30 czerwca 2017 roku. W pliku xlsx zawarto informacje o żądaniach usunięcia treści w 4 obszarach. Są to:
- requests from governments such as claims of violations of local laws,
- requests from European and Russian residents to filter search results about them for queries that include their names,
- requests from copyright owners claiming infringement of protected works,
- requests from individuals to remove nonconsensual pornography, which is the sharing of nude or sexually explicit photos or videos online without consent.
Zbiór danych dla wyszukiwarki Google został pobrany 14 kwietnia 2018 roku ze strony na której Google publikuje swoje raporty przejrzystości. Skompresowane archiwum ma 3 GB objętości. Po rozpakowaniu dane znajdujące się w 3 plikach requests.csv, domains.csv oraz urls-no-action-taken.csv zajmują 20 GB. Dane są w postaci tekstowej. Plik requests.csv zawiera 5941076 wierszy z danymi, plik domains.csv zawiera 206181694 wierszy z danymi, a plik urls-no-action-taken.csv zawiera 123437248 wierszy z danymi. Pola w plikach csv oddzielone są znakiem przecinka, a niektóre wartości tekstowe, zawierające w łańcuchu znaków przecinek są osadzone w cudzysłowiu. Oprócz trzech pików z danymi w archiwum znajduje się także opis zawartości tych plików.
Dane z plików domains.csv oraz requests.cvs zostały załadowanie do bazy danych MySQL. Przygotowana instancja bazodanowa została oparta o MySQL Community Server 5.7, MySQL Workbench do wprowadzania kwerend SQL i odczytywania wyników a komputer, na którym baza danych została zainstalowana to MacBook Pro z systemem operacyjnym MacOS High Sierra 10.13.4, pamięcią RAM 8 GB 1867 MHz DDR3, dyskiem twardym 120GB SSD, oraz procesorem 2,7 GHz Intel Core i5.
W bazie danych zostały przygotowane struktury tabel, które odzwierciedlały zapisane dane w plikach csv. Następnie te struktury zostały wypełnione danymi za pomocą polecenia load data local infile uwzględniając, że pola oddzielone są przecinkiem, a niektóre wartości tekstowe są osadzone w cudzysłowach. W tabeli requests ostatni znacznik czasowy przesłanego zgłoszenia to był dzień 13 kwietnia 2018, 8 godzina, 50 minut i 42 sekundy.
W pierwszym etapie obliczeń wszystkie dane z pliku domains.csv zostały umieszczone w tabeli domains. W drugim etapie obliczeń, tabela została załadowana tylko danymi, które dotyczyły domen .PL. To domeny oznaczone jako domeny krajowe w Polsce. Ekstrakcja tylko wierszy zawierających domeny .PL została wykonana za pomocą terminala i polecenia “grep -E „(\.pl,)” domains.csv > domainspl.csv”. Polecenie grep w tym przypadku służy do wyszukiwania w tekście i wyodrębniania linii zawierających ciąg znaków pasujący do podanego wyrażenia regularnego.
Grep znajduje wszystkie ciągi, które zawierają fragment “.pl,”, który jednoznacznie identyfikuje wiersze zawierające dane dla domen oznaczonych jako polskie domeny krajowe. Dane w drugim etapie obliczeń prowadzonych w tabeli domains zostały ograniczone tylko do domen .PL aby przyspieszyć wykonywanie obliczeń. Wszystkie dane z pliku requests.cvs zostały załadowane do tabeli requests i na ich podstawie dokonano badań i obliczeń. W obu tabelach kluczowe kolumny otrzymały indeksy tekstowe, aby przyspieszyć wykonywania obliczeń. W tabeli domains indeksy zostały założone dla kolumn zawierających request id oraz normalized domain. W tabeli requests indeksy zostały założone dla kolumn ID, data, ID number of a unique copyright owner oraz the ID number of the unique reporting organization.
Wyniki
Podstawowe informacje o danych pozyskanych z raportu przejrzystości wyszukiwarki Google zostały umieszczone w Tabeli 1. W pierwszej kolumnie dane dotyczą wszystkich rekordów, w drugiej kolumnie dane dotyczą tylko domen .PL
Tabela 1. Summary of Web Search Copyright Removals in Google
Overall | For .PL | |
Number of notices | 5 940 364 | 763 119 |
Number of domains | 1 694 890 | 13 035 |
Number of URLs | 3 278 140 393 | 38 598 269 |
Copyright owners | 136 117 | 12 038 |
Reporting organization | 121 414 | 4 021 |
URLs removed | 3 079 881 303 | 36 193 566 |
URLs no action | 298 259 067 | 2 404 703 |
W Tabeli 1. number of notices to łączna liczba wszystkich zgłoszeń przesłanych do wyszukiwarki z żądaniem usunięcia treści z powodu naruszenia praw autorskich. Data najwcześniejszego zgłoszenia to 5 kwietnia 2011 roku oraz zgłoszenie ma również najniższy rekord ID w kolekcji danych. Number of domains to łączna liczba niepowtarzalnych domen najwyższego poziomu (np. google.com), zawierających adresy URL treści, których usunięcia zażądano. Number of URLs to łączna liczba wszystkich adresów URL, których usunięcia zażądano. Copyright owners to łączna liczba odrębnych osób lub podmiotów, które twierdzą, że mają wyłączne prawo do treści określonej w żądaniach usunięcia treści z powodu naruszenia praw autorskich. Reporting organization to łączna liczba odrębnych podmiotów lub organizacji występujących do Google w imieniu właścicieli praw autorskich o usunięcie wyników wyszukiwania z powodu roszczeń dotyczących praw autorskich. URLs removed to liczba adresów URL, który zostały usunięte z wyników wyszukiwania na podstawie przesłanego żądania. URLs no action to liczba adresów, które nie zostały usunięte z wyników wyszukiwania.
Analiza zgłoszeń zawierających żądania usunięcia treści z domen .PL obejmuje tylko treści umieszczane w polskich stronach internetowych. Należy jednak pamiętać o takiej możliwości, że strony mogą również być prowadzone w języku polskim, jednak nie muszą posiadać końcówki domeny .PL. W takim przypadku zazwyczaj są to domeny funkcjonalne typu .com lub .net.
Analizując tylko wycinek danych oparty o domeny .PL zilustrowany w Tabeli 1. otrzymuje się następujące wyniki. Z kolekcji danych istotnie wyróżniają się dwie charakterystyki. Pierwsza charakterystyka to 12,8% zgłoszeń zawiera w żądaniu usunięcie treści z domen typu .PL. Oznacza to, że każde ósme zgłoszenie, dotyczy naruszenia prawa autorskiego w domenie typu .PL. Druga charakterystyka to 8,8% właścicieli praw autorskich zgłaszało żądania usunięcia treści z domen typu .PL.
Zgłoszenia usunięcia adresów w domenie .PL z wyników wyszukiwania dokonało 3,3% z ogólnej liczby organizacji reprezentujących posiadaczy praw autorskich. Pozostałe wyliczone wartości pokazują, że liczba zgłoszonych domen 13035 stanowi 0,7% wszystkich zgłoszonych domen, liczba zgłoszonych adresów URL do usunięcia to 1,1% wszystkich zgłoszonych adresów URL. Jeśli chodzi o podjęte działania to 1,1% z adresów URL usuniętych z wyników wyszukiwania znajdowało się w domenie .PL, gdzie 0,8% adresów URL nie usuniętych z wyników wyszukiwania było w domenie .PL.
Tabela 2. Liczba zgłoszeń do Google według lat
Rok | Liczba zgłoszeń | Zgłoszenia .PL |
2011 | 35 487 | 3 071 |
2012 | 427 979 | 35 905 |
2013 | 480 012 | 60 775 |
2014 | 831 080 | 108 908 |
2015 | 1 190 486 | 139 706 |
2016 | 1 251 827 | 179 170 |
2017 | 1 298 834 | 189 391 |
2018 – do 13 kwietnia | 424 659 | 46 193 |
Analizując dane z Tabeli 2. o wszystkich zgłoszeniach w kolejnych szeregach czasowych, przede wszystkich można zaobserwować, że w każdym okresie wystąpił wzrost liczby przesyłanych zgłoszeń z żądaniami usunięcia treści. W 2011 roku dane o usunięciach treści dopiero zaczęły być publikowane i jest to rok w którym liczba zgłoszeń jest najmniejsza. W całym 2012 roku zgłoszeń jest 427 979 co daje 1170 zgłoszeń usunięcia treści przesłanych średnio każdego dnia.
Traktując tę wartość jako wyjściową, to w 2013 roku utrzymała się ona na zbliżonym poziomie, bo było 1315 zgłoszeń średnio przesyłanych każdego dnia i dało to wzrost o 12,4%. Natomiast w dwóch kolejnych latach można zaobserwować równomierny wzrost liczby zgłoszeń. W 2014 roku przesłano średnio każdego dnia 2277 zgłoszeń co jest wzrostem o 73,1%, a w 2015 roku było już 3262 zgłoszeń przesyłach średnio każdego dnia, co dało kolejny wzrost o 43,2%. W kolejnych latach liczba zgłoszeń wzrasta wolniej niż dotychczas, bo osiągnęła wartości 3420 w roku 2016 i było wzrost tylko o 4,6% oraz 3558 zgłoszeń średnio przesyłanych każdego dnia w 2017 roku, co dało wzrost o 4,0%. W 2018 roku, do dnia w którym pobrano dane, średnio przesyłano już 4122 zgłoszenia dziennie, co ilustruje większy wzrost niż w ciągu poprzednich dwóch lat bo o 13,7%.
Analizując tylko wycinek danych oparty o domeny .PL zilustrowany w Tabeli 2. otrzymuje się następujące wyniki. W 2011 roku, gdy rozpoczęto raportowanie liczby przesyłanych zgłoszeń było ich niewiele. Natomiast w kolejnych latach również obserwowany jest wzrost liczby zgłoszeń, jednak nie jest on dokładnie skorelowany ze wzrostem całkowitej liczby zgłoszeń.
Podczas gdy w latach 2012 i 2013 liczba wszystkich zgłoszeń była do siebie zbliżona, to zgłoszenia dla domeny .PL wzrosły o prawie 70% rok do roku. W 2014 liczba zgłoszeń wzrosła o 44,2%, czyli w tym przypadku wzrost był znacznie mniejszy niż globalny dla wszystkich zgłoszeń. W 2015 nadal wzrost dla domen .PL był mniejszy, bo wyniósł tylko 28,2%. Jednak w roku 2016 trend wyraźnie się odwrócił i wzrost był znacznie większy niż dla wszystkich zgłoszeń, bo wyniósł również 28,2%. W roku 2017 w domenie .PL wzrost wyniósł 5,7% i był podobny do wzrostu globalnego.
Porównując ze sobą jak kształtowały zmiany całkowite ze zmianą tylko w obszarze jednej domeny, można wyciągnąć wnioski, że naruszenia praw autorskich w poszczególnych krajach różnią się od siebie częstotliwością i intensywnością. Z przeanalizowanego wycinka danych wynika, że każdego roku zgłoszonych naruszeń jest coraz więcej, lecz w różnym tempie one rosną w różnych krajach.
Rysunek 1. Liczba zgłoszeń w latach 2012 – 2018
Wizualizacja na wykresie 1. informacji o przesłanych zgłoszeniach pokazuje dużą nieregularność w przesyłaniu zgłoszeń. Jak wynika z Tabeli 2., każdego roku przesyłane jest coraz więcej zgłoszeń, natomiast wzrost liczby zgłoszeń nie jest liniowy. Wykres 1. na osi poziomej przedstawia datę przesłanych zgłoszeń, natomiast oś pionowa pokazuje ile zgłoszeń tego dnia zostało przesłanych. Wykres zawiera także linię trendu, która jest obliczona jako średnia z 30 wartości. Wynika z tego, że częstotliwość korzystania z usługi jest bardzo zróżnicowana.
Poza stałym wzrostem każdego roku, nie można wskazać regularności lub trendu, który byłby taki sam dla kolejnych lat. Z wykresu widać, że każdego roku rozkład liczby przesyłanych zgłoszeń jest inny. Pierwsza część w 2012 roku zawiera średnio najmniej przesyłanych zgłoszeń, podczas gdy druga część roku zawiera ich znacznie więcej niż w średnia obserwowana w następnym roku. Od 2015 roku można zaobserwować, że linia trendu nieregularnie wzrasta i opada, pokazując że są okresy gdzie jest przesyłanych znacznie więcej zgłoszeń, niż w innych okresach.
Tabela 3. Liczba usunięć i odrzuceń wszystkich adresów URL w Google
Rok | URLs of removed | URLs of rejected | % of removed | % of rejected |
2011 | 3 197 883 | 269 487 | 92,2% | 7,8% |
2012 | 54 334 134 | 7 012 798 | 88,5% | 11,5% |
2013 | 221 954 446 | 21 436 889 | 91,1% | 8,9% |
2014 | 321 713 821 | 25 634 003 | 92,6% | 7,4% |
2015 | 519 974 266 | 41 054 927 | 92,6% | 7,4% |
2016 | 914 794 045 | 103 389 231 | 89,8% | 10,2% |
2017 | 827 276 921 | 89 450 051 | 90,2% | 9,8% |
2018 – do 13 kwietnia | 216 635 787 | 10 011 681 | 95,6% | 4,6% |
W Tabeli 3. przedstawione zostały wyniki porównujące ze sobą liczbę usuniętych adresów URL z liczbą pozostawionych adresów URL w indeksie wyszukiwarki. W całym badanym okresie liczba usuwanych adresów wyniosła 91,1% z liczby przesłanych adresów do usunięcia. Można zauważyć że na przestrzeni całego badanego okresu udział adresów URL usuwanych z indeksu Google zmieniał się. Wzrastał lub malał porównując ze sobą kolejne lata.
Z Tabeli 3. wynika również, że w 2016 roku zgłoszono do tej pory największą liczbę, bo ponad 1 miliard adresów URL do usunięcia. Pokazuje to także nakład pracy jaki wykonuje zespół reprezentujący wyszukiwarki i zatwierdzający bądź odrzucający zgłoszenia o usunięcie adresów z wyników wyszukiwania. W 2016 roku odrzucono też jak do tej pory największą liczbę zgłoszonych adresów, to jest ponad 103 miliony URLi.
Jak w Tabeli 2. zostało podkreślone, liczba zgłoszeń rośnie każdego roku, to przypadku liczby przesyłanych do rozpatrzenia adresów URL, jest ich coraz mniej. Wynika z tego, że kolejne zgłoszenia zawierają coraz mniej wyników do usunięcia. Jeśli trend spadkowy utrzyma się w drugiej części 2018 roku, to będzie to oznaczało, że występuje coraz mniej adresów URL zgłaszanych jako naruszających prawa autorskie.
Tabela 4. Liczba zgłoszeń, usunięć i odrzuceń wszystkich adresów URL w Bing
Requests | URLs Requested | URLs Accepted | URLs Rejected | % of URLs Accepted | |
2015 H1 | 1 020 142 | 24 520 508 | 22 462 834 | 2 057 672 | 92% |
2015 H2 | 976 134 | 59 473 002 | 58 487 912 | 985 090 | 98% |
2016 H1 | 2 548 451 | 91 781 926 | 91 269 366 | 512 560 | 99% |
2016 H2 | 4 129 268 | 165 601 360 | 165 285 689 | 315 671 | 99,81% |
2017 H1 | 16 268 707 | 121 541 381 | 121 111 170 | 430 211 | 99,65% |
Dla porównania wyszukiwarka Bing informuje, że w pierwszej połowie 2017 roku usunęła ona 99,65% wszystkich przesłanych adresów. Należy zauważyć jednak, że łączna liczba przesłanych adresów URL do Bing jest znacznie mniejsza. W Tabeli 4. zostały przedstawione dane opublikowane przez Bing dotyczące liczby przesłanych zgłoszeń oraz adresów URL przesłanych do usunięcia, zaakceptowanych i odrzuconych. Z dostępnych danych w latach 2015 i 2016 wynika, że liczba przesyłanych zgłoszeń stale rośnie. W 2015 przesłano 1 996 276 zgłoszeń, gdzie w 2016 roku zgłoszeń było już 6 677 719. W pierwszej połowie 2017 roku przesłanych zostało ponad 16 milionów zgłoszeń.
Nie ma danych, które wyjaśniają jakie są powody takiej różnicy w liczbie przesłanych zgłoszeń między wyszukiwarkami Google i Bing. Pierwszym hipotetycznym powodem, który się nasuwa to, że formularz do przesyłania zgłoszeń w Bing ma lepszą użyteczność, niż jego odpowiednik w Google, jednak należałoby to poddać osobnemu badaniu. Drugi powód może wynikać z tego, że liczba zgłoszeń wysyłanych do wyszukiwarki Google dotyczących domeny internetowej jest traktowana jako negatywny sygnał rankingowy dla tej domeny. Stąd też wyszukiwarka nie wyświetla wielu treści z domen, które wcześniej zostały zgłoszone. Zatem liczba przesyłanych zgłoszeń nie rośnie tak szybko jak w przypadku Bing, który być może nie bierze tego jako sygnału rankingowego i liczba zgłoszeń stale rośnie. Jednak są to tylko hipotezy, które należałoby sprawdzić.
Tabela 5. Liczba usunięć i pozostawień w .PL
Rok | URLs Removed | URLs Rejected | % of removed | % of rejected |
2011 | 23 802 | 2 625 | 90,0% | 10,0% |
2012 | 647 884 | 63 646 | 91,0% | 9,0% |
2013 | 1 504 997 | 203 101 | 88,1% | 11,9% |
2014 | 3 598 752 | 230 410 | 93,9% | 6,1% |
2015 | 11 111 572 | 928 102 | 92,2% | 7,8% |
2016 | 9 958 423 | 517 769 | 95,0% | 5,0% |
2017 | 8 176 589 | 403 546 | 95,2% | 4,8% |
2018 – do 13 kwietnia | 1 171 547 | 55 504 | 95,4% | 4,6% |
Analizując tylko wycinek danych oparty o domeny .PL zilustrowany w Tabeli 5. otrzymuje się następujące wyniki. W całym badanym okresie liczba usuwanych adresów URL w domenie .PL wyniosła 93,8% z całkowitej liczby przesłanych adresów URL do usunięcia w domenie .PL. W przypadku domeny .PL to większy udział usuniętych adresów niż dla wszystkich usuniętych adresów.
Do 2015 liczba zgłaszanych adresów URL każdego roku rosła. Natomiast w kolejnych latach zgłaszanych adresów było coraz mniej. Być może jest to efekt coraz lepszego poszanowania praw autorskich, wobec czego publikowanych jest mniej treści naruszających te prawa.
Co ciekawe, największa liczba usuniętych adresów z globalnej liczby zgłoszeń, która wystąpiła w roku 2016, nie pokrywa się z największą liczbą zgłoszeń adresów z domen .PL. Należy też zauważyć, że po 2015 roku liczba usuniętych adresów utrzymuje się na poziomie powyżej 95% ogólnej liczby zgłoszonych adresów w domenie .PL. Może to świadczyć o tym, że jakość przesyłanych zgłoszeń zawierających adresy z domeny .PL jest wysoka i zgłoszenia zawierają coraz mniej adresów, które są odrzucane.
Tabela 6. TOP 10 domen .PL z największą liczbą zgłoszeń
Domain name | Number of requests | Number of removed | Number of no action |
chomikuj.pl | 321 886 | 22 437 686 | 1 174 145 |
ulub.pl | 68 212 | 556 133 | 13 857 |
freedisc.pl | 54 093 | 335 687 | 35 257 |
mp3s.pl | 53 228 | 1 514 242 | 253 785 |
pobieramy24.pl | 51 029 | 391 587 | 69 421 |
darkwarez.pl | 42 928 | 250 712 | 22 952 |
exsite.pl | 34 311 | 160 979 | 22 763 |
katproxy.pl | 27 237 | 162 017 | 3 694 |
torrenty.pl | 26 423 | 100 360 | 7 954 |
wrzuta.pl | 26 400 | 324 182 | 45 988 |
Wśród listy TOP10 domen .PL z największą liczbą zgłoszeń żądania usunięcia treści, widocznej w Tabeli 6., wyróżnia się domena chomikuj.pl. Domena chomikuj.pl jest 5 najczęściej zgłaszaną domeną w całej kolekcji danych udostępnianych przez Google. Analizując liczbę zgłoszeń, należy pamiętać, że w jednym zgłoszeniu może zostać umieszczonych więcej niż jedna zgłaszana domena.
Liczba wszystkich zgłoszeń zawierających adresy z domeny .PL wynosi 763 119 zgłoszeń i jak widać z porównania dla poszczególnych domen, adres chomikuj.pl znajduje się prawi połowie zgłoszeń. Pod adresem internetowym chomikuj.pl znajduje się usługa internetowa, która pozwala użytkownikom przechowywać pliki oraz udostępniać je innym użytkownikom usługi lub publicznie.
Nierzadko użytkownicy udostępniają za pomocą chomikuj.pl materiały chronione prawem autorskim. Stąd tak duża liczba zgłoszeń. Kolejne adresy na liście TOP10 to usługi, które również pozwalają udostępnić pliki i jednocześnie je pobrać. W tych usługach można też wyszukiwać materiały chronione prawem autorskim za pomocą wyszukiwarki plików torrent lub publikowane są linki do stron, które przechowują materiały chronione prawem autorskim.
Tabela 7. TOP 10 domen .PL z największą liczbą usuniętych adresów URL
Domain name | Number of requests | Number of removed | Number of no action |
chomikuj.pl | 321 886 | 22 437 686 | 1 174 145 |
fileshark.pl | 26 213 | 3 571 260 | 113 017 |
mp3s.pl | 53 228 | 1 514 242 | 253 785 |
ulub.pl | 68 212 | 556 133 | 13 857 |
freed0m4all.pl | 1 411 | 504 943 | 4 022 |
unblocked.pl | 10 791 | 447 896 | 13 280 |
pobieramy24.pl | 51 029 | 391 587 | 69 421 |
zajumaj.pl | 4 821 | 342 225 | 470 |
freedisc.pl | 54 093 | 335 687 | 35 257 |
wrzuta.pl | 26 400 | 324 182 | 45 988 |
Wśród listy TOP10 domen .PL z największą liczbą usuniętych adresów, widocznej w Tabeli 7., również na pierwszym miejscu znajduje się usługa chomikuj.pl. Adresy usunięte z tej domeny to 62% wszystkich usuniętych adresów z domeny .PL. Na liście znajdują się dwie domeny freed0m4all.pl oraz zajumaj.pl, które mają relatywnie dużo mniej zgłoszeń od pozostałych, ale usuniętych bardzo dużo adresów należących do tych domen z wyników wyszukiwania. Również dla tych dwóch domen, liczba adresów która nie zostały usunięte jest relatywnie niska, co oznacza, że w obrębie tych domen, prawie wszystkie zgłoszone treści mogły naruszać cudze prawa autorskie.
Analiza poszczególnych obszarów, jak zgłoszenia, usunięty adresy i pozostawione adresy, pokazuje, jak istotna jest granulacja danych i analizowanie ich zarówno w tych poszczególnych obszarach jak i na poziomie pojedynczych domen. Wydobyte informacje pokazują jaki różny udział mają różne domeny internetowe w publikowaniu treści naruszających prawa autorskie i jak różna jest częstotliwość usuwania tych treści z wyników wyszukiwania.
Tabela 8. TOP 10 domen .PL z największą liczbą nieusuniętych adresów URL
Domain name | Number of requests | Number of removed | Number of no action |
chomikuj.pl | 321 886 | 22 437 686 | 1 174 145 |
mp3s.pl | 53 228 | 1 514 242 | 253 785 |
tekstowo.pl | 4 428 | 29 | 210 855 |
fileshark.pl | 26 213 | 3 571 260 | 113 017 |
pobieramy24.pl | 51 029 | 391 587 | 69 421 |
wrzuta.pl | 26 400 | 324 182 | 45 988 |
thepiratebay.net.pl | 3 688 | 171 921 | 36 336 |
freedisc.pl | 54 093 | 335 687 | 35 257 |
darkwarez.pl | 42 928 | 250 712 | 22 952 |
exsite.pl | 34 311 | 160 979 | 22 763 |
Wśród listy TOP10 domen .PL z największą liczbą nie usuniętych adresów, widocznej w Tabeli 8., także na pierwszym miejscu znajduje się domena chomikuj.pl. Z tego wynika, że część treści zgłaszanych do usunięcia, w rzeczywistości nie narusza praw autorskich, a organizacje zgłaszające mogą nadużywać swoich uprawnienia i zgłaszać adresy, które nie naruszają praw autorskich. Widać to szczególnie analizując zgłoszenia dla domeny tekstowo.pl.
Domena została zgłoszona 4428 razy jako zawierająca treści naruszające prawa autorskie. Jednak tylko 29 adresów URL zostało usuniętych z wyników wyszukiwania należących do tej domeny, a ponad 210 tysięcy zgłoszonych adresów nie usunięto. W tej domenie publikowane są teksty piosenek. Organizacje zgłaszające naruszenia praw autorskich wyszukują materiały chronione prawem autorskim po nazwie chronionego utworu, gdzie zazwyczaj ochronie podlega treść w postaci audio lub video. W przypadku domeny tekstowo.pl, publikuje ona teksty piosenek, a nie utwór w postaci muzycznej lub video. Stąd wynikałaby prawie całkowita liczba odrzuconych adresów do usunięcia.
Tabela 9. TOP10 właścicieli praw autorskich z największą liczbą zgłoszeń
Number of requests | Owner name | Registration Country |
232 178 | BPI LTD MEMBER COMPANIES | United Kingdom |
142 310 | BPI (British Recorded Music Industry) Ltd | United Kingdom |
79 137 | Nuclear Blast Records | Germany |
48 140 | IFPI | United Kingdom |
44 402 | Universal Music GmbH | Germany |
41 734 | Beggars Group Digital Ltd | United Kingdom |
36 166 | Warner Music Group Germany Holding GmbH | Germany |
35 758 | Sony Music Entertainment Germany GmbH | Germany |
35 295 | Entertainment One | Canada |
34 800 | RIAA member companies (EMI Music North America, Sony Music Entertainment, Universal Music Group, Warner Music Group) | United States |
Właściciele praw autorskich znajdujących się w Tabeli 9. to zazwyczaj komercyjne organizacje, które zajmują się publikowaniem i wydawaniem utworów chronionych prawem autorskim. W tabeli nie znajdują się pojedynczy autorzy. Zazwyczaj przenoszą oni część swoich praw lub udzielają licencji do wykorzystywania swoich dzieł przez komercyjne organizacje wydające ich utwory.
Wśród organizacji, których prawa najczęściej są naruszone można zauważyć, że główne siedziby 8 pierwszych organizacji są zlokalizowane w United Kingdom oraz w Germany. Natomiast te organizacje reprezentują zazwyczaj twórców z całego świata. Pozostałe dwie organizacje zarejestrowane są w Ameryce Północnej i głównie reprezentują interesy amerykańskich i kanadyjskich twórców.
Organizacje, które posiadają prawa autorskie mogą same dokonywać zgłoszeń naruszenia prawa do wyszukiwarki. Jednak te największe organizacje wynajmują do tego inne organizacje, które specjalizują się w wyszukiwaniu treści naruszających prawa autorskie i zgłoszeniu ich do wyszukiwarki.
Tabela 10. TOP10 organizacji reprezentujących właścicieli praw autorskich z największą liczbą zgłoszeń
Number of requests | Reporting organization name |
1 673 730 | AudioLock.NET |
429 012 | MUSO.com Anti-piracy |
411 103 | BPI (British Recorded Music Industry) Ltd |
311 319 | proMedia |
238 320 | Digimarc |
171 641 | Counterfeit.Technology |
164 408 | Link-Busters.com |
85 210 | rivendell |
78 592 | Total Wipes Music Group |
78 104 | Topple Track |
Organizacje reprezentujące właścicieli praw autorskich, które znajdują się w Tabeli 10. to najczęściej występujące organizacje ze zgłoszeniami usunięcia treści do wyszukiwarki Google. Najaktywniejszą organizacją jest AudioLock.NET, która dokonała do tej pory 1 673 730 zgłoszeń naruszenia prawa autorskiego. To 28,1% wszystkich przesłanych do wyszukiwarki zgłoszeń. Cała pierwsza dziesiątka odpowiada za 61,3% ogólnej liczby zgłoszeń.
Przeglądając pojedyncze zgłoszenia przesłane do wyszukiwarki można zauważyć, że największę z nich, licząc pod względem liczby przesłanych adresów URL w jednym zgłoszeniu, zawierają ponad 32 tysięcy adresów. Są to zgłoszenia, które prawie w całości zostały zaakceptowane przez wyszukiwarkę. Jednak z drugiej strony są także zgłoszenia zawierające ponad 28 tysięcy przesłanych adresów URL, które w całości zostały odrzucone. Analiza szczegółowych zgłoszeń pokazuje, że każde zgłoszenie jest analizowane przez zespół reprezentujący wyszukiwarkę i wszystkie adresy znajdujące się w zgłoszeniu są sprawdzane.
Podsumowanie
Z przeprowadzonej analizy wynika, że wyszukiwarki internetowe są zaangażowane w proces ochrony praw autorskich. W przypadku stwierdzenia ważności żądania usunięcia zgodnie z prawem o ochronie praw autorskich, treść jest usuwana z usług oferowanych przez wyszukiwarki. W tym przypadku usuwany jest adres URL z wyników wyszukiwania. Wyszukiwarki po usunięciu treści, jeśli mają możliwość poinformowania właściciela witryny, której zgłoszenie dotyczyło, informują go za pomocą jednej z usług, do której witryna internetowa jest zapisana w wyszukiwarce. W przypadku Google to Google Search Console, a w przypadku Bing to Bing Webmaster Tools.
Zgodnie z wytycznymi jakimi kierują się wyszukiwarki, odpowiadają one na jasno sformułowane, konkretne zawiadomienia o przypuszczalnym naruszeniu praw autorskich. Może się zdarzyć, że po sprawdzeniu zgłoszenia, uznaje się że niektóre adresy URL zgłoszone w sposób oczywisty nie naruszają praw autorskich. W takich przypadkach następuje odmowa ich usunięcia z wyszukiwarki. Odmowa może nastąpić, jeśli nie ma wystarczających informacji o tym, dlaczego dany adres URL narusza prawa autorskie, nie znaleziono treści zgłoszonych w żądaniu lub uznano, że treść jest wykorzystywana prawidłowo. Wyszukiwarki otrzymują również nieprecyzyjne lub nieuzasadnione żądania usunięcia treści z wyników wyszukiwania, które ewidentnie nie prowadzą do treści naruszających prawa autorskie.
- Na postawione pytanie otrzymano w odpowiedzi wynik informujący o tym, że wyszukiwarki internetowe umożliwiają już od ponad 8 lat zgłaszanie żądań usunięcia treści. Zrealizowane żądania sprawiły, że z wyszukiwarki Google w ciągu 8 lat usunięto ponad 3 miliardy adresów URL, a z wyszukiwarki Bing w ciągu 30 miesięcy usunięto ponad 460 milionów adresów URL. W wyszukiwarce Google usunięto 91,1% wszystkich zgłoszonych adresów, a w wyszukiwarce Bing usunięto 99% wszystkich zgłoszonych adresów.
- Analiza fragmentu danych opartych wyłącznie o zgłoszenia dotyczące adresów w domenie .PL pokazuje, że obszary dotyczące jednej wybranej domeny, mogą mieć różny udział w zgłoszeniach i usunięciach i że ten udział nie będzie proporcjonalny. Zgłoszenia dotyczące domeny .PL wyróżniają się ponad proporcjonalnym udziałem liczby przesłanych zgłoszeń oraz ponad proporcjonalną liczbą właścicieli praw autorskich, których te zgłoszenia dotyczyły w porównaniu do liczby adresów URL, które zostały usunięte. Zgłoszenia żądań dla domeny .PL wyróżniają się także wyższym odsetkiem zrealizowanych zgłoszeń. W domenie .PL 93.8% zgłoszonych adresów URL zostało usuniętych z wyszukiwarki Google, ale w ciągu ostatnich 3 lat ten wynik jest jeszcze wyższy i utrzymuje się powyżej 95%.
- Analiza danych dla najpopularniejszych domen .PL, których najczęściej dotyczą zgłoszenia, najczęściej z nich usuwane są adresy URL oraz najwięcej z nich jest pozostawionych pokazała, że istotny udział ma jedna domena chomikuj.pl. To domena, której dotyczyła prawie połowa przesłanych zgłoszeń, usunięcia adresów z tej domeny to 62% wszystkich usunięć dla domen .PL, ale równie dużo, bo 48,8% z adresów nie usuniętych z domeny .PL należy do chomikuj.pl
- Analiza danych pokazała, że globalna częstotliwość i wzrost usunięcia danych w kolejnych badanych okresach nie jest identyczna z trendem widocznym perspektywy domeny .PL. Owszem, zgłoszeń jest coraz więcej, jednak różne jest tempo wzrostu porównując ze sobą fragment danych z całym zbiorem.
- O ochronę przed naruszeniami prawa autorskiego w wynikach wyszukiwarek internetowych mogą dbać sami właściciele tych praw, bowiem mają taką możliwość. Jednak, korzystają oni z usług podmiotów, które specjalizują się w wyszukiwaniu i zgłaszaniu tych naruszeń w oparciu o DMCA. Najwięksi partnerzy wyszukiwarek otrzymali możliwość korzystania z API, dzięki któremu mogą zgłaszać duże wolumeny adresów. Mniejsze organizacje korzystają z dedykowanych formularzy. Właściciele praw autorskich główne siedziby mają w United Kingdom, Germany i Ameryka Północna
Zródło: Strzelecki, A. (2019). Website removal from search engines due to copyright violation. Aslib Journal of Information Management, 71(1), 54-71. DOI: https://doi.org/10.1108/AJIM-05-2018-0108.