Jak rozpoznać stronę głębokiego Internetu?

Linki do głębokiego Internetu są najczęściej linkami pośrednimi, czyli nie prowadzą wprost do istniejącej strony internetowej. Zawierają one informacje, które odczytane przez serwer obsługujący stronę powodują wykonanie określonego skryptu, który generuje treść strony, która ostatecznie zostaje wyświetlona w przeglądarce. Typowe roboty wyszukiwarek najczęściej pomijają linki, które wydają się wywoływać skrypty.

Kluczowe w rozpoznaniu takich adresów URL jest wychwycenie w nich specyficznych znaków lub słów, wskazujących, że docelowa strona jest generowana w sposób dynamiczny na podstawie zawartości bazy danych. Najczęściej spotykanym znakiem sugerującym takie działania strony jest znak zapytania. Jednak nie każdy adres, w którym znajduje się taki znak, daje gwarancję, że prowadzi on do strony głebokointernetowej. Jego obecność w linku może również stanowić informację dla serwera, że przy wyświetlaniu strony przekazywane są dodatkowe zmienne, których wartości widnieją po znaku zapytania.

W przypadku, gdy nie pewności co do tego, czy dany link jest pośredni czy nie, można przeprowadzić prosty test, który pozwoli określić szanse na jego zaindeksowanie przez wyszukiwarkę. W tym celu należy usunąć fragment linku od znaku zapytania do samego końca i spróbować uruchomić spreparowany w ten sposób link. Jeśli strona wyświetli się w niezmienionej formie będzie to oznaczało, że mamy do czynienia z linkiem bezpośrednim, a znak zapytania oznacza przekazanie dodatkowych informacji, a nie wywołanie skryptu, a strona jest w pełni dostępna dla wyszukiwarek. Jeśli natomiast rezultat wywołania takie linku różni się od oczekiwanego, lub uzyskamy wiadomość o błędzie, jednoznacznie wskaże to na link pośredni odnoszący się do strony o dynamicznie generowanej zawartości, a informacje zawarte w linku po znaku zapytania, są niezbędne dla serwera do pobrania odpowiednich informacji z bazy danych.

Podziel się:
  • Facebook
  • Twitter
  • Wykop