Warianty niewidzialności

Wyróżnić można cztery podstawowe odmiany głębokiego Internetu, których rozróżnienie jest niezwykle istotne w celu zrozumienia przyczyn braku możliwości (bądź w znacznym stopniu utrudnieniu) uzyskania dostępu do nich z wykorzystaniem tradycyjnych wyszukiwarek:

• Internet nieprzezroczysty,
• Internet prywatny,
• Internet o ograniczonym dostępie,
• Niewidzialny Internet.

Na sporych rozmiarów Internet nieprzezroczysty składają się pliki, które mogą zostać zaindeksowane jednak z różnych powodów są ignorowane przez roboty wyszukiwarek. Dzieje się tak ze względu na próby ograniczenia kosztów indeksowania i niezbędnej mocy obliczeniowej, co skutkuje pomijaniem niektórych fragmentów indeksowanych stron. Wyszukiwarka czyta jedynie te elementy, które pozwalają w sposób satysfakcjonujący określić zawartość strony. Reszta często jest pomijana, a co za tym idzie wiele przydatnych materiałów może nigdy nie trafić do zasobów wyszukiwarek.

Częstotliwość indeksowania ma również ogromny wpływ na stopień poznania zasobów Internetu, w tym jego nieprzezroczystej części. Internet ulega ciągłym zmianom, pojawiają się zupełnie nowe strony, inne są usuwane, aktualizowane lub przenoszone na nowe domeny. Przy ograniczonych możliwościach wydajnościowych wyszukiwarek muszą być podejmowane decyzje o tworzeniu harmonogramów indeksowania poszczególnych stron. W rezultacie niektóre z nich będą odwiedzane przez roboty wyszukiwarek o wiele rzadziej od innych, więc wyszukiwarka może nie posiadać najnowszych danych na temat zawartości niektórych witryn, dopóki nie zostaną one po raz kolejny odwiedzone, a ewentualna nowa zawartość zaindeksowana i uwzględniona w bazie wyszukiwarki.

Do nieprzezroczystego Internetu kwalifikują się również tak zwane strony niepodłączone, czyli takie które nie zostały zgłoszone za pomocą specjalnych narzędzi dostarczanych przez wyszukiwarki, bądź nie prowadzą do nich żadne zewnętrzne linki, a co za tym idzie wyszukiwarka nie jest w stanie ich znaleźć i zaindeksować. W większości przypadków, przy zapewnieniu dostępu dla wyszukiwarek, strony takie mogłyby bez żadnych przeszkód trafić do bazy wyszukiwarki, jednak można podejrzewać, że ich właściciele są tego nieświadomi. Według badań przeprowadzonych w 2000 roku przez IBM, AltaVista i Compaq liczbę niepodłączonych stron oszacowano na 20% ogólnej ilości stron indeksowalnych.

Na Internet prywatny składają się strony, które zostały celowo ukryte przed wyszukiwarkami. Jak już było wspomniane można to uczynić na trzy sposoby – blokując dostęp przy użyciu hasła, korzystając z pliku robots.txt, bądź stosując w kodzie strony odpowiednie meta tagi.
Z punktu widzenia wyszukiwarek takie zasoby nie stanowią poważnego problemu, gdyż przeznaczone są dla wąskiej grupy osób posiadających dostęp i to właśnie dla nich przygotowywana jest ich zawartość, która dla osób nie zainteresowanych może być po prostu bezwartościowa. Na tę część zasobów głębokiego Internetu składają się również strony, do których dostęp przyznawany jest na specjalnych warunkach, na podstawie umowy pomiędzy użytkownikiem, a właścicielem strony. Często dostęp można uzyskać na drodze bezpłatnej rejestracji, jednak dla wyszukiwarki jest to już przeszkoda nie do pokonania. W innych przypadkach, szczególnie na stronach umieszczających prace naukowe, za dostęp trzeba płacić.

Materiały umieszczane na takich stronach cechują zwykle bardzo wysoką jakością i wiarygodnością jednak ich zaindeksowanie, ze względu na nałożone ograniczenia jest niemożliwe dla tradycyjnych wyszukiwarek.

Na niewidzialny Internet, w dosłownym znaczeniu tego słowa, składają się strony, które są niedostępne dla wyszukiwarki z różnych powodów technicznych. Najczęstszym przypadkiem, choć zarazem rokującym największe nadzieje na przyszłość, są strony zbudowane z oparciu o formaty plików, z którymi dzisiejsze wyszukiwarki sobie nie radzą, pliki wykonywalne lub skompresowane. Wykorzystanie odpowiednich meta tagów pozwala co prawda na ich identyfikację, jednak w takiej sytuacji indeksowany jest właśnie meta tag, a nie właściwa zawartość pliku.

Równie często spotykanym przypadkiem jest dynamicznie generowana treść strony, zazwyczaj za pomocą skryptów. Strony takie często omijane w obawia utknięcia w pułapce składające z ogromnych ilości stron zaprojektowanych, aby spamować silnik wyszukiwarki. W wielu przypadkach wyszukiwarki decydują się, z różnych powodów, nie brać pod uwagę plików o określonych rozszerzeniach.

VN:F [1.9.13_1145]
Rating: 7.5/10 (4 votes cast)
Warianty niewidzialności, 7.5 out of 10 based on 4 ratings
Podziel się:
  • Facebook
  • Twitter
  • Google Buzz
  • Gwar
  • Wykop
  • Google Bookmarks
Brak komentarzy.

Musisz być zalogowany aby komentować.

Brak trackbacków.