TI/Internet pasywnie

Z Brain-wiki

WWW

Jedną z podstawowych funkcji internetu jest funkcja informacyjna. Dostęp do niej mamy poprzez WWW — World Wide Web. Jak większość rzeczy w informatyce, początki WWW wywodzą się ze środowiska fizyków. We wczesnych latach 90-tych w CERN zbudowano (konkretnie zrobił to Tim Bernes-Lee) na potrzeby wewnętrzne prototyp systemu informacyjnego umożliwiającego wygodny dostęp do różnorodnych danych tej organizacji. I po kilku latach używał tego cały świat.

Wskazywanie zasobów WWW

World Wide Web składa się ze stron internetowych — hipertekstów, w których możemy wędrować po hiperłączach. Tylko skąd właściwie wiadomo jak wskazywać konkretne witryny internetowe?

Z pomocą przychodzi nam URL — Uniform Resource Locator, sposób identyfikacji zasobów dostępnych w internecie, NIE tylko stron WWW!

URL

Uniform Resource Locator, czyli Uniwersalny Lokalizator Zasobów, to globalnie jednoznaczna identyfikacja pliku (lub usługi) i sposobu dostępu. Najczęściej spotykamy się z adresami URL wpisywanymi w przeglądarce. Przyjrzyjmy się jak wygląda standardowy adres wpisywany w pole przeglądarki:

http://www.fuw.edu.pl/

Można go podzielić na dwie części: "http://" specyfikuje nam protokół zgodnie z jakim program, jakim jest przeglądarka internetowa, ma pobierać dane, "www.fuw.edu.pl" to adres serwera na którym pobierany zasób się znajduje.

Czyli w ogólności, URL składa się, kolejno od lewej, z:

  • rodzaju usługi/zasobu (np.FTP, HTTP, HTTPS)
  • adresu komputera — serwera na którym zasób jest dostępny (IP lub symbolicznego)
  • ścieżki dostępu do pliku

Na przykład ftp://brain.fuw.edu.pl/pub/plik.txt oznacza, że plik o nazwie plik.txt (rozszerzenie .txt sugeruje tekst ASCII) znajduje się w katalogu /pub komputera brain.fuw.edu.pl i jest dostępny za pośrednictwem usługi ftp. Ftp to file transfer protocol, czyli protokół transferu plików. Dostęp do tego pliku (oczywiście przez Internet) możemy uzyskać za pomocą specjalnego programu-klienta ftp, ale jak w przypadku większości usług wystarczy też po prostu wpisać URL w polu przeglądarki, w którym wpisujemy adresy stron WWW.

Inny przykład URL to http://brain.fuw.edu.pl/~durka/infor.html.

W tym przypadku /~durka to standardowe oznaczenie katalogu domowego (home directory) użytkownika durka — konkretnie części tego katalogu, zawierającej pliki dostępne przez WWW. Znajduje się w nim plik infor.html, dostępny przez usługę http, czyli Hypertext Transfer Protocol — służący do pobierania dokumentów hipertekstowych jakimi są zasoby WWW. Dokładną definicję protokoły HTTP można przeczytać w dokumencie RFC 2616.

Dygresja: Co to są dokumenty RFC?

Przy projektowaniu tak dużego tworu jakim jest internet, ustalaniu obowiązujących standardów, potrzeba też ustandaryzowanej metody robienia tego. Czymś takim są dokumenty RFC — Request for Comments. Zawierają techniczne szczegóły obejmujące wszelkie zagadnienia związane z sieciami komputerowymi. Każdy dokument ma unikalny numer. Dokumenty nie mają mocy oficjalnej, ale na ogół usankcjonowanie czegoś oficjalnie jako standard poprzedzone jest powstaniem dokumentu RFC.

Historycznie, idea pisania takich dokumentów powstała jeszcze przy poprzedniku internetu — sieci Advanced Research Projects Agency Network.

URL c.d.

Większość przeglądarek akceptuje niekompletne URL, nie wymagając podania przedrostka http://.

Dalej występuje nazwa komputera, składająca się z kilku nazw oddzielonych kropkami. W pełnej nazwie komputera powinny występować, kolejno od prawej:

  • symbol kraju: pl, de, uk itd. — nie dotyczy USA,
  • rodzaj instytucji: com — firma, edu — uczelnia, gov — rządowa itd.,
  • nazwa instytucji,
  • nazwa komputera (często www)

Na przykład czytany od prawej adres www.fuw.edu.pl mówi nam, że komputer znajduje się w Polsce (pl), należy do uczelni (edu) określającej się jako fuw (Fizyka, Uniwersytet Warszawski), wreszcie jest serwerem WWW.


Od Web 1.0 do Web 3.0

Czym był internet na początku? Jedynie zbiorem dokumentów zawierających pewne informacje. Użytkownicy odwiedzający różne witryny mogli jedyni chłonąć, odbierać te informacje. Wyłącznie twórca(właściciel) strony miał wpływ na jej zawartość, mógł ją uaktualniać, itd. Rola internauty była zdecydowanie pasywna. Nudne, prawda? Tym bardziej, że dostęp do tworzenia własnych stron nie był tak prosty jak teraz — zdecydowana większość społeczności internetowej była tylko widzami.

Ale tak nie mogło długo być. Stopniowo pojawiły się nowe pomysły, twórcy stron zaczęli udostępniać zwykłym użytkownikom różne funkcjonalności — począwszy od drobnych możliwości dodawania komentarzy pod treścią strony. Teraz wydaje się to oczywiste, ale popatrzmy na to na przykładzie telewizji. Wszyscy jesteśmy przyzwyczajeni, że możemy ją tylko oglądać — wyobraźmy sobie jakim szokiem by było gdyby nagle udostępniono nam możliwość dodawania komentarzy, które byłyby widoczne dla wszystkich pozostałych widzów.

To zapoczątkowało zmianę podejścia do tworzenia stron WWW — przestały mieć funkcje wyłącznie informacyjną, stały się interaktywne! Tę erę nazywamy Web 2.0. Zaowocowała ona lawiną portali, które mogły istnieć dzięki ludziom z nich korzystającym. Ich zawartość tworzą teraz użytkownicy. Wszystkie portale w społecznościowe, serwisy w stylu youtube, myspace, chomikuj.pl to znak czasów Web 2.0.

Od Web 1.0 do Web 2.0

Ludzie zapragnęli wypowiadać się, aktywnie uczestniczyć w życiu jakim teraz tętni internet. Popularność zdobyły mechanizmy takie jak wiki (nasz portal jest Web 2.0!), blogi, fora.

Co zrobić z tą całą zawartością zgromadzoną w internecie? Oprócz ciągłego dodawania treści, wciąż chcemy jakoś z nich korzystać. Potrzebujemy skutecznie wyszukiwać informację. Jak to robimy? Przywykliśmy do tego, że większość trudu wyszukiwania spoczywa na nas. Jeśli chcemy kupić książkę przez internet, google nam pomoże, owszem, ale prawdopodobnie będziemy z niego korzystać w celu znalezienia księgarni internetowej, wpisując konkretne hasło, lub też od razu skierujemy się na stronę księgarni internetowej. I to my musimy o tym wiedzieć, google czy inna wyszukiwarka, nie wie specjalnie jakie znaczenie kryje się za książką, nie wie, że link który się pojawia w wynikach wyszukiwania, prowadzi do księgarni internetowej.

Jak z grubsza działa wyszukiwanie? Popatrzmy w dużym uproszczeniu, jak wygląda wyszukiwanie informacji w pliku. Wpisujemy słowo, komputer wyszukuje to słowo w tekście i to wszystko. Załóżmy, że interesują nas informacje o kwiatkach. Nie chcemy wpisywać wszystkich znanych nam nazw kwiatków po kolei. Ale jeśli wpiszemy tylko słowo kwiatek, a w tekście nigdy się nie pojawi, to mimo że będzie mnóstwo informacji o tulipanach, fiołkach i innych chwastach. I tak ich nie znajdziemy. Idealnie by było, gdybyśmy wpisali hasło, a komputer zwracał nam informację w sposób inteligentny, najlepiej jeszcze uporządkowany o rzeczach z nim związanych. Da się tak? W internecie się da. Wystarczy odrobina dyscypliny przy tworzeniu dokumentów webowych, i troska o odpowiedni opis treści. Popatrzmy, jak mogłaby działać wymarzona, inteligentna wyszukiwarka:

Jak mógłby działać portal ery semantic web

Wszystko to dzięki tworzeniu stron w maksymalnie ustandaryzowany sposób, jednolitemu opisowi podobnych treści tak, aby maszyny mogły same tworzyć odpowiednie relacje między nimi. Tak oto zmierzamy do Semantic Web!

Wstęp do semantic web

Web 1.0 vs Web 2.0 vs Web 3.0

zestawem znaków (UNICODE), zasoby identyfikowany w unikatowy sposób — URI, dane opisywane w ustrukturalizowany sposób — XML, XML Schema, RDF, RDF Schema, OWL. Ten trend jest nazywany Semantic Web, Web 3.0.


HTML: język WWW

Podstawy składni

Materiały do samodzielnej nauki składni HTML i CSS:

Materiały na temat dobrych praktyk projektowania stron WWW i nie tylko:

Podstawowa struktura dokumentu HTML:

<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/strict.dtd">
<html lang="pl">

<head>
    <meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
    <title>Tytuł strony</title>
</head>

<body>
    Treść strony.
</body>

</html>