Accueil |

World Wide Web

                 

]]Le World Wide Web (ou le Web ou la Toile ou WWW ou W3), littéralement la « toile (d'araignée) mondiale Â», est un système hypertexte accessible au public, réparti sur Internet, consultable avec un navigateur Web. Il est principalement constitué de pages Web regroupées dans des sites Web. Les pages Web se référencent entre elles avec des hyperliens, d'o๠l'image de la toile.

Sommaire
1 Terminologie
2 Architecture
3 Types de ressource
4 Conception
5 Technologies
6 Historique
7 Voir aussi
8

Terminologie

World Wide Web

Le Web, que l'on nommait alors World Wide Web ou WWW, a rendu les
médias grand public attentifs à  Internet. Depuis, il est fréquemment confondu avec ce dernier. Ce n'est cependant qu'un des systèmes disponibles sur Internet, avec le courrier électronique, Usenet, la messagerie instantanée, etc. Internet précède le Web de nombreuses années.

Le Web est le résultat d'un projet originellement nommé WorldWideWeb (voir historique) et renommé en World Wide Web pour améliorer la lisibilité. Le nom World-Wide Web a également été utilisé par les inventeurs du Web, mais le nom officiellement préconisé par le World Wide Web Consortium sépare les trois mots sans trait d'union [1]. Comme « mondial Â» s'écrit world-wide ou worldwide en anglais, certains écrivent aussi Worldwide Web.

Le sigle WWW a été largement utilisé pour abréger World Wide Web avant que l'abréviation Web ne prenne le pas. La prononciation laborieuse en français comme en anglais de WWW a sans doute précipité son déclin. Les lettres www restent cependant très utilisées dans les adresses Web et quelques autres usages formels ou techniques, bien que cela ne réponde à  aucune contrainte technique. Dans la seconde moitié des années 1990, alors que les réseaux étaient engorgés par la popularité grandissante du Web, une blague répandue prétendait que WWW signifiait World Wide Wait, soit « attente mondiale Â». WWW est parfois abrégé en W3. Ainsi, le sigle officiel du World Wide Web Consortium est W3C.

Depuis le milieu des années 1990, le World Wide Web est communément appelé « le Web Â» ou « le web Â», l'usage de la minuscule étant de plus en plus courant.

Termes rattachés

L'expression en ligne signifie « connecté à  un réseau Â», en l'occurrence le réseau informatique Internet.

Un hà´te est un ordinateur en ligne. Chaque hà´te d'Internet est identifié par une adresse IP à  laquelle correspondent zéro, un ou plusieurs noms d'hà´te.

Une ressource est une entité informatique (texte, image, forum Usenet, boîte aux lettres électronique...) accessible indépendamment d'autres ressources. Une ressource en accès public est librement accessible depuis Internet. Une ressource locale est présente sur l'ordinateur utilisé, par opposition à  une ressource distante (ou en ligne), accessible à  travers un réseau.

Une ressource distante ne peut être accédée qu'en respectant un protocole de communication. Les fonctionnalités de chaque protocole varient : réception, envoi, voire échange continu d'informations.

HTTP (pour HyperText Transfer Protocol) est le protocole de communication communément utilisé pour transférer les ressources du Web. HTTPS est la variante sécurisée de ce protocole.

Une URL (pour Uniform Resource Locator) pointe sur une ressource. C'est une chaîne de caractères permettant d'indiquer un protocole de communication et un emplacement pour toute ressource.

Un hyperlien (ou lien) est un élément dans une ressource associé à  une URL. Un hyperlien est à  sens unique, la ressource pointée n'en porte aucune trace. Il existe deux types d'hyperlien : le premier doit être activé pour accéder à  la ressource pointée ; le second cause un accès automatique à  la ressource pointée.

HTML (pour HyperText Markup Language) est un langage informatique permettant de décrire le contenu d'un document (titres, paragraphes, disposition des images...) et d'y inclure des hyperliens. Un document HTML est un document décrit avec le langage HTML.

Dans un mode de communication client-serveur, un serveur est un hà´te sur lequel fonctionne un logiciel serveur auquel peuvent se connecter des logiciels clients fonctionnant sur des hà´tes clients.

Un serveur Web est un hà´te sur lequel fonctionne un serveur HTTP (ou serveur Web). Un serveur Web héberge les ressources qu'il sert.

Un navigateur Web (ou navigateur Internet ou navigateur ou browser en anglais) est un logiciel conçu pour accéder aux ressources du Web. Sa fonction de base est de permettre la consultation des documents HTML disponibles sur les serveurs HTTP. Le support d'autres types de ressource et d'autres protocoles de communication dépend du navigateur considéré.

Une page Web (ou page) est un document destiné à  être consulté avec un navigateur Web. Une page Web est toujours constituée d'une ressource centrale (généralement un document HTML) et d'éventuelles ressources liées automatiquement accédées (typiquement des images).

Un éditeur HTML (ou éditeur Web) est un logiciel conçu pour faciliter l'écriture de documents HTML et de pages Web en général.

Un site Web (ou site) est un ensemble de pages Web et d'éventuelles autres ressources, liées dans une structure cohérente, publiée par un propriétaire (une entreprise, une administration, une association, un particulier...) et hébergée sur un ou plusieurs serveurs Web.

Visiter un site Web signifie « consulter ses pages Â». Le terme visite vient du fait que l'on consulte généralement plusieurs pages d'un site, comme on visite les pièces d'un bà¢timent. La visite est menée par un utilisateur (ou visiteur ou internaute).

Une adresse Web est une URL de page Web, généralement écrite sous une forme simplifiée limitée à  un nom d'hà´te. Une adresse de site Web est en fait l'adresse d'une page du site prévue pour accueillir les visiteurs.

Un hébergeur Web est une entreprise de services informatiques hébergeant (mettant en ligne) sur ses serveurs Web les ressources constituant les sites Web de ses clients.

Une agence Web est une entreprise de services informatiques réalisant des sites Web pour ses clients.

L'expression surfer sur le Web signifie « consulter le Web Â». Elle a été inventée pour mettre l'accent sur le fait que consulter le Web consiste à  suivre de nombreux hyperliens de page en page. Elle est principalement utilisée par les médias ; elle n'appartient pas au vocabulaire technique.

Architecture

Le World Wide Web, en tant qu'ensemble de ressources hypertextes, est modélisable en graphe orienté avec les ressources pour sommets et les hyperliens pour arêtes. Du fait que le graphe est orienté, certaines ressources peuvent constituer des puits : il n'existe aucun chemin vers le reste du Web. à€ l'inverse, certaines ressources peuvent constituer des sources : il n'existe aucun chemin depuis le reste du Web.

Techniquement, rien ne distingue le World Wide Web d'un quelconque autre web utilisant les mêmes technologies ; des webs séparés existent. Dans la pratique, on considère qu'une page d'un site Web populaire, comme un annuaire Web, fait partie du Web. Le Web se trouve alors défini par les ressources et les hyperliens que l'on peut récursivement découvrir à  partir de cette page, ce qui exclut les sources et les webs séparés.

Intranets et webs privés

Un web sur un intranet est soit séparé, soit une source du Web. Il est une source lorsque l'intranet est relié à  Internet et qu'un hyperlien pointe sur une ressource du Web. Les liens depuis le Web sont en revanche impossibles car un intranet n'offre pas d'accès public.

Une source peut aussi se trouver sur Internet. En ce cas, elle constitue un web virtuellement privé, car le public n'a aucun moyen de le découvrir, même si l'accès est public.

Limites pratiques

L'exploration récursive à  partir de ressources bien choisies est la méthode de base des robots d'indexation des moteurs de recherche. Dans la pratique, plusieurs catégories de ressources découvertes sont souvent ignorées : En 2004, les moteurs de recherche indexent environ 4 milliards de ressources.

Web profond

Les ressources vers lesquels les hyperliens sont créés dynamiquement pour répondre à  une interrogation échappent aux robots d'indexation. En effet, un robot n'est pas capable d'émettre des interrogations pertinentes, aucun hyperlien n'est donc créé lors de sa visite.

Ces ressources constituent de ce qui est parfois appellé le Web invisible ou Web profond. Il s'agit surtout de ressources provenant de bases de données, accessibles à  travers une passerelle. Une étude de la firme BrightPlanet a évalué que le Web profond pouvait contenir 500 fois plus de ressources que le Web indexé par les moteurs de recherche.

Serveurs publics

Un autre moyen d'exploration consiste à  mesurer l'infrastructure informatique déployée, plutà´t que la taille du système hypertexte qu'est le Web. Il s'agit d'utiliser les noms de domaine enregistrés dans le DNS, d'essayer de se connecter aux serveurs Web potentiels et de compter les réponses positives. C'est notamment la méthode utilisée par la société Netcraft, qui publie régulièrement les résultats de ses explorations, dont les mesures de popularité des serveurs HTTP. Cette mesure porte plus sur l'utilisation des technologies du Web que sur le Web lui-même. Elle permet notamment de trouver des sites séparés du World Wide Web.

Types de ressource

Les divers types de ressource du Web ont des usages assez distincts :

Documents HTML

Le document
HTML est la principale ressource d'une page Web, celle qui contient les hyperliens, qui contient et structure le texte, qui lie et dispose les ressources multimédias. Un document HTML contient uniquement du texte : le texte consulté, le texte en langage HTML plus d'éventuels autres langages de script ou de style.

La présentation de documents HTML est la principale fonctionnalité d'un navigateur Web. HTML laisse au navigateur le soin d'exploiter au mieux les capacités de l'ordinateur pour présenter les ressources. Typiquement, la police de caractère, la longueur des lignes de texte, les couleurs, etc, doivent être adaptées au périphérique de sortie (écran, imprimante, etc).

Multimédia

Les éléments multimédias proviennent toujours de ressources indépendantes du document HTML. Les documents HTML contiennent des hyperliens pointant sur les ressources multimédias, qui peuvent donc être éparpillées sur Internet. Les éléments multimédias liés sont automatiquement transférés pour présenter une page Web.

Seul l'usage des images et des petites animations est standardisé. Le support du son, de la vidéo, d'espaces tridimensionnels ou d'autres éléments multimédias repose encore sur des technologies non standardisées. De nombreux navigateurs Web proposent la possibilité de greffer des logiciels plugin pour étendre leurs fonctionnalités, notamment le support de types de média non standard.

Les flux (audios, vidéos) nécessitent un protocole de communication au fonctionnement différent de HTTP. C'est une des raisons pour lesquelles ce type de ressource nécessite souvent un plugin et est mal intégré aux pages Web.

Images

Ce chapitre concerne les images intégrées aux pages Web.

L'usage du type JPEG est indiqué pour les images naturelles, principalement les photographies.

L'usage du type PNG est indiqué pour les images synthétiques (logos, éléments graphiques). Il est aussi indiqué pour les images naturelles, mais uniquement lorsque la qualité prime totalement sur la durée du transfert.

L'usage du type GIF est indiqué pour les petites animations. Pour les images synthétiques, la popularité ancienne de GIF le fait souvent préférer à  PNG. Cependant, GIF souffre de quelques désavantages, notamment la limitation du nombre de couleurs et un brevet portant sur la méthode de compression.

L'usage d'images de type XBM est obsolète.

Scripts

Un langage de script permet d'écrire le texte d'un programme directement exécuté par un logiciel. Dans le cadre du Web, un script est exécuté par un navigateur Web et programme des actions répondant à  l'usage que le visiteur fait de la page Web consultée. Un script peut être intégré au document HTML ou provenir d'une ressource liée. Le premier langage de script du Web fut JavaScript, développé par Netscape. Ensuite Microsoft a développé une variante concurrente sous le nom de JScript. Finalement, la norme ECMAScript a été proposée pour la syntaxe du langage, et les normes DOM pour l'interface avec les documents.

Styles

Le langage CSS a été développé pour gérer en détail la présentation des documents HTML. Le texte CSS peut être intégré au document HTML ou provenir de ressources liées, les feuilles de style.

Autres

La gestion des autres types de ressource dépend des logiciels installés sur l'hà´te client et de leurs réglages.

Lorsque le logiciel correspondant est disponible, les documents et images de tout types sont généralement automatiquement présentés, selon des modalités (fenêtrage, dialogues) dépendant du navigateur Web et du logiciel gérant le type. Lorsque le type de la ressource n'est pas géré, il est généralement possible de la sauver dans un fichier local.

Pour gérer les ressources de systèmes différents du Web comme le courrier électronique, les navigateurs font habituellement appel à  des logiciels séparés. Si aucun logiciel ne gère un type de ressource, un simple message d'erreur l'indique.

Conception

Universalité

Le Web a été conçu pour être accessible avec les équipements informatiques les plus divers :
station de travail, terminal en mode texte, ordinateur personnel, PDA, etc. Cette universalité d'accès dépend en premier lieu de l'universalité des protocoles Internet. En second lieu, elle dépend de la flexibilité de présentation des pages Web, offerte par HTML. En outre, HTTP offre aux navigateurs la possibilité de négocier le type de chaque ressource. Enfin, CSS permet de proposer différentes présentations, sélectionnées pour leur adéquation avec l'équipement utilisé.

L'universalité d'accès au Web pour les individus handicapés est aussi l'objet de normes et d'attentions particulières.

Décentralisation

Les technologies du Web n'imposent pas d'organisation entre les pages Web, ni a fortiori entre les sites Web. Toute page du Web peut contenir un hyperlien vers toute autre ressource accessible d'Internet. L'établissement d'un hyperlien ne requiert absolument aucune action du cà´té de la ressource pointée. Il n'y a pas de registre centralisé d'hyperliens, de pages ou de sites. Le seul registre central utilisé est celui du DNS, qui répertorie des hà´tes et est utile à  tous les systèmes basés sur Internet.

Cette conception décentralisée devait favoriser, et a favorisé, une augmentation rapide de la taille du Web. Elle a aussi favorisé l'essor de sites spécialisés dans les informations sur les autres sites : les annuaires et les moteurs de recherche. Sans ces sites, la recherche d'information dans le Web serait extrêmement laborieuse. La démarche inverse, le portail Web, tente de concentrer un maximum d'informations et de services dans un seul site.

Une faiblesse de la décentralisation est le manque de suivi lorsqu'une ressource est déplacée ou supprimée : les hyperliens qui la pointaient se retrouvent cassés. Et cela n'est visible qu'en activant l'hyperlien, le résultat le plus courant étant le message d'erreur 404.

Technologies

Pré-existantes

Le Web repose sur les technologies d'
Internet, notamment TCP/IP pour assurer le transfert des données, DNS pour convertir les noms d'hà´te en adresses IP et MIME pour indiquer le type des données. Les formats d'image numérique GIF et JPEG ont été développé indépendamment.

Spécifiques

Trois technologies ont dà» être développées pour le World Wide Web :

Ces premières technologies ont été normalisées comme les autres technologies d'Internet : en utilisant le processus des Request for Comments. Cela a donné le RFC 1738 pour les URL, le RFC 1866 pour HTML 2.0 et le RFC 1945 pour HTTP/1.0.

Le World Wide Web Consortium a été fondé en 1994 pour développer et promouvoir les nouveaux standards du Web. Son rà´le est notamment de veiller à  l'universalité des nouvelles technologies. Des technologies ont également été développées par des entreprises privées.

Actuelles

Les principaux standards actuels sont :

Historique

Les premières années de cet historique sont largement basées sur
A Little History of the World Wide Web (toutes les sources de ce chapitre sont en anglais).

Voir aussi

[
hypertexte | hyperlien | Internet | Tim Berners-Lee | Robert Cailliau | World Wide Web Consortium | accessibilité du Web ]

Concepts Web

[ agence Web |
hébergeur Web | serveur Web | adresse Web | site Web | annuaire Web | portail Web | page Web ]

Technologies

[
URL | HTTP | HTML | SGML | XHTML | XML | CSS | JavaScript | DOM | dynamic HTML ]

Logiciels serveurs

[
serveur HTTP | CERN HTTPd | NCSA HTTPd | Apache | moteur de recherche ]

Logiciels clients

[ éditeur HTML |
navigateur Web | NCSA Mosaic | Netscape Navigator | Microsoft Internet Explorer | Mozilla | robot d'indexation ]