ACCUEIL | CONTACT
ARTICLES                                 
LES PAPILLONS
  Entomologie
  Morphologie
  Glossaire
  Familles
  Epinglage


GALERIES
  Photos
  Gifs


ACTIVITES
  Origami
  Decoupages
  Coloriages
  Perles


TEXTES
  Citations
  Histoires
Articles
  Poemes


BOUTIQUE


LIENS
  Thematiques
  Amis
  GWA2007
  Annuaires amis


 

 


Vol de papillon

Le noeud papillon sous toutes ses formes
   
  Le noeud papillon, TOPOGRAPHIE D'INTERNET

La toile d'araignée est morte, vive le noeud papillon !

En mai 2000, des chercheurs d'IBM, Compacq, et Altavista achèvent la représentation graphique d'une carte topographique complète du WEB mondial et découvrent l'existence de division entre différentes zones d'internet pouvant rendre la navigation difficile voire impraticable sur le Web.

Cette recherche, effectuée sur l'analyse (crawl) de plus de 200 millions de pages web, prouve que la structure du réseau, que l'on croyait comparable à celle d'une toile d'araignée, représente en réalité 4 grandes zones organisées en noeud papillon.

On a pu constater de même qu'un nombre impressionant de sites Web était inaccessible par le biais des liens hypertextes. Or ces liens sont ce qu'un internaute utilise le plus au cours de ses navigations. La théorie du noeud papillon permet d'appréhender la dynamique comportementale du web et son organisation complexe.

vol de papillon

Le noeud est constitué de :

  1. Partie centrale (SCC, Strongly Connected Component), Noyau ultra connecté, représentant 56 millions. Pages au coeur d'Internet, indexées en priorité par les moteurs de recherche. Navigation aisée, toutes les pages étant reliées les unes aux autres par des liens hypertexte. Permet de passer par clics successifs d'une page IN vers une page OUT
  2. Partie gauche, IN: contient les pages d'origine que pointent vers la partie centrales (environ 44 millions) mais le noyau dur n'a pas de lien vers elle. Pages parsonnelles ou récentes, recevant peu de liens.
  3. Partie droite OUT: contient les pages de destination (environ 44 millions) c'est le contraire de la partie gauche, accessible depuis le noyau (mais pas de retour vers lui, sites commerciaux, d'entreprise, qui reçoivent beaucoup de lien mais qui en offrent que très raement (cul de sac du web en quelque sorte)
  4. Zone eloignée du coeur TENDRILS: pages non connectées au coeur du réseau (44 millions) mais accessible depuis les pages d'origine, ou donnant accès.

L’étude du web a permis également de révéler trois autres stuctures :

Des composants isolés : certaines zones du web sont isolées des zones principales SCC, IN et OUT. Aucun lien n’y mène, et aucun lien ne relie ces pages aux zones principales.

Les tubes : certaines zones du web, de taille plus réduites, relient les pages de la zone IN directement aux pages de la zone OUT, sans passer par la zone SCC...

Les vrilles : il s’agit de zones atypiques qui relient des sites isolés de l’ensemble, soit à la zone OUT, soit à la zone IN. Ces zones parfois éloignées s’étendent comme des "pseudopodes" ou des "vrilles de vigne" d’où leur nom... Les vrilles contiennent autant de pages que IN ou OUT

L’un des résultats les plus frappants de l’étude, c’est qu’il n’existe pas, en règle générale un chemin qui permet d’aller d’une page A du web à une page B en suivant les liens hypertextes. Cette propriété est l’apanage de la zone SCC, mais la zone SCC ne contient qu’un minorité de sites web...

Cela laisse songeur... Surtout quand on se remémore comment fonctionnent les crawlers des moteurs de recherche, c’est à dire en suivant les liens contenus dans les pages déjà indexées...

Le web a-t’il toujours la forme d’un noeud papillon ?

Rien n’est moins sûr... En quatre ans, le web a beaucoup changé, et les chercheurs n’avaient en plus analysé que l’index d’Altavista et ce que Scooter voyait à l’époque, c’est à dire pas grand chose...

On peut supposer sans prendre trop de risques que les zones SCC, IN et OUT, les tubes, les vrilles et les composants isolés continuent d’exister... Mais leur taille peut avoir sensiblement évolué. Ces résultats ont en tout cas ouvert la porte à d’autres études ( notamment sur les portions cachées du web) et révélé que la Toile n’est pas un tout uniforme : même au niveau macroscopique, la Toile est structurée en zones distinctes. Et il vaut mieux en tenir compte lorsque l’on envisage de crawler le web entier, pour faire un moteur de recherche grand public par exemple...

 
Design © 2004 Hersandesign pour kitgrafik Contenu © 2007 : Papillon

Agence Web - Xavbox - Gnome - plantes dépolluantes - Poker gratuit - Scrapbooking - seotons - Pandaranol
Opinions culturelles - Fleurs - webmarketing - coloriages gratuits - recettes smoothie - Template - Tableau végétal