a) Le web invisible

Le web visible et l’invisible (’deep web’) offrent donc des liens vers une masse presque incalculable de documents. Le web invisible correspond notamment au contenu des bases de données non indexées par les moteurs classiques, et aux pages créées dynamiquement à partir des informations d’une base de données. Son volume grossirait plus rapidement que celui du web visible. A ce jour, il y aurait par exemple 250 fois plus de pages accessibles par interrogation de bases de données que de pages web statiques, dont 95% en accès libre ! L’article comme objet privilégié de communication des chercheurs se détache de son support, le périodique, pour vivre indépendamment sur le réseau, ce qui bouleverse le domaine de l’édition scientifique. Les préprints, désormais accessibles rapidement et librement, révolutionnent également les circuits traditionnels et les coûts d’acquisition de l’information. On accède en fait plus à l’information ’à la carte’ qu’à un document.

La mise en base de données de tous ces articles constitue un formidable réservoir accessible via les moteurs des sites mais aussi maintenant par des moteurs spécialisés sur ces sources49. Les éditeurs de ces outils effectuent un travail de repérage et de paramétrage de leurs moteurs pour aller interroger directement les bases de données ou les pages générées dynamiquement. Souvent ces métamoteurs travaillent sur des ’packages’ de sources thématiques, ce qui rend les résultats bien sûr plus performants qu’un outil plus classique. L’expansion du web invisible va donc voir se développer de plus en plus ce type de moteurs spécialisés.

Il est vrai que l’Internet a vu fleurir au fil des années l’information journalistique et commerciale, alors qu’au départ l’information scientifique était majoritaire. La première n’est cependant pas à négliger pour la veille technique, car la rapidité de mise en ligne des actualités permet une surveillance continue et efficace de l’évolution de l’environnement (notamment sur les nouveaux produits et services, via les communiqués de presse).

Notes
49.

Strategic Finder, Lexibot de Bright Planet, ou des métamoteurs online comme The InvisibleWeb.com ou CompletPlanet.com