Le web sous tensions (V1)

Le web sous tensions (V1) - Espaces Temps

1. Vers une science du web

Il y a presque cinq ans Tim Berners-Lee et al. (2006) proposaient de créer une « science du web ». Ils en dessinaient le cadre général. Ils insistaient sur l'interdisciplinarité : « Comprendre et stimuler la croissance du World Wide Web, en termes à la fois techniques et sociétaux, nécessitera le développement d’un nouveau champ interdisciplinaire ».

Pour eux, une science du web devait combiner des traits des sciences de la nature (physique, biologie) et leur méthodologie inductive, d’autres traits de l’informatique dans la construction de nouvelles possibilités techniques, et d’autres encore des sciences humaines et sociales, pour repérer des régularités dans les interactions observées et leur articulation aux normes de comportement. Ils insistaient aussi sur la dimension éthique de leur proposition : « [appuyer] les valeurs sociales fondamentales de confiance, de respect de la vie privée (privacy) et de respect des limites sociales (social boundaries) ; décentralisation pour éviter les goulets d’étranglement sociaux ou techniques, ouverture pour un ré-emploi de l’information sous des formes inattendues et équité (fairness). »

1.1 Une science encore en chantier

Cinq ans après, le contraste est fort entre, d'un côté, l’évolution multiforme et explosive du web, la multiplication des études sur telle ou telle de ses facettes, et d’un autre côté, la modestie des propositions autour d’une science du web (Web Science Research Initiative – WSRI ; Webscience Trust). Il n’est pas sûr qu’on ne dispose encore ni d’un domaine de recherche cohérent ni de la feuille de route (clear research agenda ; coherent agenda) que Tim Berners-Lee et al. appelaient de leurs vœux. Les présentations plus récentes comme les rencontres donnent le sentiment de sous-domaines pas toujours articulés, avec des pluridisciplinarités limitées, en lieu et place d’une interdisciplinarité effective. Il faut donc aujourd’hui se poser la question de la possibilité ou de la nécessité d’une science du web et, si la nécessité s’en faisait sentir, de son objet, de ses méthodes et de ses contours.

On peut caractériser une science d’abord par le type de réalité traitée : la matière pour la physique, le vivant pour la biologie, l’homme pour la psychologie, la sociologie, etc. Dans cette optique, une science du web pourrait étudier l’architecture d’Internet, le réseau global qu’il constitue, et l'architecture de l'information (la matière qu'il contient). Mais il serait plus conforme aux phénomènes en cause que son objet soit un ensemble évolutif de réalisations techniques, la manière, évolutive aussi, et différenciée, dont les humains s’approprient – en les déplaçant – ces réalisations, et la relation entre les deux. Les techniques de communication dans leur interaction avec l’homme, l’homme dans son interaction avec ces techniques et aussi les interactions entre les hommes médiées par la technique.

Une autre caractérisation des sciences repose sur les méthodes employées : déduction (logique par exemple), induction et expérimentation (biologie), interprétation (sciences herméneutiques), introspection (psychologie) et bien sûr la méthode hypothético-déductive. Hormis la déduction à partir d'axiomes, une science du web semble devoir allier ces différentes méthodes.

Une autre délimitation s’opère sur le mode de validation des connaissances produites : le théorème, la règle (au sens de prescription, comme partiellement en linguistique), le fait (assertion non universelle, comme en histoire), la loi (assertion universelle, comme celle de la chute des corps) ou encore la régularité (le fait statistique). On voit mal qu’une science du web produise des théorèmes. Les régularités observées, comme l’invariance d’échelle ou l’existence de courts chemins et de « petits mondes », ne constituent pas des lois en tant que telles. On pourrait s’interroger par contre sur la place des règles. Le web est en effet un endroit de préconisations et de prescriptions : l’interaction entre les règles et l’usage y pose des problèmes similaires à ceux qui se rencontrent dans d'autres domaines articulant observation et normalisation (linguistique, biotechnologies, etc.). Le web se caractérise par le fait que toute innovation sur le réseau s'accompagne de l'élaboration de nouvelles normes. Il y a une coconstruction entre les pratiques et les normes.

Au total, une discipline vouée au web semble effectivement (devoir) mêler objets, méthodes et modes de validation des connaissances, ce qui s’accorderait avec l’ambition interdisciplinaire de ses tenants. On peut s’interroger alors sur le bien-fondé d’un projet de science interdisciplinaire. Existe-t-il d’autres cas, à part les neurosciences ou sciences cognitives ? À l’inverse, on peut remettre en cause les visions trop univoques des sciences pour insister sur la réalité des sciences telles qu’elles se pratiquent, dans l’alliance souvent des méthodes et des modes de validation.

1.2 Un objet mouvant

Le web se laisse mal « saisir ». Il évolue à un rythme extrêmement rapide. Personne ne se baigne(ra) dans la même Toile. Ainsi l'information consultée, et donc enregistrée sur la machine de l'internaute, ne représente que l'état d'un site à un instant donné et non sa réalité au moment de la consultation, car ce site a pu se modifier entre temps. Pour l’utilisateur individuel, en outre, de manière croissante, la « vue » qu’il obtient d’une partie du web est partiellement adaptée aux traces d’usage qu’il a laissées (avec des propositions qui relèvent du modèle général : ceux qui ont aimé W ont aussi aimé X, Y et Z). Pour le chercheur, les traces que ses outils lui permettent de constituer sont toujours fragmentaires et intrinsèquement en retard par rapport à la réalité qui n’a cessé de « bouger » pendant l’observation. Ainsi, archiver le web au sens propre est une tâche impossible, on n'archive qu'une représentation d'un web qui n'a jamais existé sous cette forme.

Sur le web tout paraît mesurable ou presque (la face cachée). Mais il est plus délicat de représenter les mesures. Les outils graphiques ont alors remplacé les chiffres et les équations. On peut cartographier les flux, les réseaux ou les dessiner sous forme de graphiques les plus divers et même faire évoluer les cartes en temps réel. La métaphore géographique est devenue une figure de rhétorique courante, tout comme les histogrammes et les pictogrammes. Des professions sont même nées de ces possibilités nouvelles de représentation, comme le journalisme de données (data-journalisme). Les visualisations, graphiques, cartes de toutes sortes nous rassurent : ces images donnent à croire qu’on sait faire la carte du territoire, pourtant en évolution permanente.

Cette avalanche de signes est aussi aveuglante. Sait-on vraiment ce que représentent toutes ces cartes, toutes ces courbes, toutes ces statistiques ? Nous manipulons des traces toujours plus volumineuses, complexes, sans vraiment pouvoir assurer de quoi elles sont la trace. Ces masses et leurs grandes tendances risquent de camoufler des sous-espaces ou des singularités. Nous sommes aussi souvent sans recul et donc sans possibilité d'analyse dans la position de la carte 1:1 de Borges-Miranda (ou d'U. Eco) ou de la mémoire universelle de Borges-Fuentes. Plus troublant encore, nous sommes dans les deux cas au sens propre dans ce qui n'était autrefois que des images philosophico-poétiques. La carte du web peut devenir un territoire à explorer (Joliveau, 2007) et l'enregistrement à grande échelle des données fait que certains s'interrogent pour transformer en droit ce qui n'était qu'une fatalité : l'oubli (Commission européenne, 2011).

Nous sommes dans la logique du plausible, alors même que les outils par leur précision et leur capacité de calcul peuvent donner le sentiment (l’illusion ?) de l’appréhension directe, effective des phénomènes. Le web n’est en fait pas une réalité dont il est possible de « prendre un instantané ». Il s’agit donc d’induire des régularités à partir de flux toujours partiels (stream mining) et nécessairement infidèles, sans qu’on puisse connaître avec certitude l’ensemble ni même la partie. Le web force donc à une sorte d’archéologie d’un présent infiniment fuyant. Il faut inventer uneépistémologie qui permette de comprendre un objet sans pouvoir le représenter, à la manière des astrophysiciens observant une étoile déjà éteinte. Et en même temps, il faut mettre du sens sur des représentations dont il devient difficile de s'abstraire.

1.3 Des outils à construire

Malgré la multiplication à un rythme extrêmement rapide des outils d'analyse, il n’y a pas encore de « boîte à outils » pratiques et théoriques pour l’étude du web qui articule en un ensemble cohérent les angles d'attaque et les instrumentalisations possibles. Cette boîte à outils reste à constituer et à perfectionner au rythme de son objet. L'extrême rapidité des changements dépasse de loin le rythme scientifique et conduit à un retard entre les instruments de l'observation et son objet.

La nature du web conduit à associer de multiples niveaux d’analyse, depuis des études « en largeur », aussi globales que possible (topologie et évolution du réseau) jusqu’à des approches plus monographiques qui visent à faire émerger des « idéaux types » (sur les types de comportement des internautes dans le rapport intime/public, par exemple). On peut distinguer deux grandes catégories de travaux si l'on se réfère aux sites web : des approches en extension qui visent à cartographier le réseau des liens et/ou les contenus des sites, autrement dit les documents du web, et d'autres qui visent à cartographier les usages, la navigation des usagers dans les espaces numériques proposés (approches centrées sur l'analyse des sites ou sur l'analyse de panels d'utilisateurs). À ce jour, à notre connaissance peu de travaux ont permis d'articuler finement le point de vue de la production à celui de la réception. Autrement dit, les outils qui permettraient de visualiser et analyser le web et d'y projeter les parcours des utilisateurs restent à construire. Les approches locales centrées sur un espace ou un sous-espace numérique spécifique (forum, Facebook, Twitter...) permettent de mieux articuler les deux dimensions. L’articulation entre ces niveaux d’analyse, leur mise en convergence ou triangulation semble actuellement plus de l’ordre du projet que de la réalité. De fait, ces niveaux relèvent au départ de méthodologies voire d’épistémologies distinctes, sinon contradictoires. Un bon exemple des questions ouvertes et de leur diversité est donné par la feuille de route de Nigel Shadbolt (2008).

Le web est un lieu d’expressions et d’interactions, c’est donc un terrain naturel d’études pour les sciences humaines et sociales. Mais les phénomènes observés le sont nécessairement au travers du prisme numérique. Un dialogue et une collaboration sont nécessaires entre ceux qui maîtrisent la construction de l’outil et ceux qui maîtrisent l’observation des interactions humaines. Dans cette perspective, les premiers développements de ce qu’on appelle les humanités numériques sont prometteurs.

Les termes « humanités numériques » ou « Digital Humanities » font encore débat, car ils voudraient nommer — et donc aider à voir et à faire vivre — un mouvement aux frontières et définitions encore floues. Certains hésitent même sur la traduction française qui effacerait les sciences sociales présentes dans la dénomination anglaise. Ce domaine est un territoire de recherche et de développements technologiques des plus actifs depuis une dizaine d'années. Ilpuisse pourtant ses racines dans des recherches menées dans les années soixante-dix, alors qu'une communauté de chercheurs a vu dans les développements en informatique et en intelligence artificielle des outils pouvant assister le travail du chercheur en sciences humaines. À cette époque, quelques revues scientifiques furent entièrement consacrées à la diffusion des résultats de recherches alliant l'informatique et les sciences humaines (Computers and the humanities, CIRPHO). Durant les années quatre-vingt, les travaux se sont poursuivis, mais l'intérêt des chercheurs s'est quelque peu essoufflé. Ce n'est que vers le milieu des années quatre-vingt-dix, lorsque d'importantes initiatives de numérisation des documents et de diffusion de ces documents sur le web, que les travaux se sont développés à nouveau pour constituer ce que l'on appela d'abord les « Humanities computing », puis les « Digital Humanities » (notion plus englobante qui ne se limite pas au développement d'un outillage dédié au traitement des documents) (Svensson, 2010). Pour Svensson, le champ des Digital Humanities s'organise aujourd’hui selon cinq manières de concevoir l’engagement entre les technologies de l’information et les humanités : comme outil, comme objet de recherche, comme moyen d’expression, comme laboratoire d’expérimentation ou encore comme une attitude (vers l'art et l'engagement militant). Cependant, ce découpage a le défaut d’en rester à une dichotomie entre monde réel et monde virtuel. Il pose une rupture épistémique entre ceux qui font des Sciences humaines et sociales en utilisant des outils et ceux qui ont comme objet de recherche les technologies de l’information, en particulier internet. En fait, la numérisation et la mise en réseau obligent à inclure dans toutes les questions des sciences humaines, la question de la place du numérique. Les questions de recherche ne peuvent faire abstraction de la technologie qui équipe maintenant toutes les activités sociales. Il n’y a pas d’un côté le monde réel, de l’autre le monde virtuel, mais des univers augmentés par la technologie qui reconfigurent les activités humaines.

Quoi qu'il en soit, nous devons maintenant constater que le numérique est entré en force dans les sciences humaines et sociales (et il y restera) en leur fournissant des instruments de mesures et d'observation jusqu'ici inconnus, en modifiant le régime de la preuve, en transformant ses objets d'analyse ou leur représentation et donc en en transformant à terme leurs épistémologies. Pourtant, cet effort semble encore loin de répondre à l’ampleur de l’enjeu. Le projet d’une science du web est global et vise à intégrer les différents points de vue, tandis que celui des humanités numériques paraît aujourd’hui cantonné à des dialogues plus ponctuels, discipline par discipline.

1.4 Technoscience ou sociotechnique

Une science du web relèverait alors des technosciences ou d’une approche sociotechnique selon que le chercheur est issu des sciences exactes ou des sciences humaines et sociales. Les études qui y sont menées exercent une rétroaction sur la réalité observée. L’observation des liens entre pages conduit ainsi à inventer l’algorithme PageRankqui contribue en retour à faire évoluer ces liens par l’usage. À l’inverse, des innovations techniques, comme les rétroliens (trackbacks) sur les blogs, ont changé la nature et les enjeux de la blogosphère. De telles sciences remettent en cause tant le déterminisme technique (il n’y a pas de futur tout tracé dans la généalogie des techniques) que le déterminisme social (les individus et les collectifs sont transformés par les usages qu’ils homologuent et leurs comportements sont peu prédictibles). En ce sens, une telle science devrait avoir pour but explicite de contribuer au débat sur les futurs possibles et les futurs souhaitables.

Elle doit permettre de comprendre non seulement ce qu’est le web, mais ce qu’il peut être : elle a partie liée avec une éthique du futur, dans une acception plus large que celle de Tim Berners-Lee et al. Les « valeurs » avancées par ces derniers sont en effet minimales, la question du pouvoir et celle du dissensus restent dans l’ombre. On peut proposer par exemple que la science-fiction, le roman, la création littéraire et artistique au sens large soient mis à contribution comme des moyens irremplaçables de suggérer des futurs et d’aider à les peser, à les organiser.

Pour conclure, sans doute serait-il irresponsable de ne pas travailler aujourd’hui à l’existence et au développement d’une science du web. Plutôt que s’interroger sur le bien-fondé d’une science du web, ne faut-il pas d’abord se poser la question des risques que l’on prend à ne pas disposer d’une telle vue surplombante ? Ce serait un peu comme faire face au réchauffement climatique sans modélisation basée sur de multiples mesures et expérimentations pour en comprendre la complexité. À l’inverse, une science du web contribuerait à lutter contre le « présentéisme » ambiant. Elle conduirait à se remettre à peser les présents et à imaginer des futurs.

2. Naissance d’un média

Le web évolue, à une rapidité et dans des volumes déstabilisants, au moment même où nous l'observons et, qu'on le veuille ou non, nous sommes des acteurs de cette évolution. Le premier défi auquel nous sommes confrontés est de trouver les bons concepts pour analyser notre objet, le web, sans le recul que fournit habituellement l'Histoire ou l'extériorité, mais avec la volonté de resituer son évolution dans celle, au fil des siècles, des grandes opérations intellectuelles : lire, écrire, classer, etc.

La plupart du temps, le web est présenté comme le résultat de son architecture (http, url, liens, html, réseau décentralisé). Mais cette présentation n'explique pas pourquoi il a rencontré le succès, ni pourquoi certains services se sont développés tandis que d'autres n'ont pas réussi à décoller.

Pour avancer dans l'analyse, nous proposons d'étudier le web comme le résultat d'une tension entre une logique informationnelle et une logique communicationnelle, entre information et communication, qu'il est possible d'observer aussi bien comme un processus mettant en jeu des humains entre eux que des machines entre elles ou encore un mélange entre les deux. « Information » doit ici être comprise comme « information consignée », en anglais on dira« record », enregistrement. « Communication » doit être comprise comme une transmission de messages entre actants, humains ou non humains. La transmission d'un message ne présuppose pas qu'il soit enregistré, inversement son enregistrement ne présuppose pas qu'il soit transmis.

Nous aborderons cette tension sous deux angles :

l'un, au niveau macro, portant sur la tension entre médias de masse et industries des télécommunications ;
l'autre, au niveau micro, mettant en scène la tension entre signe et signal opérée par Internet.

2.1 Un média à l'interface entre publication et conversation

Internet en tant qu’innovation sociotechnique relève de la rencontre improbable entre l’idéologie méritocratique de la recherche (financée en l'occurrence par l’armée) et une forme de la contre-culture américaine. Les origines d’Internet remontent au réseau Arpanet mis en place à la fin des années 1960 par l’ARPA, organisme qui pilote et finance des travaux de recherche de pointe pour la défense. Les équipes universitaires sont à l’origine du projet de mise en place d’une architecture distribuée de communication entre machines. La contre-culture, dans son souhait d’expérimenter de nouvelles formes d’organisations sociales, teste les possibilités offertes par la mise en réseau. La première communauté virtuelle, The Well, constituée dans les années 1980 et dont a rendu compte Howard Rheingold (2000), permet au groupe d'expérimenter la conversation collective à distance via des ordinateurs.

L’internet et ses différents protocoles de communication, dont le fameux http qui organise le web, viennent occuper un espace laissé vacant dans le paysage technicomédiatique des années quatre-vingt-dix. Internet constitue une technologie sociale inédite à la croisée des industries des télécommunications et des médias de masse qui ont déjà de plusieurs décennies à plus d'un siècle d'existence. D'un côté, les télécommunications disposent de technologies qui autorisent la communication symétrique de point à point, autrement dit la conversation, ou plutôt le dialogue à distance. De l’autre les médias dits de masse, ou les industries du contenu, se sont organisés selon des formes de communication de un vers plusieurs, de broadcast, asymétriques puisque le retour des récepteurs vers les producteurs est quasi-inexistant. Entre la communication symétrique « de un à un » et la communication de masse « de un vers plusieurs », émerge avec internet un dispositif sociotechnique qui permet la communication de petits groupes à distance (les « communautés virtuelles »). En effet, la communication dans les petits groupes (les salons littéraires, les réunions, etc.) était identifiée de longue date comme un genre particulier, mais jusque-là aucune technologie n'avait émergé pour lui permettre de s’abstraire de la coprésence. L’innovation principale d’internet se situe dans ces outils de conversation à plusieurs où l'écrit occupe souvent une place centrale.

La communication dans les petits collectifs se définit selon un principe d’égalité et de parité des points de vue (il n’y aurait pas de barrière apparente à la participation) et se caractérise par la réversibilité des places (chaque membre est tantôt récepteur, tantôt producteur). C'est bien sur ce principe qu'a été imaginée l'architecture du web. Dans la pratique, comme dans tout groupe ou collectif humain, on y constate une hiérarchie des positions très marquée et une grande diversité dans les modes d’engagement : du simple spectateur invisible au leader du groupe.

Parallèlement, internet a importé les caractéristiques des autres médias : des services de communication interpersonnelle y sont présents comme le mail, la téléphonie et des services de publication de masse (les médias traditionnels) y ont trouvé une nouvelle place. Cette hybridation ou convergence des deux industries a évidemment des rétroactions sur les deux secteurs. On voit ainsi se développer pour les industries de masse, une mise en visibilité de la réception et des spectateurs et pour les industries des télécommunications la connexion avec le partage de contenus. L'observation des sites de réseaux sociaux, qui se situent à l'articulation des deux mondes, montre à quel point les contenus, les documents, sont devenus une ressource centrale des interactions et réciproquement que les documents n'existent qu'au travers de ce travail de signalement opéré par les individus.

Il s'en suit un premier constat : une mise en tension entre les activités de publication et de conversation et de nouvelles formes d'imbrications à travers l'activité de commentaire ou d'annotation. En effet, les productions, les documents, sont directement immergées dans un espace de réception visible et actif. Internet propose donc un espace où publication (au sens lâche de rendre publiques des productions) et conversation se trouvent imbriquées d'une manière originale. Un même environnement sert à la lecture et l'écriture (le clavier et l'écran), on glisse de la posture de lecture à celle d'écriture en un clic. Toute publication devient ainsi une ressource conversationnelle, avec les commentaires qui viennent s'inscrire dans le même espace que les textes. Ces pratiques rappellent celles de l'avant-imprimerie. « Dans l'immense tissu conjonctif de la mémoire médiévale circulent épars, des textes - d'Aristote à Quintilien, d'Augustin à Thomas d'Aquin, des Psaumes à Chaucer. Les auteurs les confrontent, les “rapiècent» in abstracto, avant de les coucher sur le velin des manuscrits, selon des procédures parfois étrangement proches de nos manipulations informatiques » peut-on lire sur la 4e de couverture du livre de Mary Carruthers (2002).Récemment, Thomas Petitt (2010) a suggéré même que nous vivions une révolution à rebours, passée la « parenthèse Gutenberg » nous retrouverions la relation à l'écrit du Moyen-Âge.

Alors que les industries culturelles ont au cours de ces derniers siècles (depuis l'invention de l'imprimerie) travaillé à la séparation radicale entre les fonctions de production et celles de réception (imposer progressivement le silence pendant les spectacles – en particulier au théâtre, faire des livres qui n'intègrent pas les commentaires des lecteurs – contrairement aux textes de manuscrits entourés des commentaires, mettre à distance le public avec le cinéma et la télévision, etc.), on assiste avec le web à la mise en visibilité de la réception autour des productions. Le public est présent, visible. Il ne constitue plus une masse anonyme. Il se singularise au contraire en individus qui commentent, évaluent et contribuent à la constitution de la valeur des documents. Celle-ci se construit à travers le réseau de lecteurs en fonction de l'attention qu'ils accordent. La présence du public au sein même des documents oblige à penser les frontières du document : les commentaires en sont-ils une partie constituante, si oui, quelle place leur accorder dans la réflexion sur l'archivage et la transmission ? Comment rendre compte des réseaux de lecteurs autour des documents ? Comment intégrer le rôle de la réception dans la création de la valeur des documents ?

2.2 Un rapprochement inédit entre signe et signal

Cette logique de rapprochement entre la publication et la communication peut s’analyser également en s’interrogeant sur la confrontation ou la tension s’instaurant entre le signe et le signal, opposition classique, mais que l’internet et le web reconfigurent.

D’un côté donc, on aurait le signe comme objet physique, mais signifiant. Rencontre entre une matérialité physique et une interprétation sémiotique, le signe opère quand on le comprend comme une adresse, une intention laissée ou adressée à un esprit capable d’interprétation. La logique du signe se déploie alors en « contenus », c’est-à-dire des objets physiques prêtant leur matérialité pour manifester une forme sémiotique d’expression (un support papier et une forme graphique, un support acoustique et une forme verbale, etc.). Les contenus peuvent avoir une pérennité et une persistance quand leur substrat matériel le permet, ils deviennent ainsi des « inscriptions », des « documents » même, quand ces inscriptions sont prises dans un contexte éditorial, auctorial et lectorial.

D’un autre côté, on aurait le signal. Le signal est compris ici comme un événement physique qui est reconnu comme tel, c’est-à-dire comme faisant événement, une différence par rapport à son environnement. La logique du signal est celle de l’interaction, d’une réaction qui va de l’automatisme à l’interprétation. Le signal n’est pas en soi quelque chose de purement physique, car toute variation n’est pas un signal en soi : pour être un signal, il faut que l’événement ou la variation exprime ou manifeste quelque chose qui réponde à un horizon d’attente pour celui ou ce qui réagira à la variation comme à un signal.

En simplifiant, disons que le signe est une information, le signal une communication, et les deux renvoient à des degrés divers à l’interprétation. Si on considère le signe et le signal du point de vue de l’horizon interprétatif humain qui s’en saisit, on pourra dire que le signe renvoie à notre rapport à la pensée et à la connaissance, alors que le signal à notre rapport à autrui. Connaissance d’un côté, connivence de l’autre, sont les deux modalités herméneutiques à partir desquelles nous abordons les contenus et les interactions.

Le signe comme logique du contenu et de l’inscription, le signal comme logique de l’événement et de l’interaction ont donné lieu traditionnellement à des univers séparés comme on l’a dit plus haut : celui de la publication d’un côté ou de la communication de l’autre. Cependant, le numérique modifie cette distinction et cette séparation en les rapprochant de manière inédite. D’une part, tout signe, tout contenu devient mobilisable dans un échange documentaire, le signe manipulable devenant transmissible via le signal. La logique de la publication s’ouvre à une interaction où le contenu documentaire s’hybride au gré des échanges effectués. D’autre part, le signal devient un objet que l’on peut inscrire, tracer et dès lors y revenir. Le signal devient un signe manipulable. Par exemple, le signe qu'est le document devient le fruit, dans les réseaux, d'une collaboration interactive où la possibilité de la modification propre au document comme signe devient l'objet de la communication. Le document que vous êtes en train de lire a été écrit de cette manière. Mais réciproquement, le signal qui pouvait n'être que transmis, par exemple le signal vidéo des débuts de la télévision qu'on ne savait pas enregistrer (l'enregistrement vidéo n'est arrivé que bien après la transmission vidéo ; on enregistrait sur des supports film au départ), devient d'emblée un enregistrement du fait même de la technique de transmission numérique. Mais étant enregistré, il hérite de la possibilité d'être manipulé, possibilité inhérente à l'inscription sur un support.

Des phénomènes prennent alors une ampleur nouvelle et soulèvent de nouvelles questions. La logique de la publication est confrontée à un progressif effacement du contenu au profit des dialogues et échanges désynchronisés. La publication laisse la place à un flux ininterrompu d’échanges, que la durée de transmission ne permet pas de ralentir, mais amène au contraire sans cesse à accélérer. Nous ne sommes plus dans l’échange épistolaire, mais dans la surcharge permanente, le commentaire sans fin, voire dans un échange qui n’a plus besoin de contenu, mais seulement de l’interaction. Le contenu s'affaiblit au profit d’une interaction sans cesse plus soutenue pour maintenir l’impression du lien et du partage. Paradoxalement, on n'observe pas nécessairement un renforcement du lien social comme on aurait pu s'y attendre en considérant que le rapport à l'autre primait sur le rapport au contenu. La logique de l’interaction sous-tendue par les gestes communicants (par exemple sur les réseaux sociaux, les blogs, etc.) maintient la dynamique de la communication (rythme des échanges sur les outils comme MSN ou Skype, Twitter, etc.) sans toujours développer la connivence à autrui ni rendre possible sa découverte. Les conditions d'établissement de la communication (le phatique) occultent ainsi le contenu (le rhématique) et la personne à laquelle on s'adresse. Cette dernière se réduit à un signal manifestant une réponse du système, sans nécessairement manifester un contenu ni justifier un dialogue. L’exténuation du contenu (le phatique occultant le rhématique) peut s’accompagner d’un isolement de l’internaute qui ne se raccroche ni à un contenu ni à une personne. Alors, l'interaction peut se faire au détriment de la communication dans la mesure où le rythme de l'échange instrumenté par les outils de web permet bien d'avoir des signaux émis de chaque côté, sans qu'ils disent nécessairement quelque chose ni qu'ils manifestent une personne avec laquelle s'engager et construire un dialogue.

Mais si les signaux échangés sont plus des marques de communication que des contenus pour ceux qui les lisent et les produisent, réciproquement ceux qui les collectent instrumentent et exploitent leur nature numérique comme des traces et des signes. La trace devient massive et globale. Souvent, la masse des traces collectées implique qu’on ne peut en avoir qu’une étude globale, certes quantitative, mais approximative, faisant reposer l’interprétation sur la foi en des outils complexes d’exploitation et de visualisation où la donnée originale n’est pas accessible ni intelligible en tant que telle. Les données collectées ont alors moins de sens que les modèles construits pour les interpréter ne le supposent, entraînant un hiatus entre le traitement global des données et l’intelligence des phénomènes. On serait davantage dans la mystique du modèle que dans l’épistémologie de la trace.

Avec la question de l'intelligibilité celle de la déontologie est posée. En effet, la trace peut-elle être interprétée pour comprendre ce dont elle est la trace ? En quoi est-elle digne de foi ? De quoi parle-t-elle ? Ces données étant collectées et produites par des individus, elles réduisent ces derniers à quelques informations qui prétendent les résumer. Quelle valeur ces traces confèrent-elles et transmettent-elles aux actions qui les produisent ? Une déontologie de la trace doit compléter son épistémologie. Alors que les droits de la personne étaient protégés dans les médias traditionnels (droit à l'image, protection de la vie privée), ils doivent trouver de nouvelles modalités lorsque des traces des internautes sont réinterprétées, lucidement ou non et à l'insu de ces derniers.

Ces problèmes ne sont pas des obstacles ni des objections, mais l’indice qu’on tient là de nouveaux enjeux suscités par un nouveau média dont il faut prendre au sérieux la rupture qu’il entraîne vis-à-vis de nos pratiques intellectuelles habituelles. Paradigme en émergence, sans doute, à explorer selon les différents niveaux de l’investigation scientifique, de l’épistémologie à l’éthique en passant par la théorisation et la modélisation (ce qui n’est pas la même chose).

2.3 Un média comme résolution de la tension information-communication

D'une façon générale, il nous paraît que la tension entre information et communication est une bonne entrée pour comprendre la mise en place d'un média. Il est probable que les médias précédents, presse, radio et télévision pour ne parler que des plus récents, sont issus d'une tension du même ordre entre information et communication selon les modalités, technique, intellectuelle et sociale, particulières à leur époque. Chaque fois la société cherche les modalités les plus opportunes pour se parler d'elle-même à elle-même.

Notre époque se caractérise à la fois par le développement du numérique, un développement sans précédent de l'instruction, et des transformations sociales considérables (flux migratoires, familles éclatées, espérance de vie…). C'est dans ce contexte que le web cherche sa voie comme média nouveau.

Il reste à comprendre quelle est la spécificité du web qui a justifié son succès. Notre proposition est donc que le numérique résout de façon originale la tension précédente entre logiques informationnelle et communicationnelle, tout en posant à la société des défis inédits.

Pour avancer sur cette proposition, reprenons l'analyse du document numérique selon trois angles déjà réalisée (Pédauque, 2003), la forme, le signe ou le texte et le médium. Selon cette proposition, nous assisterions à la naissance d'un média, à partir de la résolution des tensions qui apparaissent dans chacune des dimensions, par tâtonnements successifs, essais et erreurs, et stratégies plus ou moins chaotiques politiques ou commerciales. Celles-ci trouvent une résolution lorsqu'elles entrent en résonance avec d'une part les opportunités des systèmes numériques et d'autre part les besoins d'information/communication de la société contemporaine. Aujourd'hui,moteurs de recherche, réseaux sociaux, peer-to-peer sont autant de tentatives de résolution.

Il est possible de représenter les tensions précédentes selon ce même découpage sous forme de tableaux.

Le tableau 1 présente en colonne les deux logiques, déclinées en trois groupes de lignes selon les trois dimensions, notons que les tensions s'exercent autant sur le système technique (numérique) que sur le système social (humain). Deux exemples ont été pointés par dimension pour illustrer la tension.

Le tableau 2 schématise quelques éléments de résolution en complétant la colonne du milieu. La résolution de la première dimension est l'architecture informatique (Http, Url, liens. Html, réseau décentralisé), pour la seconde nous avons souligné le caractère éphémère qui caractérise aujourd'hui bon nombre de documents sur le web et pour la troisième l'avènement de communautés virtuelles.

Analysant le processus de réingénierie documentaire, que nous avions baptisé redocumentarisation dans le troisième texte collectif du RTP doc (Pédauque, 2006), nous soulignions dans le résumé que les principes de celle-ci ne concordent pas toujours avec les postulats de l’ordre documentaire précédent et n’épousent pas obligatoirement les contours traditionnels de la communication sociale. En fait, souvent présenté comme radical, le processus relève plutôt d’une hybridation où les médiations se reconstituent en permanence. Il induit de nombreux décalages, tout autant sources de malentendus fâcheux que de fortunes rapides et de perspectives prometteuses. Aujourd'hui, ces décalages sont devenus des défis pour la science du web et pour la société tout entière.

Autrement dit, les résolutions précédentes sont autant de défis que l'on peut illustrer toujours sur le tableau en remplaçant les premières par quelques-uns des seconds.

3. La dimension temporelle des documents

Au moins dans les organisations, l'impératif documentaire et la sur-documentation que nous avions repérés il y a quatre ans (Pédauque, 2006) ne se sont pas ralentis. Dans nombre d'entreprises, le document stable au sens traditionnel garde toute sa valeur de régulation. Néanmoins, le rapport et les notes ont peu à peu cédé la place à des documents PowerPoint dont la pauvreté en termes de contenu a souvent été soulignée et dont la pérennité est très faible. Le courrier électronique, le document PowerPoint, et les flux dans les applications du système d’information sont devenus les genres écrits dominants de l'organisation qui ne favorisent pas la gestion des documents.

Il est aussi des activités qui peinent depuis longtemps à gérer des documents. Ainsi, le secteur de la santé sait très bien gérer les données médicales, pour les analyses, les diagnostics ou encore les statistiques épidémiologiques. Mais il rencontre de réelles difficultés pour les organiser en documents, alors même que l'importance d'une telle organisation est soulignée, comme le montrent les investissements et retards de mise en place des dossiers patients dans plusieurs pays.

Le web transforme radicalement les propriétés anciennes des documents. Nous écrivions dans notre premier texte collectif : Une évolution possible, mais non certaine, serait que les documents ainsi « rédigés » rejoignent des bases de données, centralisées ou distribuées, et que l’ensemble des fichiers s’apparente de plus en plus à un ou plusieurs vastes jeux de « Legos » où des briques de différentes tailles, formes et usages seraient agencées selon des configurations très variées. Un dernier pas serait ainsi en train de se franchir : un document n'aurait de forme à proprement parler qu'à deux moments : celui de sa conception par son auteur qui devra le visualiser ou l'entendre, pour s'assurer qu'il correspond à ses choix (et encore ce n'est pas obligatoire si sa production relève du processus) et celui de sa reconstruction par un lecteur. Il est peu probable que le document sera toujours identique dans l'un et l'autre cas. Une autre façon de concevoir cette évolution serait de considérer que le document est maintenant la base de données elle-même dont les différentes sorties ne seraient qu'une interprétation partielle de la richesse.(Pédauque, 2003). Ce qui relevait du possible il y a sept ans est maintenant de l'ordre de la routine. Parmi de très nombreux autres, l’évolution de la vente par correspondance rappelée plus bas en constitue une illustration exemplaire.

Le document devient hybride entre une représentation statique et un flux, entre une structure stable et une recomposition à la volée à partir d'informations tirées de bases de données. Le document sur le web est aujourd'hui bien souvent reconstruit à la demande, recalculé et modifié par l'interaction. La dimension temporelle du document est devenue essentielle et il faut approfondir une notion déjà évoquée au sein du RTP doc (Calabretto & alii, 2004) devenue aujourd'hui primordiale : le temps du document et sa stabilité.

3.1 Archivistique et web

Nous l'avons dit, le contenu n'existe qu'au moment où il est consulté et que les signes que l'on manipule sont toujours en retard sur ce dont ils sont l’inscription. De nouvelles formes expressives émergent, collectives, interactives, éphémères. Les formes narratives, elles-même, sont modifiées par les capacités manipulatoires. Des formes nouvelles naissent, puisant dans celles du récit ou des jeux, sans pour autant s'y réduire. Ces formes-là posent de nouvelles problématiques d'archivage, car elles ne se réduisent ni à un texte, ni à une règle.

En résumé, on ne dispose plus que de traces du document, toujours en retard ou décalées. Le document comme objet est devenu insaisissable. Il faut alors en reconstruire une image probable, plausible. Les fondements de l'authenticité et de l'originalité en archivistique sont donc ébranlés. Mais dans le même temps, des pratiques archivistiques anciennes comme la diplomatique ou encore l'interprétation des copies trouvent une justification nouvelle.

Archiver le web est un travail de Sisyphe. Néanmoins, la problématique temporelle est familière aux archivistes. Une réflexion de fond sur l’archivistique numérique est déjà engagée au niveau international. Il serait sans doute fructueux de la croiser avec les réflexions sur une science du web.

3.2 Multitemporalité

Le numérique a considérablement changé le rapport du document au temps. La dimension temporelle du document ne se limite plus à son cycle de vie, c'est-à-dire à un temps long ; elle concerne également le document lui-même dans une granularité beaucoup plus fine.

Toutes les étapes de la vie d'un document ont été touchées par la numérisation. La transition de ces étapes vers le numérique s'est déroulé indépendamment pour chacune : de la machine à écrire (ou de la plume) au traitement de texte pour l'écriture et la révision, du plomb au desktop publishing pour la composition, du camion au réseau pour la distribution, du papier à l'écran pour la lecture, de l'armoire aux bases de données pour l'archivage. Ce n'est que lorsque la chaîne a été complètement numérisée que le cycle de vie des documents s'est profondément transformé, par l'efficacité et la souplesse apportée à chaque étape bien sûr, mais surtout par la fusion des étapes les unes avec les autres. Cela a abouti au web, où toutes les opérations sont intégrées et peuvent être enchaînées et répétées librement, à un coût très modeste.

Le support numérique n'a pas bouleversé seulement le processus, les métiers et les outils de production, il a aussi introduit la dimension temporelle à l'intérieur du document. Le document textuel s'était enrichi de dessins puis de photographies, mais il était resté statique, figé dans le temps par l'impression. Le numérique y a intégré le son et l'image animée, voire l'entrée de données par l'utilisateur (formulaire), et lui a apporté ainsi un comportement dynamique. Le temps intrinsèque de ces nouveaux contenus s'est propagé aux parties statiques qui se sont animées à leur tour, soit sous le contrôle du lecteur, soit en synchronisation avec les contenus temporels.

La contraction du temps de production des documents (accompagnée de la simplification drastique des moyens et outils) et l'introduction de la dimension temporelle dans les documents eux-mêmes ont bouleversé la notion de document et fait tomber les barrières entre les genres. Prenons l'exemple de la vente par correspondance (vente en ligne maintenant). Plusieurs documents de genres très différents étaient traditionnellement utilisés : un catalogue réédité à intervalles réguliers (tous les ans, par exemple), des bons de commande préimprimés remplis par les clients, des factures éditées à chaque commande par le commerçant. Chacun de ces documents était produit et utilisé d'une façon particulière. Aujourd'hui, un site web marchand offre un « catalogue » multimédia qui change tous les jours. Le client interagit avec ce « catalogue » et le bon de commande se crée automatiquement, depuis le catalogue. Dès que le client l'a confirmé, le bon de commande se transforme en facture. En fait, l'utilisateur ne voit plus que des pages web qui se construisent au vol, les unes à partir des informations saisies dans les autres et à partir de fragments de documents et de données contenues dans des bases de données.

On peut multiplier ce type d'exemple à l'infini. Dans de très nombreuses activités où des documents caractéristiques jouaient des rôles bien spécifiques, tout a été lissé. Des documents sont toujours présents, mais ce ne sont plus les mêmes et ils ne sont plus utilisés de la même façon.

3.3 La stabilité comme critère

Dès lors la gestion du temps par la persistance, la constance ou la stabilité deviennent des caractéristiques fortespour le repérage de ce qui fait un document, puisque peu d'objets informationnels, on dit aujourd'hui des « ressources », réunissent ces traits sur le web. Pour avancer dans ce repérage, abordons la question sous un angle très pragmatique.

Quel genre de réponse obtient l’« internaute lambda » qui inscrit une adresse dans la case idoine de son navigateur ? Quels sont les éléments de structure qui peuvent laisser penser qu'il s'agit d'un document plutôt que d'une ressource quelconque ?

Absence d’erreur. Le déréférencement (ou invocation) de l’adresse entraîne-t-il la réception d’un flux de données quelconque ou résulte-t-il au contraire en une réponse du genre « ressource inexistante » ou « accès refusé » ?
Finitude de la réponse. Le déréférencement de l’adresse déclenche-t-il l’arrivée d’un flux incessant (théoriquement infini) de données ? Ou au contraire, déclenche-t-il l’arrivée d’une quantité finie de données ? Une station radio accédée en direct en « streaming » sur le web entraîne une réponse du premier type (flux incessant); une page web (statique ou dynamique) entraîne une réponse du second type. Un autre exemple de réponse « infinie » est une page web qui s’auto-rafraîchit à intervalle régulier pour présenter une information qui fluctue dans le temps, comme l’heure, la température ou les cotes de la bourse.
Constance de la réponse. La réponse obtenue est-elle répétable, c’est-à-dire toujours la même ? Nous ne voulons pas dire simplement toujours du même type, mais bien exactement la même à chaque invocation. Aucune ressource n’est assurée de ne jamais changer. Elle peut a minima rencontrer un problème technique ou même en toute légitimité être éditée de temps à autre, par exemple, pour corriger des erreurs ou refléter un changement quelconque dans le monde. En poussant à l'extrême, on pourrait dire qu'il n’y aurait aucune adresse à réponse répétable. Mais ce serait ignorer que beaucoup de ressources sont d’intérêt dans la société justement parce qu’elles ne changent, non pas jamais, mais du moins, pas trop souvent. Bien des informations ont une période de validité, fixée à l’avance ou non, que l’on met à profit en les mettant d’une manière ou d’une autre en cache (qui peut être la mémoire humaine), ce qui évite d’avoir à relire la ressource chaque fois que l'on veut y référer. Comment donc prendre en compte ces ressources qui sont stables pendant un certain temps ? Doit-on trancher sur la base de la durée de vie ? Ce serait sûrement une position défendable, mais nous postulons que c’est sur la base de l’intentionnalité qu’il est le plus utile de se baser. Par « réponse répétable », nous voudrons donc dire une réponse dont l’intention de son gestionnaire (c.-à-d. l’entité sociale responsable du fait que l’adresse est associée à quelque chose) est qu’elle demeure constante pendant une certaine période, peu importe sa durée.
Présence d’un noyau constant. Même s’il n’est pas prévu que la réponse soit constante, est-il du moins prévu que les réponses successives, sur une certaine période de temps, soient décomposables en cadres concentriques de telle façon qu’on retrouve toujours, à un certain niveau d’imbrication, un cadre identique ? Le critère suivant subdivise les cas de réponses non répétables. L’idée est que certaines réponses, bien que différentes, ont suffisamment de ressemblance pour qu’on puisse les considérer comme instanciant une réponse « relativement constante », c.-à-d. comportant un « noyau » constant. Pour ce critère, il faut oublier l’idée d’une réponse ayant la forme d’un flux de bits, et plutôt envisager la réponse comme un ensemble d’éléments informationnels présentés à l’humain.Plus spécifiquement (mais informellement), on envisagera ces éléments comme formant un certain nombre de « cadres » emboîtés les uns dans les autres de façon concentrique. Dans le domaine visuel, ces cadres pourraient être réellement des cadres imbriqués les uns dans les autres, et dans le domaine sonore, il pourrait s’agir de messages pré- et post-fixés à un message « payant » (payload); par exemple, des textes introductifs et conclusifs entourant une prestation musicale ou un discours.

L’idée sous-jacente est que la réponse permettra de traiter la tendance extrêmement répandue à présenter des ressources documentaires (au sens traditionnel) dans un « enrobage » d’informations périphériques volatiles, comme des commentaires des lecteurs, des nuages de tags, de la publicité, des fils de nouvelles, etc. (et de ne publier ces ressources documentaires que sous cette forme, et jamais dans une forme « épurée », dénudée de tout enrobage). Nous voulons pouvoir mettre en évidence que, dans des réponses différentes mais ne variant que par l’enrobage, peut se cacher un noyau « documentaire » constant digne d’intérêt.

Ces différents critères pourraient servir de base pour attribuer un sens aux expressions comme « document », « ressource informationnelle » et « service d’information ». Repenser la notion de document dans cette perspectiven’est pas que d’intérêt théorique. N'oublions pas, par exemple, que la stabilité du document est associée à sa fonction de preuve et vient souvent à l'appui de démarches légales.

4. Web sémantique, web de données

On le sait, les promoteurs du web et en premier son inventeur Tim Berners-Lee ont présenté le web comme une succession de phases. La première époque était celle du web des documents, puis devait venir le web sémantique. Aujourd'hui les promoteurs préfèrent nommer web de données le nouvel horizon du web.

Les données permettent d'aligner syntaxe et sémantique. Le schéma logique est le contrôle de la sémantique via la syntaxe. Inversement, un document est un ensemble de données qui garde une certaine autonomie quand on le déplace, c'est à dire qui transporte avec lui suffisamment de contexte pour permettre une intelligibilité. Document et données seraient alors les deux pôles d'un continuum.

Le numérique suppose que les ordinateurs puissent calculer et donc disposent d'éléments faciles à manipuler. Ainsi, le document n'est pas une entité aussi opportune que la donnée pour le système numérique : non sécable, elle peut facilement être manipulée par un langage logique et faire l'objet d'un calcul. Le défi est alors de passer du langage logique au langage naturel, des données au document, du calcul à l'interprétation, de la machine à l'humain.

4.1 Web des documents

Dans cette première phase, le web est capable d'assurer l'accès à des ressources documentaires (pages web, documents numériques) selon les principes des hypertextes. Le lecteur peut suivre des liens pour naviguer dans ce que l'on peut donc appeler un espace documentaire. La taille et le support de cet espace documentaire induisent de nouvelles questions, en particulier sur la notion de lecture (Boullier & alii, 2004)

La recherche d'informations sur le web nécessite en effet une indexation des ressources documentaires pour faciliter l'accès le plus rapide possible à un point de départ d'une navigation dans un espace documentaire qui se déploie sans limites visibles. L'indexation est assurée par des « moteurs » de recherche qui exploitent des index construits selon différents procédés, naturellement sans documentaliste pour assurer une organisation raisonnée des ressources, mais via des robots d'indexation (web crawlers) qui explorent systématiquement le web en remontant les liens jusqu'aux ressources documentaires qui sont analysées dans leur contenu essentiellement textuel. Une liste de tels robots est donnée dans Wikipédia. Ce principe d'accès à l'information en faisant d'abord une requête à un index, puis en naviguant à partir du point d'accès choisi est encore le mode d'usage du web le plus prégnant.

4.2 Web sémantique

Tim Berners Lee en 2001 lançait l'idée du « Semantic web » dans les colonnes de Scientific American : « une nouvelle forme de contenu du web qui va déclencher une révolution de nouvelles possibilités » (Berners-Lee & alii,2001). Ce principe avait été annoncé par une note du même auteur en 1998 intitulée « The semantic Web Road map» alors que date de 1997 le premier working draft de RDF (Resource Description Framework), ce langage destiné à permettre la notation et la combinaison standardisées de connaissances élémentaires.

À l'exploitation des ressources aveugle aux connaissances contenues qui caractérise le web des documents, le web sémantique propose d'ajouter des capacités d'enrichissement sémantique, permettant non seulement de décrire dans les protocoles du web les contenants mais aussi les contenus. Pour y parvenir, il est suggéré d'ajouter des marqueurs sémantiques pouvant être exploités par des moteurs d'inférence enrichissant les termes utilisés par des connaissances conceptuelles déclarées explicitement sous forme ontologique par exemple.

Deux usages majeurs en sont attendus :

d'une part la capacité à réaliser des moteurs d'indexation sémantique, décrivant les ressources en exploitant non seulement liens et textes, mais aussi les concepts associés, enrichissant immédiatement toute exploitation. C'est ainsi qu'une recherche sur « cheval » pourra être étendue à tout ce qui possède une relation ontologique forte avec cheval et permettre de sélectionner les ressources conceptuellement les plus proches même si elles ne possèdent pas le mot « cheval » dans leurs contenus textuels.
D'autre part, autoriser un accès « sémantique » en suivant des raisonnements sur les contenus plutôt qu'en navigant sur des liens préétablis. La recherche d'informations peut se faire alors par requête logique sur les contenus, à la manière d'une interrogation d'une base de connaissances.

Le web sémantique est un sujet d'étude particulièrement actif aussi bien dans le domaine de la recherche avec conférences et journaux (p. ex. JWS) que dans le domaine industriel et institutionnel par une activité de standardisation (w3c) et de passage au marché (Semantic Web Conference).

4.3 Web de données

La notion de web de données est à la fois la première réalisation pratique et une évolution de l'idée du web sémantique, plus précisément du second usage cité plus haut. En effet, s'il reste difficile de raisonner globalement sur le web considéré comme système à base de connaissances à cause de difficultés de cohérence, de monotonie des raisonnements, de dynamique des connaissances décrites, de confiance dans ces connaissances, etc., il est plus facile d'exploiter les possibilités de requêtage logique sur des données (par différence avec des documents) organisées logiquement à l'instar des bases de données relationnelles. C'est d'ailleurs probablement ce qu'avait en tête Tim Berners Lee quand il recommandait l'usage d'un langage commun d'une grande généralité comme RDF, avec des schémas (RDFschema) pour partager des cadres communs.

La différence essentielle avec la vision précédente du web tient au caractère exploitable de ce qui sera trouvé sur le web comme « données » pour des traitements. Le résultat d'une requête peut alors être l'entrée d'une inférence et produire automatiquement de nouvelles données disponibles à leur tour dans le web de données. L'initiative Dbpediaest une illustration caractéristique de cette notion de web de données extrayant des données pouvant faire l'objet de requêtes logiques, à partir des informations de Wikipédia. Dbpedia est développé dans l'environnement de ce qu'on appelle les Linking Open Data (LOD).

Si les formats et les langages partagés sont une des conditions du développement du LOD, l'autre est la mise à disposition de ces données dans un modèle économique viable. Sur cette question, la mise à disposition de données déjà publiques, en particulier des services publics des États, rendues beaucoup plus accessibles, sera un accélérateur de cette réussite. Déjà, le gouvernement fédéral américain (govtrack.us) ou l’INSEE en France (insee.fr) mettent les données publiques au format RDF dans des entrepôts qui peuvent être interrogés grâce au langage SPARQL.

La création des données sous une organisation logique est nécessaire pour que les inférences puissent être menées automatiquement et cette question relève de l'ingénierie des connaissances et souvent de découvertes de connaissances. De très nombreux travaux s'intéressent donc à la fouille du web (web mining) et se développent sans surprise dans le même cadre que les travaux du web sémantique.

4.4 Web sémantique versus web de données

Le passage du web sémantique au web de données peut être vu comme une évolution, mais c’est aussi la conséquence d’une réelle difficulté. Les standards du W3C ont été conçus sur le principe du « Freedom of speech » à tous les niveaux : au niveau structure de données (tout le monde peut dire tout ce qu’il veut sur tout) comme au niveau méta (tout le monde peut mobiliser et étendre les vocabulaires qu’il veut). Mais pour indexer tous les documents du web, il aurait fallu un « vocabulaire » unique – c.-à-d. une ontologie unique. Nous avions marqué notre inquiétude devant un risque d'appauvrissement ou une confusion de l’ordre des savoirs humains si une analyse correcte n’est pas faite du rôle des ontologies, refusant le « nominalisme » (Pédauque 2005). À l’inverse, construire une ontologie pour un domaine professionnel circonscrit (une spécialité médicale, par exemple) est tout à fait possible.

Les recherches sur le web sémantique ont alors évolué vers des questions de formats et vers le web de données. Tim Berners-Lee est là aussi un des principaux acteurs et l’évolution de son « cake » montre bien l’évolution du paradigme (cf. fig. 1).

Deux communautés de recherche issues de ce mouvement d'ensemble partent maintenant dans des directions un peu différentes :

Poursuivant la piste du web sémantique, les recherches sur les ontologies continuent en Ingénierie des connaissances pour des domaines circonscrits
Suivant celle du web de données, une autre communauté s'intéresse à des domaines larges dans lesquels les ontologies sont beaucoup plus petites et plus facilement partageables.

Dans le premier cas, les ontologies portent sur des domaines précis – e.g. pneumologie – et sont difficiles à construire et à être consensuelles ; dans le second cas, les ontologies sont plus simples, comme le Dublin Core(voire trop simple dans ce cas), FOAF, etc., et les langages mis en avant sont OWL/SPARQL (et SKOS pour les terminologies moins formelles). Ces deux directions de recherche semblent complémentaires.

Une autre façon d’interpréter la situation est de souligner que chaque appellation ne représente qu’une vision partielle :

« web de données » (web of data) insiste sur l’opportunité qui nous est offerte d’ouvrir les silos de données de toute taille depuis l’application individuelle de carnet d’adresses jusqu’aux immenses bases de génomique.
« web sémantique » (semantic web) met l’emphase sur la possibilité offerte d’échanger les schémas de nos données et la sémantique associée.
« données liées » (Linked Data / Linking Open Data) rappelle qu’une grande valeur ajoutée est dans l’utilisation et la réutilisation des URI pour joindre des assertions de différentes provenances, mais portant sur un même sujet.
« gigantesque graphe global » (Global Giant Graph) remet en perspective ces milliers de triplets distribués et le fait qu’à travers les URI ils tissent comme structure de données un graphe d’envergure mondiale.

Chaque libellé s’attache à une facette ; chaque appellation est un aveugle et a du mal à se représenter l’ensemble. L’ensemble est même peut-être plus grand encore. En effet, nos triplets sont de plus en plus souvent distribués par des services web (doit-on alors parler de « web de services » ?) parfois eux-mêmes décrits et indexés par le web sémantique (SAWSDL). Certains de ces triplets pourront nourrir ou être produits par des règles (RIF ; doit-on alors parler de « web de règles » ?). Certains seront au contraire produits par l’interaction avec le monde physique (« web de senseurs/capteurs/détecteurs »).

Plus on prend du recul par rapport aux recommandations individuelles et regarde l’architecture globale du web et plus on a l’impression d’avoir à faire à une nouvelle machine virtuelle mondiale offrant un nouveau paradigme de conception, développement et déploiement applicatif au sein duquel le « graphe du web sémantique de données liées » fournirait le métamodèle des structures de données. Tout comme les applications informatiques en général héritent toutes de la séparation des données et des algorithmes, le web applicatif se dote pour son envergure mondiale de langages pour chacune de ces deux facettes. On s'orienterait peut-être vers un « web des modèles ».

Quoi qu’il en soit, le web de données fait apparaître l’intérêt de la couche intermédiaire que RDF & SPARQL forment dans le gâteau du web sémantique. Elle est de plus en plus vue comme la couche structure de données entre le web classique (HTML, HTTP, URI, etc.) et le web logique (RDFS, OWL, RIF, etc.). L’évolution actuelle serait alors surtout symptomatique du potentiel intrinsèque de cette couche qui n’était pour l’instant vue que comme une étape vers le reste.

5. Utopies et architectures

Le web est à la fois une aventure et une construction. L’aventure a entraîné un nombre considérable d’internautes, plus ou moins impliqués. Elle n’aurait pas eu un tel succès si elle n’était portée par une ou plusieurs utopies. Parallèlement, les réalisations d’abord strictement informatique ont dû faire appel à d’autres compétences, tant du côté de l’organisation des contenus que de celui de la connaissance des utilisateurs. Celles-ci ont été synthétisées dans une nouvelle profession en émergence, les « architectes de l’information ».

5.1 Utopies et idéologies

L'aventure du web vue du côté de ses promoteurs peut aussi se lire comme celle d'une ou plusieurs utopies, vieilles comme les bibliothèques : donner accès à tout le savoir du monde. L’analogie entre le projet et celui qui a animé les promoteurs de l’Institut de bibliologie et du Mundaneum au tournant du siècle dernier est mutatis mutandisparticulièrement frappante. Voici à titre d’exemple une illustration tirée du livre testament de Paul Otlet (1934, p.41).

Il n’est sans doute pas innocent que pour ceux-là, comme pour les inventeurs de l’internet, puis du web, la science ait servi de modèle pour bâtir des utopies documentaires et configurer des systèmes, méthodes et outils, répondant à leurs rêves.

Même si les origines idéologiques de la toile ont déjà fait l’objet d’investigations (Flichy, 2001), le poids des utopies et des idéologies est encore très fort dans ce qui est vécu par nombre des acteurs comme une aventure extraordinaire, sinon une révolution. Le web est un creuset de rêves et de fantasmes de liberté, de transparence, de fortune rapide, de contrôles, etc. Les rêves soutiennent l’énergie des acteurs, font surgir des réalisations inattendues, occultent aussi des problèmes et des difficultés.

Il reste un travail à mener pour mieux analyser cette tension entre idéologie et utopie. Nous nous contenterons, pour le moment, de citer Paul Ricoeur : « [le] jeu croisé de l’idéologie et de l’utopie apparaît comme celui de deux directions fondamentales de l’imaginaire social. La première tend vers l’intégration, la répétition, le reflet. La seconde, parce qu’excentrique, tend vers l’errance. Mais l’une ne va pas sans l’autre. » Si bien « que nous n'atteignons [l'imaginaire social] qu’à travers les figures de la conscience fausse [que sont l'utopie et l'idéologie]. Nous ne prenons possession du pouvoir créateur de l’imagination que dans un rapport critique avec ces deux figures de la conscience fausse. Comme si, pour guérir la folie de l’utopie, il fallait en appeler à la fonction ‘saine’ de l’idéologie, et comme si la critique des idéologies ne pouvait être conduite que par une conscience susceptible de se regarder elle-même à partir de ‘nulle part' » (1986, p.381).

5.2 Architectes de l’information

Comme en écho à ces utopies, une nouvelle compétence professionnelle a émergé, baptisée « architecture de l’information » par analogie avec le travail d’architecture dans la conception d’un bâtiment. De même que l’architecte doit articuler des matériaux pour concevoir des espaces appropriés pour les besoins et le plaisir des personnes habitant les lieux, de même l’architecte de l’information devra concevoir des espaces numériques, et en premier lieu des sites web, ou les utilisateurs pourront se repérer et vivre une expérience riche et positive. L’approche s’est popularisée graduellement. Un premier manuel est publié en 1998, il en est maintenant à sa troisième édition (Rosenfeld et Morville, 2006). En 2000, l’American Society for Information Science and Technology (ASIS&T) organise son premier « Information Architecture Summit ». L’événement en est cette année à sa 12^{e} édition (2011).

Avant la conception graphique et le développement web, l'architecte de l'information analyse le public cible, analyse les besoins du producteur, analyse le contenu disponible et dessine les plans qui serviront de base au travail de design visuel et de programmation. Sa préoccupation constante pour l'expérience des utilisateurs et sa connaissance des contenus sont ce qui le distingue des informaticiens et architectes de systèmes, avec qui il travaille de près, mais qui agissent plutôt sur l'optimisation des processus, la structure des bases de données, etc.

L'architecture l'information est donc un ensemble de pratiques articulant deux pôles : d'un côté des masses d'information qu'il convient d'organiser et de l'autre des utilisateurs qu'il faut guider à travers ces masses d'informations. Sans s’avancer plus, pour le moment, dans l’analyse, il nous semble que les parties précédentes de ce texte pourraient permettre d’en approfondir les bases théoriques et qu’inversement les pratiques professionnelles nouvelles qui s’inventent devraient alimenter notre réflexion.

Conclusion

Il est prématuré de conclure un texte qui est toujours en construction. La véritable conclusion s’écrira à la fin du processus. Contentons-nous de résumer brièvement le propos :

Il faut prendre au sérieux l’interpellation de Tim Berners-Lee sur une science du web. Les humanités numériques, à condition de dialoguer étroitement avec les disciplines informatiques, pourraient être le creuset d’une réflexion véritablement transversale et interdisciplinaire sur le web.

Dans cette perspective, le web peut être analysé comme un média en émergence en tension entre deux pôles : information et communication. Tension qui se décline sur les dialectiques publication/conversation et signe/signal et qui donne lieu à des résolutions ou pose encore des défis que l’on peut lire au travers de la distinction pédauquienne forme-texte-médium.

Cette tension se concrétise notamment par, l’intégration dans le document d’une dimension temporelle affirmée. Celle-ci remet en cause les pratiques professionnelles de l’archivistique. Elle touche toutes les étapes de la vie du document et bouleverse sa notion même. Dès lors, on peut s’interroger pour savoir si un critère de sa définition ne serait pas une stabilité, même relative, que l’on peut repérer dans les réponses à une requête.

Même récent, le web a une histoire. Pour ses concepteurs, nous sommes aujourd’hui, après le web des documents, à l’étape du web de données qui est à la fois la réalisation pratique et une évolution de l’idée d’un web sémantique, lancée par T. Berners-Lee en 2001. Il est difficile de raisonner globalement sur le web comme un système à base deconnaissance à cause de problèmes de cohérence ou encore de confiance, il est plus facile d’articuler des unités d’information élémentaires comme des données, moins dépendantes du contexte interprétatif. Dès lors, un effort est proposé pour rendre les données accessibles et les lier grâce à un langage commun. Deux pistes se poursuivent en parallèle : celle du web sémantique originel, mais réservé à des domaines limités et structurés, celle du web de données sur un web ouvert. Et malgré la difficulté d’échapper aux visions partielles, la couche de données apparaît de plus en plus comme une couche faisant la relation entre le web traditionnel et le web logique.

L’ensemble de ces éléments sont portés par un récit, une ou des utopies, qu’il faudrait mieux analyser et dont il faudrait mieux percevoir les effets et se concrétise par l’émergence d’une nouvelle profession, les architectes de l’information.

Rechercher dans ce blog

WEBINFO FRANCE