Transcript de l’entretien avec Stéphane Pouyllau du 26 octobre 2018

Nicolas Sauret

2020-08-27

Transcript

00:03 tout ce que j’avais pu observer, c’est une passe d’arme: donc manifestement j’ai eu l’impression qu’il y avait un peu 2 camps, je sais pas si tu défendais l’un ou l’autre mais j’avais l’impression qu’il y avait au moins un gagnant qui avait été Marin à l’époque, et donc je voulais savoir ce qui s’était joué.

00:31 Alros, oui si je me souviens on débattait de toute la logique qui avait précédé à la création de LODEL, et en gros du choix qui a été fait par Marin à l’époque de partir sur un outil ou plutôt de créer un outil, de favoriser l’éditorialisation au détriment de la structuration. Le débat qui était à l’époque était déjà celui est ce qu’on fabrique un outil pour faire de la revue en ligne en gros qui reproduit le dispositif revue, cad ses volumes, ses numéros, etc.même si ensuite il y a des choses qui sont arrivés dans la structuration de l’article, comme la numérotation par paragraphe, des choses comme ça. Mais à l’époque, il ya vait une vision qui était : on fait une reproduction physique dans le numérique de la structure de la revue, VS on fait un dispositif qui met l’accent sur la structuration de l’information à l’intérieur du texte, et des métadonnées de l’article, et qui s’affranchit complètement des aspects ergonomique du truc. De la revue.

02:11 Après le contexte historique de l’époque est très particulier pour une simple et bonne raison, on était encore dans un moment… il y avait des choix techno qui avaient été faits par les uns et les autres, ces choix n’avaient pas été faits de façon concertées, choix hérités des pratiques qu’on avait les uns et les autres qu’on avait construit au moment de l’émergence du web dans le monde universitaire français et qui était pas du tout, pas de concertation entre nous, en gros, on ne s’est pas réuni dans ces années pour se dire comment on se débrouille.

02:56 c’est qui «nous» ?

02:59 un petit groupe de gens : Marin, Gauthier Poupeau, les gens qui avaient fait MIGAL à Paris8, fortement soutenu à l’époque par Renaud Fabre, qui était le président de Paris 8 et qui avait bcp oeuvré. des gens comme Hubert Cahuzac, des gens qui gravitaient dans l’infocom et les SHS. Mais il y avait plein d’initiatives et elles n’étaient pas concertées entre elles, cad que c’était pas du tout une démarche… on se connaissait par réseau, canaux IRC ou mail, mais on ne se connaissait pas physiquement. J’ai échangé avec Marin à une époque sans le voir. Lui était étudiant à l’université de Provence, moi étudiant à l’Université de Bordeaux mais on voyait qu’il y avait des gens de l’infocom qui s’intéressait à comment on fait pour faire de l’édition éléctronique dans l’idée de prolonger les revues telles qu’on les connaissaient dans le monde du numérique, et on a pris des voies différentes.

04:34 Marin et Gislain (le créateur de LODEL), ca va me revenir, son nom m’échappe, Gislain Picard.

05:03 Il y a pas vraiment deux groupes en fait. Si on simplifie un peu, il y a un groupe autour de Marin qui est constitué de Gislain, de Gauthier P. qui en gros sont des gens qui sont utilisateurs de SPIP à l’époque et qui regardent ce qu’on peut faire avec SPIP. Il y a une deuxième groupe auquel j’appartiens qui n’est pas centré sur les outils de CMS, on n’est pas des utilisateurs de SPIP ou d’outils comme ca, mais plutôt des gens qui viennent de la base de données documentaires au départ et qui utilisont des outils comme, on a PAA à l’époque, DBman (DataBase Manager qui est un outil qui est fait à vancouver par des canadiens pour gérer des annuaires de personnes et choses comme ca), des outils qui fonctionne en CGI-BIN, donc programmés en PERL, et en gros, ce deuxieme groupe, dedans il y a moi, Hubert C., Frederic Clavert, il y a Jean Michel Poisson à Lyon, il y a les gens de MIGAL, voilà, c’est un groupe, les gens ne se connaissent pas entre nous, je connais un peu jean-michel, mais on ne se voit pas, on communique, on échange par mail, mon premier site est sur MIGAL donc je discute beaucoup avec les gens de Paris 8, qui me filent des conseils, qui me font découvrir DBman qui commencent à me filer des outils de publication éléctronique en PERL qui puisent dans des fichiers texte : ca constitue une seconde famille de gens qui viennent de l’information structurée.

07:15 à l’iut de bordeau, il y a Michel Coupal qui vient d’ici du canada. Il y a toute cette famille qui vient de l’information structurée, qui font de la base de données et qui transforme la BDD en publication scientifique, donc ils disent, une revue c’est quoi, c’est une somme d’articles thématisés sur une revue, donc c’est une vue sur une base de données. Donc tu as ces deux familles : ceux qui regarde l’outil pour transformer l’outil pour faire des revues électroniques et tu as ceux qui disent la revue éléctronique n’est qu’une base de données structurées.

07:55 c’est le paysage. À l’époque en 99-2000, il y a des discussions.. on se lit les uns les autres, comme on communique que par mail ou tchat IRC et qu’on se connait pas physiquement, il y a énormément de latence dans les travaux. Par exemple Gauthier, quand moi je commence à travailler sur l’éditorialisation de la 3D, des bases de données 3D en archéologie en 97, 98, Gaithier me lit à l’époque, voit ce que je suis en train de faire, on ne communique pas tout de suite, c’est quelques années après que Gauhier me recontacte en disant à ouais, j’ai lu tes travaux et ton mémoire de maitrise et toute la partie que j’avais développée sur les BDD tridimensionnelles, comment les publier etc. mais ca se fait par.. c’est désynchrone, on n’en a pas du tout conscience quand on est en train de le faire tout ça, c’est à posteriori qu’on se rend compte qu’on a des points communs, des différences, mais tout ca se fait bien après, ca se fait en 2003, 2004, sur cette période early-web qui est en gros 95-2000, les cinq ans.

09:34 le débat qu’on avait chez Michael avec Marin, c’est qu’en 2002-2003, d’abord on est tous rentrés au CNRS, Marin est encore à l’école des hautes études, mais en gros on a des postes stables, là, on discute très durement de la stratégie à avoir pour faire de la publication éléctronique. et moi je pousse beaucoup à l’époque Marin, Gauthier, Ghislain je le fréquente peu encore à l’époque, on communique par l’intermédiaire de Marin, moi je leur dis, ne passez pas à côté de la structuration de l’information. Si vous faites un CMS, si vous créez un CMS, ce qui va être fait puisque LODEL va sortir de ce travail là, si vous créez un CMS et donc pas une base de données, si vous ne traduisez pas une revue dans une BDD, mais vous en faites un outil d’édition dédié, au moins structurez les métadonnées, cad faites en sorte de marier la tradition d’édition d’écriture et les métadonnées, cad la tradition documentaire.

10:50 et c’est ce choix là qui n’est pas fait par Marin, qui dit "non, ce qui compte, si on veux fidéliser notre public publiant, de scientifique, c’est qu’on leur propose des outils qui reproduisent graphiquement la qualité de la revue graphique. Il y a une qualité typographique dans les revues, ce sont des gens qui sont très sensibles au choix des fonts, à la qualité du papier, au design, etc, donc il faut leur proposer la même chose. Donc le choix qui est fait par Marin à cette époque là, en gros 99, entre le moment où il crée Revues.org et 2002, c’est le choix de lesthétisme graphique, et pas le choix de la structuration informationnelle.

11:44 La branche dans laquelle moi j’étais va donner HAL, les archives ouvertes, quelques années après. En 2001, je rencontre Daniel Charney, on se rencontre à l’occasion d’une rencontre organisée à Lyon organisée par le W3C dans lequel TimBernersLee est encore assez présent, cad pèse beaucoup sur les travaux, en 2001, c’est le moment où Daniel Charney va créer HAL et là Daniel a l’idée que les archives ouvertes, voir les travaux de Los Alamos, c’est le monde de la science dure, mais Daniel a l’idée de dire “il faut qu’on structure l’information”. Donc on va essayer de trouver des gens, des petits jeunes qui ont fait des choses sur le web en structurant l’information, et très vite on est en contact, parce qu’on est pas très nombreux à l’époque, et quelques années après il y aura HAL. Donc c’est vraiment deux logiques qui ont…

13:07 N: ce que j’anticipais, c’était un dialogue HTML VS XML, donc un vieux débat, mais du coup je comprends le non structure via les CMS qui s’appuient quand même sur des structures HTML, malgré tout il a fait un choix avec Lodel d’une structure XML.

S: je dirais qu’il a fait un choix CSS. Moi les bases de d que je fabrique à l’époque, sont des BDD en Perl, mais elles produisent du HTML structurées, avec déjà des métadonnées, j’intègre le Dublin Core

N: ce qu’il ne fait pas lui ? c’est ça qui m’étonne.

S: Non… dans les premières versions de LODEL, tu n’as pas de métadonnées. Tu n’as pas d’OAIPMH, qui pourtant a été créé en 1999, à la convention de Santa Fé. Moi à l’époque sur les BDD 3D, j’utilise un langage qui a un peu disparu, le VRML (Virtual Reality Modelling Language), et j’amène dans le VRML, qui n’est qu’un outil de modélisation 3D, j’amène dedans le Dublin Core, je crée un mashup où je fais rentrer de l’information à l’intérieur de la 3D.

N: donc l’enjeu n’est pas tant la façon dont tu stockes l’information, que ce soit XML ou

14:51 S: non, c’est le choix de s’attacher, pour servir un public…., Marin a servi son public. et il a dit : “pour m’imposer, je fais le choix de la tradition”. Sa réflexion est vraiment bonne, on a depuis ce moment là, mais c’est un combat d’ancien combattant, c’est que je dis juste qu’ils auraient pu, et ca se sent encore aujourd’hui dans Hypotheses, quand je dis dans hypotheses, c’est dommage d’être passé à côté de la structuration sémantique entre le billet et ses commentaires, en terme de relation sémantique en utilisant AURAY, ca vient de là en fait.

Si tu veux, cette discussion de la fin des années 90 a des répercusions 20 après.

15:59 N: la structuration ou l’intégration des métadonnées dans OpenEditions, ca date de quand du coup ?

S: 2008, quand il crée le CLEO à peu près, c’est là où il commence à avoir besoin d’interopérabilité, or tout ça se fait quasiment 10 ans après nos travaux. mais

N: mais pour lui l’enjeu c’était l’interopérabilité davantage que la diffusion, je pense aux moteurs de recherche, l’agrégation,

S: Oui.

N: et pourquoi ? malgré ses métadonnées pauvres, il était suffisament soit lu, soit référencé, …

S: Marin a senti quelque chose que nous n’avons pas senti, il a senti Google. je vais préciser un point, c’est un autre débat qui n’est pas lié à ca.

En gros, à la fin des années 90, on était tous en train de faire aussi des moteurs de recherche. et on a très vite mesuré collectivement la difficuté d’indexer par exemple du PDF qui existait, ou du XML qui démarrait, avec des outils de moteurs de recherche. Jusqu’à l’arrivée de GOOGLE en 2001, la part belle, c’était, je crée ma plateforme, je met du PDF dedans

N: pourquoi tu dis 2001

17:28 S: parce que c’est le moment où Google émerge vraiment et commence à être connu du public chercheur

N: je l’ai vu arrivé en 98,

S: oui, entre le moment où il est arrivé en 98 et le moment où un chercheur en SHS en rance te dit “je n’utilise que Google pour faire mes recherches en ligne”, c’est en 2001.

17:59 N: Lui a sentit ça, mais vous qui faites les moteurs de recherche

S: Nous on l’a pas vu venir,

N: et donc vous faisiez des moteurs, sur de la BDD

S: on avait des moteurs de recherche, avec des algos de pertinence TFIDF classique, et on les faisait tourner sur des collections de pdf, sur des pages HTML, voilà. C’est tous les travaux que j’ai mené entre 98 et 99 quand j’ai fait acheté à l’université de Bordeaux à l’époque le moteur de recherche Verity, la boite à outil Verity, et que j’ai monté un premier moteur de recherche, une sorte d’ancêtre d’Isidore, où mon idée, c’était de dire : "voilà, on a à l’université des gisements de données, on a des pdf sur des serveurs, on a des pages HTML, on a des images, on a des textes Word, des tableurs (EXCEL), des données sérielles, des enquêtes, il faut un accès unifié à tout ça, donc il faut indexer tout ça. Et c’est le moment où pour pouvoir faire ça, je fais acheter à la fac Verity, qui est une boite à outil de moteur de recherche et je crée les premiers niveaux d’interopérabilité, cad que je commence à ce moment pour Verity, avant l’OAI et tout ca, à me poser des questions de comment on peut mettre en petit dénominateur commun à tout ça, à tous ces paquets de données pour pouvoir…

Dès le début, je suis dans l’idée qu’il y a 2 couches : la couche des métadonnées normalisées, fait par des documentalistes, et la couche texte intégral, et qu’il ne faut pas dissocier les deux. Il ne faut pas des moteurs de recherche qui fassent soit l’un ou soit l’autre, mais des moteurs de recherche qui fassent les deux.

19:50 Ce que je dis là c’est important par ce que c’est ce qui va revenir 10 après quand on fait Isidore avec Gauthier. On va remettre ça sur la table. mais en gros à l’époque, on échange avec Gauthier sur l’idée des moteurs de recherche, et il y a un truc qu’on rate, c’est l’arrivée de Google. On ne voit pas arriver Google, et le page ranking, on le voit pas donc nous on continue à faire des moteurs de recherche classique, structurés, et à l’époque Marin il n’est pas dans cette logique, mon métier ce n’est pas de faire de la donnée structurée, c’est de faire en sorte que les gens publient et qu’ils soient lus. Donc du coup naturellement il va tomber sur Google et il va voir Google arriver. Ce que nous on voit pas parce qu’on a le nez dans le guidon à essayer de fabriquer des moteurs de recherche.

20:41 et en gros la partie retour de ça va se jouer 10 ans après en 2009, 2010, lorsqu’on crée Isidore. Par ce que là Marin revient nous voir en disant, “j’ai trop de données non-structurées, aidez moi à structurer nos données”. Et ce qu’on fait aujourd’hui lorsqu’on fait l’enrichissement des livre d’OE, c’est le match retour en fait, de l’époque de 99.

Mais à l’époque, on n’avait pas du tout conscience, on ne voyait pas cette histoire là, on ne la sentait pas. Et je pense que personne, dans les groupes qu’on était, personne ne voyait ce qu’on a fait 10 ans après. Il faudrait demander à Marin ce qu’il en pense, il avait la vision Revue.org, mais il voyait pas ce que ce allait donnée.

21:45 NS: Quel serait le paysage si vous aviez pris le pas, cad …

S: s’il n’y avait pas eu Google

N: Selon toi, c’est google qui est central ?

S: Google amène un truc complètement nouveau, c’est le page Ranking. En gros avant Google, et après Google j’ai envie de dire, qu’on le veuille ou non dans le monde des moteurs de recherche, il n’y a que deux algorithmes dans le monde

N: oui mais, Marin pense à ça avant que Google sorte du bois

S: je ne suis pas sûr qu’il pense à ça, je pense..

N: je pense à l’éditorialisation VS structuration, il fait ce choix avant que Google existe

S: il le fait parce qu’il est guidé par le besoin utilisateur, ce que nous on fait pas. Nous on est guidé par le besoin utilisateur de trouver de l’information. Lui il est guidé par le besoin utilisateur de produire de l’information. Et là, c’est une analyse rétrospective fausse, car à l’époque on n’avait pas conscience de ça. C’est facile de le dire aujourd’hui.

N: Est ce que vision ou la non-vision, si cette vision de la donnée structurée avait pris le pas à la fin des années 90, quel serait le paysage aujourd’hui ? Est ce que Google aurait de toutes les façons balayé l’ensemble.

S: Google ou d’une forme ou d’une autre, Google oui

N: Parce qu’en produisant des données structurées, tu aurais largement mieux alimenté Google donc quelque part

S: Oui, mais ce qu’on n’a pas vu venir au delà de Google, et du page ranking propre à Google, le truc qui est vraiment la révolution qu’a amené Google, c’est le fait de créer une économie de l’attention sur la popularité de l’information en ligne. Avant Google, on est que dans “on améliore la lisibilité de ce qui est en ligne”. Après google, il y a de l’information en ligne, et il y a différents niveaux.. elle a différentes valeurs. C’est ça la vrai révolution de Google, au delà de la prouesse technique, ils amènent un syst. de classification, donc de valeur : cette page est plus intéressante que celle là et elle est plus intéressante parce qu’il y a bcp de lien qui pointent vers elle. Avant ça, il n’y a pas assez de pages web pour leur donner de la valeur. Avant ça on ne se pose pas vraiment cette question là. On se pose uniquement la question de “on a des documents hétérogènes, qui commencent à être mises en lignes, certains ne sont pas complètement accessibles, ils sont dans des disques dur un peu fermé”, comment on fait pour donner de la visibilité à ca. on est juste dans : “On montre les choses”, on ne dit pas que ça c’est mieux que ça.

25:20 N: ceci dit, est ce qu’aujourd’hui, peut-être avec du retard finalement, 10 ans de retard, est ce qu’on n’est pas dans cette convergence à la fois de la donnée structurée et toujours une prédominance du ranking, ce système de valeur ?

S: je n’ai pas l’impression. j’ai envie de te répondre oui et non. Si j’ai une vision optimiste, je dirais oui. c’est sûr qu’aujourd’hui on a eu l’adoption massive de l’OAIPMH comme protocole d’interopérabilité qui certes, comme le dirait très bien Gauthier, n’est qu’une surcouche documentaire alors que le web sémantique date des memes années que le début et qu’on n’a pas su en faire qlq chose d’intéressante à l’époque et qu’on a rajouter des couches métiers, je suis entièrement d’accord avec lui, j’adore sa vision pour ça, donc si je suis optimiste oui, il y a l’adoption massive de l’OAIPMH, quand tu dis aujourd’hui à qlq un qui veut être moissonné dans Isidore, le vecteur d’entrée c’est l’OAIPMH, les gens comprennent tout de suite, c’est devenu une API courante, on ne découvre plus ça. Donc si je veux être optimiste, oui, on est dans une convergence, mais là je suis pessimiste, c’est sur la question de la qualité, et des ontologies, c’est qu’aujourdhui, alors qu’on a plein d’ontologies pour décrire le monde et en particulier les objets scientifiques qu’on manipule dans la recherche, il y a toujours des gens qui sont là à nous expliquer qu’ils vont fabriquer de nouvelles ontologies. Pour moi si je suis pessimiste, il n’y a pas convergence parce qu’on n’a pas réglé cette question de la qualité: qu’est ce qu’on expose en terme de qualité dans les données structurées. Le meilleur exemple de mon pessimisme, c’est Isidore lui-même qui depuis sa création, n’a pas été… les communautés de l’édition ne s’en sont pas emparé pour dire “tiens, j’édite de la donnée, ça m’intéresse de proposer à mes publics, à partir de la donnée que je propose, de l’enrichir pour donner des clés de compréhension des documents que j’édite à mes lecteur”. En gros, personne ne nous a dit “j’ai besoin d’Isidore Suggestion”. Personne. Donc je suis perssimiste dans le sens où…

N: c’est une question de qualité, ou une question d’usage, cad toujours la réponse de Marin, le même choix…

S: c’est pour moi un faux problème la question des usages, c’est une tarte à la crème les usages.

C’est un truc que Marin ne veut pas voir et qu’il ne reconnait pas, c’est que s’il a réussi avec revues.org, c’est qu’il a été le premier à le faire, ce n’est pas une question d’usage. peut-être maintenant il y a une question d’usage, mais je pense qu’il y a pas une question d’usage dans le cas de revue.org, car pendant 15 il a été seul sur le marché. Et c’est sûr que quand tu crées un truc et que t’es seul pendant 10 ans sur un marché, t’es leader, forcément puisque tu es tout seul, tu n’as pas de concurrent. Pour moi, ce n’est pas un question d’usage, c’est une question de … Isidore c’est pareil, Isidore a bien décollé au démarrage parce qu’on était le seul à proposer ça. Comme personne ne l’avait fait avant et que personne ne s’était intéressé à ça, faire de l’enrichissement à grande échelle, c’était facile d’apparaitre un peu nouveau. Ces histoires comme ca, ne sont pas des questions d’usages. Je connais les arguments de Marin, pour moi ce n’est pas l’usage. C’est la qualité, je pense que c’est lié au fait qu’il y a…

Alors je parle pas au niveau international, mais je pense qu’en france, il y a eu dans toutes les années 2000, une sorte de vanité égocentrée des chercheurs qui fait que ce qui les intéressait, ce n’était pas tant que d’avoir de la qualité, mais de montrer qu’ils pouvaient être lus. Que leur papier, les gens ne comprenaient pas l’impact du web, mais voulait être sur le web car ils pensaient que en étant sur le web, il seraient lus.

N: donc c’est être sur le web à tout prix..

S: c’est une vanité égocentrée

N: ..quelque soit la qualité..

S: oui quelque soit la qualité

N: et les modes d’accès du coup

30:45 S: mais je pense que Marin a des arguments sur les usages, sur tout ca, il a des stats et des études, mais je reste persuadé, car je n’ai jamais vu, j’ai toujours entendu les chercheurs parler du numérique en SHS comme qlq chose qui était en plus, et qui n’était pas au centre de leurs préoccupations, sauf Crimino-Corpus (CC), parce que Marc Renville, lui, avait réfléchis, avant de lancer CC, à la place que CC allait représenter. CC tu ne peux pas le faire sur de l’édition traditionnelle. C’est un objet qui n’existe pas, que tu ne peux pas faire exister avec du papier.

N: je pense aussi à la communauté de Lyon, l’ENS, …

S: les cyber-thèse

N: non, quelqu’un qui a fait sa thèse sur l’adoption d’Internet à l’ENS Lyon,

S: Jean Michel Salaun ?

N: non…

S: je ne suis pas du tout compétent sur les histoires d’usages, peut-être que Marin a raison sur les questions d’usages, moi j’ai plein d’exemples de pb de qualité dans revues.org et en fait je pense que si on analyse un peu finement, on va se rendre compt que les gens ne lisent pas les papiers, parce que s’ils les lisaient vraiment, ils critiqueraient la qualité du papier, tu vois. De l’exposition qui en est faite. C’est un avis un peu comme ça, perso.

N: tu veux dire que, l’usage qu’on nous en donne est selon toi trop limité ? pour que…

S: c’est un usage de lecture,

N: c’est un usage d’accès

S: c’est un usage de lecture, d’accès et d’impression. Les gens impriment les pdf qu’ils téléchargent depuis revues.org, et les lisent dans le métro, les lisent chez eux, dans leur fauteuil. Mais il y a pour moi zéro transformation de l’usage,

N: et c’est un peu ce que je disais hier avec cette maison d’édition, je ne sais pas si tu as suivi l’histoire, on a été avec Servanne catapulté là pour plein de raison, c’est un projet sur les ateliers de Sens Public, projet sur lequel on se disait, essayons de sortir de la revue SP aussi, mais aussi de l’université, et faisons une maison qui certes produit et édite des contenus, mais aussi avec une mission de transmission, d’accompagnement d’auteurs, d’éditeur tout ca, puisqu’il y a une vrai compétence, parce qu’on nous demande en permanence “est ce que vous pouvez m’aider pour faire ça”, on a évidemment plein de choses à transmettre là dessus, et là on se retrouve catapulter, à sortir 3 livres, et finalement.. moi j’étais très mal à l’aise hier de sortir 3 livres en pdf et en epub, pour moi c’est exactement le contraire de ce qu’on essaie de faire, c’est pour ça que j’ai insisté sur le fait que là il y a aujourd’hui donné accès à 3 livres, mais ce sur quoi j’ai envie de travailler c’est plutôt de créer les conditions d’appropriation, donc finalement c’est de ça dont tu parles. Mais selon moi…

34:49 S: juste un truc.. la vision de marin est juste car il a senti que la vision qu’on avait avec Gauthier à l’époque était un peu trop en avance, par rapport aux usages du début des années 2000. Marin a compris que si on faisait ce que nous on disait, il n’y aurait pas d’appropriation. Ce qui est sans doute vrai.

N: quand je parle d’appropriation, c’est des appropriations savantes de contenus, des réécritures, des citations, etc.

Sur l’éditorialisation, c’est amusant, tu as démarré en tout début d’entretien en parlant de l’éditorialisation VS la structuration. Actuellement, tel qu’on pense le terme d’éditorialisation, c’est évidemment de l’écriture plus de la structuration, et je vois l’éditorialisation beaucoup plus, non pas comme une mise en forme, c’est ca que je vois dans ton mot, c’est une simple mise en forme VS.. ok

S: Oui, mais mise en forme qui a.. attention, quand on dit mise en forme, c’est pour ça que je parlais CSS, le choix de CSS tout à l’heure, c’est le CSS, c’est une structuration aussi quelque part, la numérotation des paragraphes, c’est une structuration. Jusqu’à récemment, tu ne pouvais pas exploiter cette structuration, elle avait un impact visuel parce que le CSS, mais que visuel.

36:55 S: je considère que les plateformes d’édition élctoniques, toutes de Erudit à tout ca, ce ne sont que la translation de pratiques papier dans le numérique, on n’a pas vu aujourd’hui une revue, peut-être CC va être la première, on n’en sait rien, on n’a pas vu un dispositif qui devienne comme les épijournaux, avec des gens.. pourquoi on ne ferait pas une publication qui soit avec une intelligence artificielle qui écoute twitter, le flux, et quand il y a eu 4-5 colloque sur un thème, une intelligence artificielle qui enrichit tout ça, qui relie tout ça et pof, qui fait une publication.

37:59 N: je comprends, mais là tu parles d’un peu autre chose, tu parles d’un nouveau format, de publication ou de production scientifique

S: de production scientifique, pas de publication.

N: c’est un peu ce qu’on a en tête avec la conversation à SP, il y a de ça, moins automatisé que ce que tu décris, mais c’est un peu cette idée. Mais j’essaie de voir.. on a ce débat qui se rejoue un peu ici, entre moi et marcello, qui essentiellement bricolons, et Emmanuel Chateau Dutier, qui lui est un expert du XML, de la TEI, et qui voit toutes les potentialités de ces données très structurées. VS nous, où on a fait un choix de quelque chose de moins structuré, mais en allant vers… très mauvais terme, professionnalisation.. quelque chose de beaucoup plus propre et riche malgré tout, on essaie de l’avoir aussi riche que possible pour des questions..

S: c’est le même débat qu’en 99, quand tu vois Emmanuel et ce que tu dis

N: c’est le meme débat qu’en 99, c’est ça, c’est pour ça que je le remets là, mais ce que j’ai trouvé intéressant dans notre démarche, mais c’est sans doute par ignorance aussi, c’est qu’on a pu avancer à tâtons, bricoler, ajouter et enrichir au fur et à mesure, et on est encore en train de le faire, et aussi, tu as sans doute raison, on réfléchissait à un outil d’écriture au départ, Stylo. On s’est orienté vers des pratiques existantes d’écritures, quelque chose qui soit à mi-chemin entre une édition experte TEI et une édition assez répandue, je pense au markdown.

On arrive, on a un résultat que tu as du voir avec Stylo, les métadonnées qu’on met dedans, qui n’est pas si mauvais, on arrive à l’état de l’art de ce qu’on peut faire en SHS, même sans doute bien au-dessus, j’espère, en terme de données, on essaie maintenant d’enrichir à l’intérieur du texte, mais ce dont je suis certain, c’est que partir du bricolage qu’on a fait en utilisant des outils type PANDOC, ou bibtex, nous a permis de monter en littératie pour nous et donc d’aller de plus en plus loin, et aussi, et c’est quand meme très important, de former tout un groupe d’éditeur autour de nous, très rapidement. Et il y a là..

S: ce que je vois de Stylo, ce qu’il manque de Stylo, pour arriver à cet espèce de fusion des deux visions de 99 (ne pas les appeler comme ça dans les écrits), mais en gros c’est Stylo qui est l’outil, et d’accrocher dans Stylo la possibilité d’utiliser des référentiels scientifiques, c’est-à-dire tu branches Stylo sur le triple store d’isidore, tu permets à Stylo de proposer aux gens d’enrichir du texte et d’agraffer des concepts dans du texte, avec tout ce que le linking, la puissance du liage des données derrière, tu as réconcilié la vision de 99.

N: d’accord mais ça c’est notre vision aussi. mais on est parti sur des technos très… web

S: la question de la techno ne se joue pas du tout comme elle se jouait à l’époque, c’est un des gros changements entre les deux époques,

N: c’est qu’aujourd’hui elles se parlent de toute les facons

S: oui, c’est qu’aujourd’hui on n’a plus de problème de puissance de calcul, donc tu peux travailler en JSON-LD, travailler en TEI, t’auras toujours la puissance pour marier les deux. On n’a plus cette limite là pour du texte, ce qui n’était pas le cas à l’époque. A l’époque, on n’avait pas Verity, je ne pouvais pas indexer plus de 300K pdf dans Verity. Aujourd’hui, je suis à 7Millions de documents Isidore

N: c’est pas une question de format selon toi, c’est de richesse ?

S: c’est pas de richesse, enfin oui, c’est d’analyse de ce qui existe, j’en reviens à la vision de 99. Pour que Revues.org fonctionne… En fait Revues.org fait le pari de ne rien changer dans les pratiques de recherche pour exister. L’autre voie change les pratiques de recherche parce que tu vas déporter sur le chercheur, tu vas remettre dans les mains du chercheurs le choix scientifique de tagger tel ou tel mot de son texte, avec tel ou tel concept qui…

43:44 N: ca c’est dans le projet de Stylo

S: La vision de Marin à l’époque était la bonne parce que tu ne peux pas faire de l’appropriation avec Stylo de masse, parce qu’il y a qlq chose dans Stylo et dans les données très structuré qui est impossible pour des gens qui n’ont pas envie de faire d’effort, donc tu ne peux pas avoir la masse, alors que l’autre vision te permet d’avoir la masse.

N: D’où ce que tu disais l’autre jour avec Isidore qui fait de plus en plus de plein texte, c’est-à-dire, les données n’étant pas là, vous allez chercher des solutions d’analyse plein texte.

44:27 S: Oui, alors, il faudrait que Marcello donne son avis, mais je pense que les deux visions ne sont pas vraiment réconciliables, parce que derrière cela veut dire que soit tu as la masse, soit tu as l’ingénierie très pointue. Alors, c’est peut-être très réducteur ce que je dis parce que ce n’est pas aussi net que ça, il n’y aurait pas une masse de gens qui ne voudrait pas faire d’effort, c’est pas vraiment comme ca

44:54 N: je vais être très optimiste là dessus, selon moi, c’est d’abord une question institutionnelle, de formation initiale. Mais sur cette question de l’institutionnalisation, puisque c’est ce qui s’est joué avec Revues.org ou même Isidore, il y a des potentiels qui ont été testés dans les années 90 et qui ont progressivement se centralisent, se pérennisent, donc là il y a une institutionnalisation de ces outils qui se fait.

45:32 S: Oui, elle n’était pas préméditée. Je rappelle toujours.. il ne faut pas oublier que Isidore c’est le produit de, 1) peu le fruit du hasard, et 2) c’est surtout le fait que Gauthier et moi on s’est retrouvés en position de réaliser ce qu’on avait rêvé dans les années 90.

N: et quel lien avec tout ce qui s’est fait avec Adonis, comment se fait ce transfert ou ce passage ?

S: c’est juste un levier Adonis. Gauthier et moi avons travaillé sur les mêmes questions dans les années 90. C’était quasiment obligatoire que quelques années après, étant tous les deux dans l’institution, l’esr, on se retrouve. Et Adonis n’a été que le levier. Quand on s’est retrouvé avec Gauthier autour de la table pour dire, quand Yannick Maignien à l’époque et Benoit Berne, on veut faire un accès unifié aux données à des Lettres et sciences humaines et sociales, j’ai levé la main, j’ai déjà fait des choses dans les années 90 et Gauthier a aussi levé la main, il était dans le privé à l’époque, il a dit j’ai lu les travaux de Stéphane et j’ai fait aussi des trucs, l’intelligence c’est Yannick Maignien qui l’a eu, il a dit, «bah vous avez qu’à faire un truc, puisque vous l’avez déjà fait il y a 10 an, je vous donne 1 million d’euros, et puis faites le». C’est l’intelligence de Yannick qui a dit faites.

N: c’est ca ce coup de hasard.

S: C’est le coup du hasard, G et moi on a eu la chance d’avoir en 2009 quelqu’un qui a dit «je vous paies le truc dont vous avez rêvé dans les années 90». C’est un peu comme si tu commandais un truc au père noêl et que le père noël te le faisait vraiment. C’était ça. On doit avouer qu’avec Gauthier on s’est toujours posé la question, parce qu’on y croyait pas. On y croyait meme pas en le faisant. On avait mis la barre tellement haut, qu’on disait jamais ca va marcher et en gros on sera obligé de démissionner de nos carrières respectives, parce que c’est sûr qu’on va se planter. Il y avait très très peu de chance qu’on arrive à faire quelques chose, c’est à dire : réconcilier la donnée structurée et mettre autour de la table Marin, Erudit, c’était en 2009, un espèce de grosse blague.

48:16 S: je me souviens des commentaires un mois avant l’ouverture d’Isidore en novembre 2010, je me souviens très bien de la réflexion du directeur des infrastructures au CNRS, le numéro 2 du CNRS, «ce truc ne marchera jamais», c’était un éléphant blanc pour lui. Après le truc c’est que moi et G on savait que ca marchait parce que c’était un truc qu’on avait fait indépendamment tous les deux dans les années 90 donc on connaissait les limites de ce genre de dispositif. Mais j’insiste sur le fait que pour nous c’était … Isidore, pour moi et G. c’est la fin de quelque chose, c’est pas le début de qlq chose. c’est la fin des années 2000. C’est la concrétisation de nos travaux de recherches des années 90. Lui et moi, on a rêvé de cet outil là quand on était à la fac. On a mis dedans tout ce qu’on avait et dont on avait besoin à l’époque.

49:32 N: je pose la question de l’institutionnalisation car j’ai l’impression que la plupart des institutions sont un peu disruptées par certains…, soit des géants du web, en particulier la chaine de production de l’écrit, que ce soit par Microsoft Google, qui introduisent des choses pour lesquelles les institutions qui sont censées être les garants à la fois des écrits, des données mais aussi de la chaine de production de l’écrit, ont complètement démissionné.

S: Oui…, démissionner, c’est la résultante de la non-compréhension.

N: Oui, je te renvoies sur cette thèse de … [Eric Guichard] qui identifie le pb à l’ENS Lyon en 99. Bon.

Qui institutionnalise et qui a le levier là-dessus ? et on peut s dire, les GAFAM font une main basse là dessus, et derrière eux, je me pose la question des infrastructures du web, et des formats poussés par le W3C, et on avait là une formalisation très collégiale avec des chercheurs, des individus, de l’industrie qui venait se mettre d’accord sur les standards, et finalement, les vraies institutions des années 2000, ou peut-être avant si on parle des infrastructures réseaux, c’est l’IETF, c’est le W3C, et je me demande quelle peut être la place des universités par rapport à ces instances de standardisation, et selon moi, parce qu’ils formalisent, ils définissent les formats de la donnée et de l’information, ils finissent par garantir, mais formaliser réellement les supports de l’information. Ce sont eux finalement les institutions du savoir, c’est un peu tiré par les cheveux, mais je me demandais comment tu voyais ça, aussi en tant qu’Isidore, quel est ce lien avec ces instances, liens ou influences dans les deux sens d’ailleurs, et ces GAFAM qui ont malgré tout une force notamment sur les usages une force d’impact phénoménal.

52:34 Sur la question de la normalisation, de la standardisation, certification, moi j’ai toujours pensé, même si je ne l’ai jamais fait à titre personnel, j’ai toujours entendu au CNRS au sein de l’institution, mais aussi à la BNF, je l’ai vu, j’ai toujours vu des gens participer à ces structures là, en particulier Daniel Charney et ses accolytes de l’époque, ont bcp participé à la standardisation du web, dont le W3C en particulier, donc dans les sphères que je connais, CNRS, Inria, BNF par exemple, j’ai toujours vu des collègues participer à ce genre de processus de certification, quand je dis collègues, c’est toujours des collègues en sciences de l’information, ou des collègues informaticiens, c’est vrai que je n’ai pas vu bcp des collègues de lettre et SHS aller se frotter aux groupes de travail divers et variés de normalisaiton/standardisation du web en particulier. Ce ne sont pas des gens qui ont trop cotoyé des gens de chez Google, des gens du privé, etc. Par contre, pour ce qui est des gens que je connais des infrastructures de recherche, enfin du CNRS en informatique, en IST, à l’Inria etc, il ya zéro problème, ce sont des gens qui travaillent tous les jours dans ce genre de bloc, avec des gens de chez Microsoft, et en gros, de ce quen j’en ai vu et écouté des discussions, ce sont des gens qui te disent l’intérêt supérieur de normalisation du web est plus forte que les intérêts de Microsoft. c’est un compromis qui neutralise les marques et le tshirt qui sont autour de la table. C’est-à-dire que tout le monde a intérêt à normaliser parce que tout le monde va faire du business derrière. C’est l’inverse d’une critique (au sens de la critique SHS). On fait un compromis parce qu’on en a collectivement tous besoin. Et je pense qu’il y a que les chercheurs en Sciences de l’information pour voir que ce travail là n’est pas un bien commun. Parce qu’il faut bien voir, c’est le sentiment que j’ai à écouter des gens qui ont participé à des groupes au W3C etc, c’est qu’en fait, les marques commerciales existent, mais elles se neutralisent, comme les pays se neutralisent à l’ONU, c’est la même philosophie, donc après dire qu’il y a des dangers sur le web parce qu’il y a les GAFAM, c’est une vision très.. c’est une conversation de salon, parce que le plus gros producteur de code source libre, c’est Google. Mais c’est une vision très personnelle. Je pense que les Sciences de l’info relèvent plus du plan carriériste de la personne que d’une réelle sciences sciences.

56:13N: Tu introduis le bien communs là dedans. donc selon toi, il y a une gouvernance qui ne parle pas de bien commun, mais qui parle d’une paix commune, d’une neutralité ?

S: oui, d’une neutralité, c’est quelque chose comme ca. Si je reviens à l’exemple d’Isidore. Isidore a été fait avec des boites privées, Anditote, Mondeca, etc. Tout le monde y a trouvé son compte. Antidote (à Lyon, moteur de recherche et outil d’enrichissement sémantique), le Content Manager d’Antidote, qui est un produit commercial vendu par Antidote, il a été développé par Antidote, parce que nous on leur a posé des problèmes de classification et de catégorisation de documents. Ils ont créé un produit pour nous. On leur a dit «on veut faire ça» et de ça, ils en ont fait un produit qui s’appelle CM qui est commercialisé. Quand ils ont sorti leur produit quelques années après le lancement d’Isidore. Parce que nous ils l’ont fait avec nous, on avait une espèce de proto, bricolé avec leurs équipes, mais après ils l’ont boulonné pour en faire un vrai truc qu’ils vendent. Quand ils ont vendu le produit, ils nous ont demandé de venir faire des témoignages client, en disant, après tout, le vendu que vous vendez, c’est un produit qui sort d’un problème de SHS. J’ai dit bien sûr, aucun problème au contraire, on est très content, on peut valoriser ça. Mais quand on a fait ça, les seuls qui nous sont tombés dessus, ce sont des chercheurs en sciences de l’information, qui ont dit, mais qu’est ce que c’est que ca, c’est pas un produit libre Isidore, vous êtes vendus. La notion de public privé dans un produit comme isidore, c’est une construction de l’esprit. les gens qui viennent me dire ah mais isidore (débat avec pierre mounier par exemple), c’est embetant qu’isidore ne soit pas complètement libre, à un certain niveau industriel des choses, la notion de code source libre ou pas importe peu parce que le coût de production d’un tel outil qui soit libre ou pas, il est tel qu’il faut de l’argent. Et les produits libres, au sens où le code source est libre, je peux le maitriser, c’est une chimère. Ce n’est pas vrai que tu maintiens un code avec 300 developpeurs bénévoles. tu ne fais pas une infra avec du.. D’ailleurs, la meilleure preuve de ça, c’est framapad. Utilise Framapad en mode pro avec des enjeux juridiques sur les données que tu saisis, tu verras que tu n’utiliseras pas framapad, parce que ce n’est pas fiable. Et que si à un moment donné, si tu veux de la fiabilité, il faut des gens qui sont à 100% et qui maitrise complètement…

N: tu parles d’etherpad ou de framapad ?

S: Framapad, l’implémentation faite par framapad. Pourquoi, parce que c’est bénévole, je dis pas, c’est complètement louable, mais ce n’est pas une infra. Donc quand tu arrives à un certain niveau d’infrastructure, la distinction open source, pas open source importe peu.

1:00:00 il y a la notion de libre.

S: pour répondre à ta deuxième remarque pour répondre aux enjeux de normalisation à Isidore. Isidore, pour nous, quand on l’a fait, on avait l’idée de dire on va faire qlq chose. On va implémenter tout ce qu’on a fait depuis la fin des années 90, l’OAIPMH, TFIDF, SKOS, le web sémantique, tout ça, en grand, et on va voir si ca marche vraiment. C’était ça notre moteur avec G. et JL Minel à l’époque. Là on nous donne une montage d’argent pour vérifier que c’est pas du pipeau tout ça. Crawler 6000 sources en OAIPMH, personne ne l’avait fait avant donc on voulait voir si on était capable de le faire. Donc on peut voir Isidore comme un outil qui instancie des recommandations et des normalisations en vrai, en grand, et qui crawle une fois par mois depuis 8 ans maintenant. On peut le voir comme une réalisation d’une somme de recommandations, normes, travaux de normalisation du W3C, en partivulier sur le volet web sémantique, etc.

1:01:43 N: je reviens à cette notion de liberté et de bien commun, et là je m’inscris pas mal dans ce que Louise merzeau voyait en parlant de la maitreise de la déprise, cad, pour un usager facebook, c’est cette capacité, tout en étant dépris de ses données, de ses usages, arrive malgré tout à recréer, collectivement, il peut se recréer un collectif. On peut avoir d’autres analyses, mais elle avait un certain optimisme de dire que même dans ces écosystèmes, très fermés, très propriétaires ou autres, il

je suis assez ’accord avec elle

donc dans une toute autre mesure, et je dirais moins pire, utiliser du code propriétaire, ca ne t’empeche pas non seulement d’avoir ta propre liberté, mais aussi de recréer des espaces de libertés et d’appropriation de contenus

c’est très lié à mon histoire perso, et mes fréquentations à la fac. A la fac, je baignais dans le milieu des web et preweb, des universitaires, pas de SHS, au Labri [?] à Bordeaux, des chercheurs Inria, la coupure privé-public n’existe que dans les SHS. Il suffit d’aller dans un labo d’informatique pour voir que les mecs à l’époque, Pascal Guitton, chercheur l’inria, qui dirigeait Labri à l’époque qui était mon prof qui m’aidait beaucoup à l’époque, c’est un mec qui avec plus de contrats avec Microsoft, Oracle et Apple, et avoir du fric et développer des trucs pour eux, ca posait zéro problème, il n’y avait pas une espece de critique ou de réflexion, c’était comme ça, il y a des industriels dans le domaine, on bosse avec des industriels.