En octobre 1971, un petit groupe de cristallographes se sont réunis à Cold Spring Harbor et ont accepté de mettre leurs données brutes en commun. Sept structures protéiques ont été versées dans ce qui allait devenir la Protein Data Bank. Les coordonnées atomiques ont circulé entre ses deux institutions fondatrices sur des cartes perforées.[1] Le format était primitif — la myoglobine seule nécessitait plus d'un millier de cartes pour être échangée — et l'incitation au partage pratiquement inexistante.

Cinquante ans plus tard, la PDB contient maintenant plus de 200 000 structures,[2] un effet réseau exemplaire fonctionnant non sur les utilisateurs mais sur les objets déposés. Chaque nouvelle structure augmentait la valeur marginale de toute structure antérieure, car la composabilité aux coordonnées atomiques partagées permettait aux chercheurs en aval de recroiser et de réanalyser les travaux déposés pour des raisons sans rapport.[3] Un puits gravitationnel s'est ouvert sous la biologie structurale duquel aucun cristallographe en exercice ne pouvait échapper.

La science du spatial — l'ensemble vague des disciplines qui étudient les phénomènes ancrés à des coordonnées physiques, de l'écologie et de l'hydrologie aux démographies urbaines et à l'économie spatiale — dispose d'ordres de grandeur plus de données, d'utilisateurs et de financement que la cristallographie de 1971 n'en a jamais eu, mais sans Protein Data Bank. L'absence d'une couche de composition pour la connaissance spécifique au lieu est un échec de coordination institutionnel, non un échec technologique.

Le mur

Les données satellites se trouvent dans Copernicus, distribuées sous forme de tuiles MGRS Sentinel-2.[4] Les données économiques se trouvent dans Eurostat, organisées par des limites administratives NUTS à des échelles spatiales d'un à trois ordres de grandeur plus grandes que n'importe quel projet écologique unique.[5] Les observations de biodiversité se trouvent dans GBIF, indexées par des enregistrements d'occurrences de taxons.[6] Le carbone de la grille se répartit entre ENTSO-E (zone d'enchère)[7] et l'EIA (autorité d'équilibrage)[8] ; seul PJM publie plus de 10 000 prix marginaux localisés toutes les cinq minutes.[9]

Ces six ensembles de données décrivent tous les mêmes bassins hydrographiques, mais ils ne s'assemblent pas. Les questions que cela bloque sont précisément celles qui valent le plus la peine d'être posées. Un projet de restauration forestière dans un bassin versant spécifique livre-t-il réellement le bénéfice climatique qu'il revendique, une fois que vous tenez compte de ce que l'économie locale fait, de ce que la météo a fait au cours de la dernière décennie et de la façon dont les terres sont gérées ? Quels sont les effets de second ordre et systémiques de différentes politiques spatiales ? Des centaines d'études ont répondu à des fragments de cette question quelque part dans le monde. Aucun d'entre eux ne peut parler à l'autre.

Pourquoi les réponses techniques évidentes ne ferment pas le fossé

Un lecteur attentif objectera que les données spatiales bénéficient déjà d'interopérabilité — normes du Consortium géospatial ouvert, INSPIRE, GEOSS, le Spatial-Temporal Asset Catalog, Google Earth Engine, Planetary Computer de Microsoft.[10] Ce sont des initiatives réelles et bien financées, pourtant elles ne ferment pas le fossé. La distinction qui importe est celle entre les normes d'échange de données et un corpus d'objets identifiés de manière stable qui s'accumulent au fil du temps. Les normes de la famille OGC sont les premières : elles permettent aux systèmes de parler le même format. La PDB est la seconde : c'est plus de 200 000 objets déposés avec des identifiants permanents que tout chercheur peut citer et réanalyser, perpétuellement, indépendamment du format de l'original. GEE, l'effort le plus ambitieux de ce domaine, est explicitement encadré par son équipe comme une plateforme d'analyse géospatiale à l'échelle planétaire — un substrat de calcul sur des rasters publics — pas un registre de dépôt de revendications écologiques identifiées de manière stable à des coordonnées spécifiques au fil du temps.[11] Vous pouvez exécuter de belles analyses sur GEE. Vous ne pouvez pas citer un objet-lieu dans GEE de la manière dont un biologiste structuraliste cite l'entrée PDB 1HHO.

Un échec institutionnel, non un échec technique

Michael Nielsen, dans Reinventing Discovery, raconte l'histoire canonique de la façon dont les Bermuda Principles — le pacte de bailleurs de 1996 régissant la divulgation des données du Human Genome Project — ont établi une norme de divulgation publique dans les 24 heures pour les données génomiques.[12] Jorge Contreras a documenté plus tard que ces principes n'ont pas été réalisés principalement par consensus : c'était l'effet de levier des bailleurs de fonds.[13] Les NIH, le Département américain de l'énergie et la Wellcome Trust ont ensemble financé plus de 90 % du travail de séquençage initial, et en février 1996, ils ont fait de la divulgation dans les 24 heures une condition de l'argent.[14] Les communs ont pris forme parce que trois institutions avaient assez de pouvoir financier concentré pour le contraindre.

La science du spatial n'a pas d'équivalent de concentration. Aucun organisme institutionnel unique ne peut convoquer chaque domaine qui touche au « lieu » — géographie, écologie, télédétection, planification urbaine, hydrologie, économie climatique — et leur dire que le dépôt composable aura lieu ou les subventions s'arrêteront. Et aucune discipline unique ne possède le « lieu » comme les cristallographes possédaient la structure protéique. La biologie structurale avait une unité atomique évidente : une protéine résolue. Un biorégie côtière est revendiquée partiellement par des hydrologues, des écologues, des planificateurs municipaux, des modélisateurs climatiques et les gens qui y vivent. Aucun n'acceptera un primitif qu'il n'a pas aidé à définir.

La question plus profonde est ontologique. Une Protein Data Bank est possible parce qu'une structure protéique résolue est le même objet pour chaque laboratoire qui y travaille. Un lieu n'est pas le même objet pour l'hydrologue, l'écologiste et le planificateur municipal, et il n'y a aucune raison de s'attendre à ce qu'une représentation canonique unique émerge de haut en bas de l'une d'entre eux. La question ouverte est de savoir si une unité atomique de travail pour le lieu peut plutôt être construite de bas en haut — par validation distribuée, protocoles multi-agents pour l'identité des objets, ou quelque chose d'autre entièrement. Paul Edwards, écrivant sur les données climatiques, a appelé le chemin descendant globalisme infrastructurel : les données partageables exigent que les institutions s'entendent d'abord sur les modèles qui les rendent comparables.[15] Le chemin ascendant n'a pas encore de nom.

Une démonstration minimale

Avant que quiconque ne s'engage à construire l'infrastructure manquante, la lentille compositionnelle doit passer une démonstration bon marché. Ce qui suit est un protocole d'étude de cas illustratif, non une étude statistique. La question à laquelle il répond n'est pas « quel pourcentage de projets environnementaux échouent » mais « la composition de couches spatiales indépendantes attrape-t-elle des choses qu'une couche unique aurait manquées, avec assez de force pour que le modèle soit visible dans une poignée de cas ? »

Si l'étude de cas ne révèle pas de modèle, le goulot d'étranglement se situe en amont de la composition. C'est aussi un résultat utile. Garder la démonstration petite est la manière de garder la mauvaise version bon marché.

Ce que le résultat pourrait signifier

L'argument s'applique au-delà des marchés volontaires du carbone, mais la vérification environnementale est le domaine le moins cher pour exécuter ces tests. Le même goulot d'étranglement s'applique à la santé publique (composition maladie-environnement-économie à l'échelle du quartier), à la planification urbaine, à l'adaptation climatique et à la gestion des terres autochtones. Il bloque également l'émergence de domaines hétérodoxes — l'économie écologique, l'écologie politique, l'hydrologie sociale, l'économie réparatrice de la restauration biorrégionale — qui ont besoin de raisonner sur l'état écologique, l'activité économique et la gouvernance dans le même référentiel de coordonnées. Aujourd'hui, ils se limitent aux quelques chercheurs qui peuvent personnellement rapprocher suffisamment de ensembles de données pour faire un point.

Si l'étude de cas montre que la composition attrape les divergences que les audits monocouches auraient manquées, cela signifie qu'une grande part de l'allocation de capital environnemental est évaluée avec des informations structurellement incomplètes, et l'infrastructure manquante vaut la peine d'être construite — comme un bien public, non comme un produit privé. Pas une nouvelle base de données : un index spatial qui mappe les ensembles de données ouvertes existantes aux coordonnées communes — de la même manière que la PDB n'a pas généré de nouvelles structures mais a rendu les existantes composables, et ce faisant, a grandi de sept objets déposés à plus de deux cent mille.

Une fonction de forçage institutionnel est arrivée d'un endroit ou d'un autre dans chaque cas réussi. Pour la cristallographie, c'était la conviction d'un petit groupe à Cold Spring Harbor qui contrôlait les seules structures dignes d'être déposées. Pour la génomique, c'était l'effet de levier du bailleur de fonds Bermudes. Pour le lieu, la concentration analogue commence à s'assembler. Le financement climatique des pays développés a atteint 115,9 milliards de dollars américains en 2022, la première année où l'objectif de 100 milliards de dollars a été atteint, les canaux multilatéraux portant la plus grande part.[19] Les MDB seules ont délivré 74,7 milliards de dollars américains aux économies à faibles et moyens revenus en 2023 ;[20] le Fonds vert pour le climat, les grandes banques de développement et les instruments de l'UE en vertu du Green Deal représentent la majorité écrasante de ce flux multilatéral. Le Cadre intégré de gestion des résultats du Fonds vert pour le climat exige déjà une mesure des résultats désagrégée géospatiale.[21] Si même un de ces bailleurs de fonds faisait de la vérification spatiale composable une condition de débours, le résultat serait le moment Bermudes que le lieu n'a jamais eu : capital concentré couplé à une demande de vérification, forçant un bien commun à l'existence parce que le coût de ne pas en avoir est soudainement plus élevé que le coût de le construire.


Ecofrontiers est une agence de recherche appliquée travaillant à l'intersection de l'économie spatiale, de l'informatique environnementale et de la coordination de l'IA. Contactez-nous si vous travaillez sur l'un de ces sujets.