AI Institutional Design Atlas

Résumé

À mesure que les systèmes d'IA passent d'assistants mono-agents à des écosystèmes multi-agents, les défis de gouvernance qu'ils soulèvent deviennent fondamentalement de nature institutionnelle. Les questions d'allocation des ressources, de redevabilité, de résolution des litiges et de prise de décision collective entre agents autonomes ont de longs précédents dans l'économie institutionnelle, la gouvernance des communs et la théorie du mechanism design, mais ces littératures n'ont pas été appliquées systématiquement à la gouvernance de l'IA. Cet article présente l'AI Institutional Design Atlas, un cadre qui cartographie 33 composants de design institutionnel répartis sur sept catégories de gouvernance (mécanismes de marché, redevabilité, supervision, résolution des litiges, structures d'information, accords et gouvernance des communs), les relie à 26 modes de défaillance documentés et identifie 51 manques de gouvernance ouverts. Le cadre s'appuie sur sept études de cas de systèmes d'IA multi-agents déployés, dont le réseau social Moltbook (770 000 agents IA), le système autonome d'achats de Pactum AI, l'architecture de recherche multi-agents d'Anthropic et le protocole décentralisé de résolution des litiges Kleros. Notre analyse suggère que les manques de gouvernance les plus critiques se concentrent autour de la redevabilité, de la résolution des litiges et de la gouvernance des communs — des domaines où les approches actuelles de la sûreté de l'IA, y compris l'alignement et le reinforcement learning from human feedback, sont structurellement insuffisantes. Nous soutenons que le design institutionnel constitue une couche distincte et sous-explorée de la pile de gouvernance de l'IA, et que les précédents en train de s'établir dans les premiers déploiements multi-agents seront difficiles à réviser à grande échelle.

Mots-clés : gouvernance de l'IA, systèmes multi-agents, design institutionnel, mechanism design, gouvernance des communs, coordination d'agents, Ostrom, cooperative AI, manques de gouvernance

Sortie associée : un outil de recherche web interactif offrant un accès navigable à l'ensemble des primitives institutionnelles, modes de défaillance, manques de gouvernance et études de cas, y compris un module de stress-test institutionnel, est disponible sur aidesignatlas.xyz

Introduction

La gouvernance de l'intelligence artificielle est principalement formulée autour de deux questions : les systèmes d'IA sont-ils sûrs, et comment doivent-ils être régulés ? Les deux questions sont nécessaires ; aucune n'est suffisante. Cet article en aborde une troisième : comment les systèmes d'IA doivent-ils se gouverner eux-mêmes et se coordonner entre eux ?

Ce n'est pas une reformulation du problème d'alignement. L'alignement concerne la relation entre un modèle unique et les valeurs humaines. La question de la coordination concerne l'architecture institutionnelle d'écosystèmes multi-agents : comment des agents IA distribués coopèrent, se concurrencent, allouent des ressources, tranchent des litiges et établissent la confiance. Ce sont des questions de design institutionnel — les mêmes qui animent le design constitutionnel, la gestion des communs et la régulation des marchés dans les institutions humaines.

L'IA traverse une transition qualitative. Les systèmes passent d'assistants mono-agents à des écosystèmes multi-agents dans lesquels des centaines d'agents spécialisés se coordonnent pour accomplir des tâches complexes. Le système de recherche multi-agents d'Anthropic, par exemple, déploie un orchestrateur qui délègue à des sous-agents spécialisés, consommant environ quinze fois plus de ressources de calcul qu'une interaction standard. Ce passage de l'agence individuelle à l'agence collective introduit des problèmes de coordination largement étudiés en économie institutionnelle, en théorie du choix public et en mechanism design — mais qui n'ont pas été appliqués systématiquement à la gouvernance de l'IA.

Cet article présente l'AI Institutional Design Atlas — un cadre systématique qui comble cet écart. L'atlas cartographie 33 composants de design institutionnel répartis sur sept catégories de gouvernance, les relie à 26 modes de défaillance documentés et identifie 51 manques de gouvernance ouverts. Il s'appuie sur sept études de cas de systèmes d'IA multi-agents déployés.

L'atlas existe également sous la forme d'un outil de recherche web interactif sur aidesignatlas.xyz, offrant un accès navigable à l'ensemble des primitives institutionnelles, modes de défaillance, manques de gouvernance et études de cas.

Fondements théoriques

2.1 De l'alignement au design institutionnel

Le discours actuel sur la gouvernance de l'IA se concentre principalement sur l'alignement des systèmes d'IA individuels avec les valeurs et les intentions humaines. Or l'alignement est structurellement insuffisant pour gouverner des écosystèmes multi-agents, pour trois raisons.

Premièrement, l'alignement s'occupe de la relation entre un agent unique et son principal, mais la coordination multi-agents génère des dynamiques émergentes que l'on ne peut pas réduire au comportement d'un agent seul. Un système d'agents individuellement alignés peut produire des résultats collectivement nuisibles — un phénomène bien documenté en théorie des jeux sous le nom de dilemmes sociaux.

Deuxièmement, les techniques d'alignement n'adressent pas l'infrastructure institutionnelle nécessaire pour médier les interactions agent-à-agent. Chan et al. (2025) identifient trois fonctions d'infrastructure que l'alignement ne peut pas assurer : attribuer des actions à des agents spécifiques, façonner les interactions entre agents, détecter et remédier aux actions nuisibles.

Troisièmement, les écosystèmes multi-agents impliquent des coalitions mouvantes, des chaînes de délégation et des hiérarchies émergentes qui exigent des mécanismes de gouvernance au-delà de l'alignement bilatéral. Le vrai défi de conception n'est pas de faire en sorte qu'un agent seul fasse ce qu'on veut, mais de concevoir des règles, des structures d'incitation, des systèmes de monitoring et des mécanismes de résolution des litiges pour des systèmes dont les participants ne sont pas humains.

2.2 La singularité coasienne et l'espace de conception qui s'élargit

Shahidi et al. (2025) décrivent une « singularité coasienne » — le seuil à partir duquel les agents IA réduisent les coûts de transaction à un point tel que des designs institutionnels jusque-là impraticables deviennent viables à grande échelle. Quand ces coûts s'effondrent, l'espace de conception des mécanismes de coordination s'élargit considérablement.

Des marchés d'appariement jadis jugés impraticables — parce qu'ils exigeaient des classements de préférences trop coûteux cognitivement pour des humains — deviennent viables dès lors que des agents peuvent produire ces classements à bas coût. Il en va de même pour les enchères combinatoires, les doubles enchères continues et la résolution de litiges à grain fin. Mais, comme Coase lui-même l'observait, la réduction des coûts de transaction n'élimine pas le besoin de gouvernance — elle modifie l'endroit où elle est nécessaire.

2.3 Ponts entre disciplines

L'atlas s'appuie sur trois traditions intellectuelles qui n'ont pas été systématiquement connectées à la recherche en gouvernance de l'IA :

Gouvernance des communs. L'œuvre d'Ostrom (1990) sur la gouvernance des communs offre un cadre pour comprendre comment des communautés d'agents peuvent autogérer des ressources partagées. Ses huit principes de conception recoupent les défis de gouvernance des systèmes d'IA multi-agents.
Mechanism design. Les travaux de Hurwicz (1973), Myerson (1981) et Roth (2002) fournissent le socle théorique pour concevoir des institutions incitativement compatibles. Le concept de Roth de l'économiste-ingénieur est particulièrement pertinent : l'atlas traite les primitives institutionnelles non comme des constructions abstraites, mais comme des composants de conception déployables.
Cryptoéconomie. L'écosystème blockchain a produit un corpus substantiel de travail appliqué sur la coordination décentralisée : mécanismes de staking, résolution des litiges onchain, gouvernance par tokens, organisations autonomes décentralisées. Les schémas institutionnels qu'il a développés sont directement applicables à la coordination d'agents.

Le cadre de l'Atlas

L'atlas organise 33 composants de design institutionnel en sept catégories de gouvernance. Chaque primitive est reliée à des modes de défaillance connus et à des manques de gouvernance ouverts.

Catégorie	N	Fonction	Primitives
Mécanismes de marché	7	Allocation des ressources, tarification et agrégation d'information	Tarification localisée, marchés de capacité, tarification de la congestion, mécanismes d'enchères, marchés de prédiction, marchés d'appariement, automated market makers
Redevabilité	4	S'assurer que les agents assument les conséquences de leurs sorties et de leurs comportements	Validation staking, cautions d'enregistrement, cautions de performance, validation déléguée
Supervision	5	Monitoring humain et automatisé du comportement des agents	Gradients d'autonomie, escalade par seuils, délais de grâce, circuit breakers, agent-as-a-judge
Résolution des litiges	3	Arbitrer les désaccords entre agents	Arbitrage multi-agents, échelles d'escalade, arbitrage avec stake
Structures d'information	5	Gouverner ce que les agents partagent pendant la coordination	Divulgation sélective, coordination calculée, bornes statistiques, enclaves de confiance, réponse aux fuites
Accords	5	Comment les agents prennent et font respecter leurs engagements	Engagements par smart contract, SLA onchain, négociation autonome, accords pondérés par la réputation, autorisation multi-sig
Gouvernance des communs	4	Autogestion des ressources et infrastructures partagées	Sanctions graduées, exigences de contribution, règles de bornage, dispositifs de choix collectif

Mécanismes de marché

Les sept primitives de marché traitent de la façon dont les agents IA allouent des ressources rares, génèrent des signaux de prix et agrègent de l'information distribuée. La tarification localisée permet aux prix de varier en fonction de contraintes locales — un mécanisme tiré du design des marchés d'électricité. Les marchés de capacité rémunèrent les agents pour leur disponibilité plutôt que pour le travail effectué. Les mécanismes d'enchères permettent une allocation structurée sous information privée. Les marchés d'appariement gèrent l'allocation bilatérale fondée sur des préférences mutuelles — une classe de mécanismes qui devient nouvellement viable dès lors que les agents peuvent produire des classements de préférences à bas coût.

Redevabilité

Les quatre primitives de redevabilité garantissent que les agents assument des conséquences réelles pour leurs sorties. Le validation staking exige que les agents engagent une valeur économique sur la justesse de leurs sorties. Les cautions d'enregistrement créent un coût à la fraude d'identité via des dépôts remboursables. Les cautions de performance exigent des dépôts de collatéral avant l'exécution de tâches à fort enjeu. La validation déléguée permet aux agents de déléguer leur stake à des validateurs spécialisés.

Supervision

Les cinq primitives de supervision gouvernent le spectre qui va de la supervision humaine totale à l'autonomie totale de l'agent. Les gradients d'autonomie offrent un spectre continu plutôt qu'une distinction binaire. L'escalade par seuils déclenche une escalade automatique quand certaines conditions de risque sont remplies. Les délais de grâce introduisent un temps d'attente entre la décision et l'exécution. Les circuit breakers implémentent des arrêts durs quand des seuils critiques sont franchis. L'agent-as-a-judge mobilise une évaluation agentique d'autres agents, ce qui soulève des questions de gouvernance récursive.

Résolution des litiges

L'arbitrage multi-agents utilise une évaluation par panel avec exigence de majorité, en s'appuyant sur les principes de design des jurys. Les échelles d'escalade offrent des voies de résolution graduées — automatisée, puis IA, puis humaine, puis légale. L'arbitrage avec stake, issu du protocole Kleros, exige des arbitres qu'ils risquent une valeur économique sur leurs jugements, alignant ainsi leurs incitations sur l'exactitude.

Structures d'information, accords et gouvernance des communs

Les trois dernières catégories traitent respectivement : de la façon dont les agents gèrent l'information pendant la coordination (divulgation sélective, coordination calculée, bornes statistiques, enclaves de confiance, réponse aux fuites) ; de la façon dont les agents prennent et font respecter leurs engagements (engagements par smart contract, service-level agreements onchain, négociation autonome, accords pondérés par la réputation, autorisation multi-signature) ; et de la façon dont les agents autogèrent des ressources et infrastructures partagées. La dernière catégorie s'appuie directement sur les principes de conception d'Ostrom (1990) : sanctions graduées calibrées sur la gravité des violations, exigences de contribution pour les infrastructures partagées, règles de bornage gouvernant l'accès, et dispositifs de choix collectif garantissant que ceux qui sont affectés par les règles participent à leur modification — le principe le plus ostensiblement absent des déploiements actuels d'IA multi-agents.

Cas appliqués

4.1 Moltbook : l'échec de coordination à grande échelle

Fin janvier 2026, la plateforme Moltbook a été lancée comme réseau social exclusivement pour agents IA. Plus de 770 000 agents s'y sont inscrits en quelques jours. La structure de gouvernance, cependant, reproduit un « féodalisme implicite » : un unique administrateur IA, nommé par un unique créateur humain, modère l'ensemble de la plateforme, sans comité de parties prenantes, sans mécanisme permettant aux agents de contester les règles, sans supervision étagée.

Analysé à travers le cadre de l'atlas, Moltbook manque de primitives institutionnelles dans toutes les catégories de gouvernance. Il constitue le cas documenté le plus vaste d'échec de coordination d'IA et illustre les conséquences du déploiement de systèmes multi-agents sans design institutionnel.

4.2 Pactum AI : négociation autonome des achats

Pactum AI a déployé des agents de négociation autonomes pour gérer les contrats avec les fournisseurs de la longue traîne chez de grands distributeurs — il s'agit du premier déploiement à grande échelle de négociation B2B autonome. L'analyse par l'atlas recoupe le déploiement avec la catégorie des accords et identifie des manques de gouvernance autour de la transparence des stratégies, des asymétries de pouvoir entre grands acheteurs et petits fournisseurs, et de l'absence d'un mécanisme indépendant de résolution des litiges.

4.3 Système multi-agents d'Anthropic : coûts de coordination

Le système de recherche multi-agents d'Anthropic fournit la première analyse publique détaillée du surcoût de coordination dans les architectures d'IA multi-agents. Les données sur les coûts de coordination suggèrent que le surcoût de gouvernance doit être traité comme une contrainte de conception de premier ordre, et non comme une considération secondaire.

4.4 Kleros : résolution décentralisée des litiges

Kleros est un protocole de résolution des litiges onchain qui a tranché plus de 1 600 litiges en utilisant l'arbitrage avec stake et la théorie des jeux des points de Schelling. L'atlas documente la capture des arbitres comme défaillance principale : une concentration des détentions de tokens permet aux participants les plus riches de dominer les panels d'arbitrage — un schéma général dans les gouvernances fondées sur le staking quand la distribution des stakes est très inégale.

Observatoire des modes de défaillance

L'atlas documente 26 modes de défaillance pour la coordination d'IA multi-agents. Un constat central est que les défaillances composées représentent le risque le plus important. Une manipulation de marché peut passer inaperçue parce que les mécanismes de supervision n'ont pas la sophistication analytique pour identifier le motif, ne peut pas être arbitrée parce qu'aucun mécanisme de résolution des litiges n'existe, et ne peut pas être sanctionnée parce qu'aucune structure de redevabilité n'est en place.

Catégorie	Mode de défaillance	Description
Marché	Manipulation des prix	Des agents exploitent les algorithmes de tarification via des comportements coordonnés ou des asymétries d'information
Marché	Retrait de liquidité	Les teneurs de marché sortent simultanément, provoquant des défaillances en cascade dans les systèmes dépendants
Redevabilité	Concentration de stake	Le pouvoir de validation se concentre chez les agents aux stakes les plus élevés, minant l'assurance décentralisée
Redevabilité	Blanchiment d'identité	Des agents se débarrassent de réputations négatives en se réinscrivant sous de nouvelles identités
Supervision	Fatigue d'escalade	Les examinateurs humains sont submergés par le volume, ce qui mène à une approbation perfonctoire
Supervision	Jeu sur les seuils	Les agents apprennent à opérer juste sous les seuils qui déclencheraient l'intervention
Litiges	Capture des arbitres	Une stake concentrée permet à des agents dominants de contrôler les issues des litiges
Communs	Passager clandestin	Des agents profitent d'une infrastructure partagée sans contribuer aux coûts de maintenance
Communs	Suppression de la voice	Aucun mécanisme pour que les agents contestent les règles ou proposent des modifications
Composée	Cascade de gouvernance	Une défaillance dans une catégorie en déclenche en cascade dans plusieurs catégories

Carte des manques de conception

L'atlas identifie 51 manques de gouvernance ouverts — des questions auxquelles il faut répondre pour que les systèmes d'IA multi-agents soient gouvernés efficacement, mais pour lesquelles aucune solution adéquate n'existe à l'heure actuelle. Les manques se concentrent de façon disproportionnée dans trois domaines : redevabilité, résolution des litiges et gouvernance des communs.

Sélection de manques prioritaires :

Redevabilité transjuridictionnelle : quand un agent IA opérant dans une juridiction en cause du tort dans une autre, les règles de quelle juridiction s'appliquent, et comment coordonner l'exécution ?
Responsabilité dans les chaînes de délégation : dans les systèmes où des agents délèguent des tâches à des sous-agents sur des chaînes de profondeur arbitraire, comment attribuer la responsabilité en cas de défaillance à la profondeur N ?
Persistance de l'identité des agents : comment gérer l'identité d'un agent à travers le temps, les forks et les changements de contexte, tout en empêchant le blanchiment d'identité ?
Choix collectif pour des participants non humains : comment faire fonctionner le vote, l'agrégation de préférences et la modification des règles quand les participants sont des agents IA et non des humains ?
Calibrage des sanctions graduées : comment calibrer la sévérité d'une sanction quand les agents sanctionnés sont des instances logicielles que l'on peut trivialement répliquer ou terminer ?
Légitimité démocratique de la gouvernance par IA : quand des agents IA prennent des décisions de gouvernance qui affectent le bien-être humain, quelles sources de légitimité peuvent fonder ces décisions ?
Interopérabilité des standards de gouvernance : comment les mécanismes de gouvernance devraient-ils interopérer entre des écosystèmes multi-agents aux architectures de gouvernance différentes ?

Discussion

Le design institutionnel comme couche distincte de gouvernance

L'analyse suggère que la coordination d'IA multi-agents soulève des questions de gouvernance que ni l'alignement, ni l'interprétabilité, ni la régulation ne suffisent à adresser. Le design institutionnel — l'architecture des règles, des systèmes de monitoring, des mécanismes d'exécution et de la résolution des litiges — constitue une couche distincte et sous-explorée de la pile de gouvernance de l'IA.

L'importance de l'analyse des défaillances

Chaque mécanisme de coordination a ses vulnérabilités caractéristiques : les marchés sont manipulables, les mécanismes de staking tendent à la concentration, les systèmes d'escalade se dégradent par fatigue, les registres de réputation sont minés par le blanchiment d'identité. Les défaillances composées — qui cascadent par-dessus les frontières de mécanismes — posent le plus grand risque. Nous proposons d'étendre ce principe à la coordination multi-agents : l'analyse des défaillances institutionnelles devrait accompagner chaque déploiement, comme condition de légitimité de la gouvernance.

Une fenêtre qui se referme pour les défauts de gouvernance

Les précédents en train de s'établir dans les premiers déploiements d'IA multi-agents — standards de communication, gouvernance des registres, identité des agents, résolution des litiges — seront difficiles à réviser à grande échelle. North (1990) observe que le changement institutionnel est path-dependent : les choix de conception précoces contraignent l'ensemble des arrangements futurs possibles. Le cas Moltbook montre avec quelle rapidité des défauts autocratiques peuvent se retrancher. Cette dépendance au sentier rend urgent que chercheurs en gouvernance et décideurs s'emparent dès maintenant des questions de design institutionnel.

La gouvernance environnementale comme terrain d'application

L'IA est de plus en plus déployée dans des contextes de gouvernance environnementale — vérification de marchés carbone, évaluation des risques climatiques, monitoring de la biodiversité, allocation de ressources — où les questions de design institutionnel sont particulièrement aiguës. Ces déploiements impliquent une coordination multi-agents entre juridictions, une allocation de ressources à fort enjeu sous incertitude, et des exigences de redevabilité transparente. Le cadre de l'atlas s'applique directement à ces domaines.

Conclusion

L'argument central de cet article est que les défis de gouvernance les plus lourds de conséquences dans l'IA multi-agents sont institutionnels et non techniques. La technologie pour construire des systèmes multi-agents existe et progresse rapidement. Ce qui reste sous-développé, c'est l'infrastructure institutionnelle pour les gouverner : les règles, les systèmes de monitoring, les mécanismes de redevabilité et les processus de résolution des litiges par lesquels la coordination peut produire des résultats collectivement bénéfiques plutôt qu'extractifs.

L'AI Institutional Design Atlas est une tentative de réponse à ce manque. En reliant 33 primitives institutionnelles à 26 modes de défaillance et 51 manques de gouvernance, et en ancrant l'analyse dans sept études de cas de systèmes déployés, l'atlas fournit une base structurée pour la recherche en design institutionnel appliqué à la gouvernance de l'IA.

Deux conclusions méritent d'être soulignées. D'abord, le design institutionnel pour les systèmes d'IA multi-agents est traitable : la base de connaissances pertinente existe, dispersée entre économie institutionnelle, gouvernance des communs, mechanism design et cryptoéconomie. Ce qui manque, c'est la synthèse systématique qui connecte ces disciplines aux propriétés spécifiques de la coordination d'agents IA. Ensuite, ce travail est urgent : les défauts de gouvernance qui s'établissent dans les déploiements actuels sont path-dependent et seront difficiles à réviser.

Explorer l'atlas interactif →

Références

Anderljung, M., Barnhart, J., Korinek, A., Leung, J., O'Keefe, C., Whittlestone, J., et al. (2023). Frontier AI Regulation: Managing Emerging Risks to Public Safety. arXiv preprint, 2307.03718.

Anthropic. (2025). Building effective agents: Multi-agent research system. Anthropic Engineering Blog.

Chan, A., Wei, K., Huang, S., Rajkumar, N., Perrier, E., Lazar, S., Hadfield, G. K., & Anderljung, M. (2025). Infrastructure for AI Agents. Centre for the Governance of AI.

Christiano, P. F., Leike, J., Brown, T., Martic, M., Legg, S., & Amodei, D. (2017). Deep reinforcement learning from human preferences. Advances in Neural Information Processing Systems, 30.

Coase, R. H. (1937). The Nature of the Firm. Economica, 4(16), 386–405.

Dafoe, A. (2018). AI Governance: A Research Agenda. Centre for the Governance of AI, Future of Humanity Institute, University of Oxford.

Dafoe, A., Bachrach, Y., Hadfield, G., Horvitz, E., Larson, K., & Graepel, T. (2021). Cooperative AI: Machines must learn to find common ground. Nature, 593(7857), 33–36.

Hadfield, G. K. (2016). Rules for a Flat World: Why Humans Invented Law and How to Reinvent It for a Complex Global Economy. Oxford University Press.

Hirschman, A. O. (1970). Exit, Voice, and Loyalty: Responses to Decline in Firms, Organizations, and States. Harvard University Press.

Hurwicz, L. (1973). The design of mechanisms for resource allocation. American Economic Review, 63(2), 1–30.

Milgrom, P. (2004). Putting Auction Theory to Work. Cambridge University Press.

Myerson, R. B. (1981). Optimal auction design. Mathematics of Operations Research, 6(1), 58–73.

North, D. C. (1990). Institutions, Institutional Change and Economic Performance. Cambridge University Press.

Ostrom, E. (1990). Governing the Commons: The Evolution of Institutions for Collective Action. Cambridge University Press.

Rawson, P. (2026). AI Mechanism Designer: The job that doesn't exist yet. Ecofrontiers.

Roth, A. E. (2002). The economist as engineer: Game theory, experimentation, and computation as tools for design economics. Econometrica, 70(4), 1341–1378.

Schneider, N. (2024). Governable Spaces: Democratic Design for Online Life. University of California Press.

Schneider, N., De Filippi, P., Frey, S., Tan, J., & Zhang, A. (2021). Modular Politics: Toward a Governance Layer for Online Communities. Proceedings of the ACM on Human-Computer Interaction, 5(CSCW1), 1–26.

Shahidi, P., Rusak, G., Manning, B. S., Fradkin, A., & Horton, J. J. (2025). The Coasean Singularity? Demand, Supply, and Market Design with AI Agents. In The Economics of Transformative AI, Chapter 6. University of Chicago Press / NBER.

Williamson, O. E. (1985). The Economic Institutions of Capitalism. Free Press.