Evaluer est un terme d’usage courant : on évalue un élève, le prix d’un appartement, l’opportunité de sortir avec un parapluie, le succès d’une politique, les risques d’une installation, l’efficacité d’un médicament,… Bien souvent, pour évaluer, nous nous appuyons sur un chiffrage : nombre d’accidents, cote de popularité, … Et, souvent aussi, ce chiffrage est monétaire : on donne une valeur en euros. Au point que, pour certaines personnes ou dans certains cas, évaluer revient à “valoriser” : déterminer une valeur monétaire (coût d’un cyclone, bilan d’un programme public, …). Plus largement, on calcule des indicateurs quantitatifs. Ceux-ci sont des décomptes simples ou des statistiques plus élaborées, parfois l’estimation de paramètres dans des modèles ou des tests d’hypothèses.
Ainsi, pour beaucoup, on a fait une évaluation lorsqu’on dispose d’un chiffrage. Mais en réalité, dans l’évaluation de l’action publique, il s’agit de porter une appréciation : en quoi cette action est-elle bonne ou mauvaise, c’est-à dire par exemple : pertinente, efficace…? A-t-on eu raison de la mener ? Doit-on continuer ? A quels critères nous référons-nous, quel objectif poursuivons-nous, au moins implicitement ? Si l’on veut dépasser l’intuition, les décisions d’humeur ou d’idéologie, il convient d’adopter une démarche d’évaluation rigoureuse : des statistiques et des études, sans doute, mais référées aux buts poursuivis et aux conditions sociales, psychologiques (philosophique ?) ou politiques des acteurs en présence.
Ce séminaire du 25 septembre 2009 rassemblait des statisticiens, des évaluateurs et des responsables de l’action publique autour de la double question : quel peut être l’apport de la statistique à l’évaluation ? Et en quoi consiste l’évaluation au-delà de la statistique ?
S’il fallait évaluer cette journée, nous dirions, d’un point de vue quantitatif, qu’elle a été un grand succès : 130 participants (provenant aux deux tiers des administrations d’Etat au sens large), succès d’audience que nous n’osions espérer en lançant ce projet.
D’un point de vue qualitatif, le contenu des exposés et le dynamisme des débats ont permis des échanges constructifs tout au long de la journée. Nous l’avions centrée sur l’évaluation de l’action collective, de politiques, programmes ou dispositifs, laissant volontairement de côté l’évaluation individuelle qui se situe dans une perspective différente et aurait trop élargi le thème de la journée.
Grâce à Philippe Zamora, l’estimation du résultat de dispositifs au moyen des techniques statistiques de comparaison avec des groupes témoins tirés par échantillonnage aléatoire est sortie de la caricature simpliste où le dispositif social est assimilé à un test de médicament. Il a montré comment les diverses méthodes possibles (échantillonnage ex ante, ex post, simulation statistique, etc..) sont utilisées selon les configurations du dispositif étudié (expérimental, partiel ou global, etc.) avec leurs avantages et leurs limites, et la nécessité d’une réflexion éthique.
Jocelyne Delarue a resitué les différentes évaluations entre deux pôles opposés : ‘recherche évaluative’ d’un côté et ‘évaluation/aide à la décision’ de l’autre. Elle a montré la tension dans l’écriture des rapports entre la reconnaissance scientifique d’une part, et l’utilité pour le décideur, de l’autre. Benoit Mulkay, parlant pour l’Insee, a illustré ce propos par la posture de l’Insee qui refusa d’extrapoler en nombre d’emplois crées par le dispositif CROC les résultats exprimés en %. Le cas de l’évaluation de ce dispositif d’aide aux entreprises dit CROC (restitué par Eric Monnier du cabinet Eureval) a montré comment une étude statistique (ici faite par l’Insee, institution légitime) s’intègre dans un processus d’évaluation (comité de pilotage avec élus) et sa tension dynamique.
André Lienhart a illustré un autre usage de la statistique pour l’évaluation dans le cas de la santé : deux évaluations réalisées à 16 ans d’intervalle au moyen d’enquêtes faites auprès et par des acteurs réticents au départ ont pu montrer le succès des la démarche entreprise qui a atteint ses objectifs : diviser par mille le nombre d’accidents mortels en anesthésie. L’analyse des risques s’appuie aussi sur un retour d’expérience, proche de l’autoévaluation partagée (pas de recherche de coupables mais une compréhension des effets de système). La prise de conscience de l’importance de l’évaluation permet d’arriver aujourd’hui à la mise en place d’un suivi statistique annuel régulier.
Des débats autour de ces présentations, que ressort-il ?
Il devrait être clair – mais c’est souvent méconnu – qu’une étude ne constitue pas en soi une évaluation : même si celle-ci s’appuie sur une étude, elle se doit d’aller au-delà. Il s’agit certes de porter une appréciation sur un résultat ou sur une action collective ; mais il s’agit tout autant de comprendre les déterminants de ce résultat ou de cette action, de façon à éclairer l’action.
L’étude en question doit mettre en évidence ce qui s’est passé ; en particulier, mesurer l’efficacité de ce qu’on a fait, c’est-à-dire les résultats de l’action au regard de ses objectifs. Pour mesurer cela, il ne suffit pas de regarder l’évolution depuis le début du programme évalué, car les choses auraient de toute façon évolué ; il s’agit de faire la part, dans cette évolution, de ce qui est imputable à l’action entreprise. Il faut donc rapporter le résultat à ce qui se serait passé si l’on n’avait rien fait, c’est à dire qu’il faut établir une situation de référence, ou situation contre-factuelle. L’évaluation emprunte là la voie ouverte par l’épidémiologie et par l’expérimentation en biologie il y a plusieurs décennies.
Deux techniques s’offrent, qui ont toutes deux été présentées durant cette journée :
– Ou bien on peut circonscrire l’intervention que l’on se propose de mener, en choisissant les sites ou les personnes sur qui elle portera et en observant parallèlement un “échantillon-témoin” exempt de cette intervention ; pour garantir la comparabilité, on sépare l’échantillon- cible de l’action et l’échantillon témoin par tirage aléatoire. Cette méthode quasi-expérimentale n’est pas toujours possible.
– Ou bien, on n’avait pas prévu ni organisé a priori l’évaluation : on constitue donc après coup un échantillon de référence en recherchant ce qu’on appelle des “cas témoins” : des personnes ou des entités qui se sont trouvées ne pas subir ou bénéficier de l’intervention, mais qui ressemblent aux cas Statistique et évaluation Les Cahiers de la SFE n° 5 -4 – “traités” et qu’on leur apparie en prenant en compte des caractéristiques communes.
La transposition de ces méthodes épidémiologiques à l’évaluation de l’action collective est très récente en France où l’expérimentation sociale n’est légalement autorisée par la Constitution que depuis 2004 (les Etats-Unis nous y avaient précédés dans les années soixante pour évaluer les programmes de lutte contre la pauvreté très controversés). Mais cette transposition s’est parfois faite de façon trop directe et naïve : une collectivité humaine ne se comporte pas comme une plantation ou un médicament ! Dorénavant, ces méthodes sont plus ajustées et c’est ce que l’on a vu durant cette journée. Elles en appellent également à des principes éthiques.
Ces méthodes sont grandes consommatrices de statistique, car il faut organiser de façon rigoureuse le recueil des données pertinentes ; et ceci suppose un certain nombre de conventions pour formaliser ce qui sinon resterait implicite au point qu’on n’aurait aucune garantie quant à la signification des résultats.
Il y a plus : non seulement les dites méthodes ont été adaptées au contexte sociétal, mais elles ont dû prendre en compte que l’action à évaluer et éclairer baigne le plus souvent dans l’interaction de multiples acteurs, qui ont des objectifs comme des critères de valeur différents. C’est là que l’évaluation doit dépasser la simple mesure objectivante pour prendre en compte le système d’acteurs : comprendre la multiplicité de leurs motivations, leur faire accepter l’intervention mais aussi son évaluation et donc les options de méthode, et leur restituer des constats que, de toute façon, ils interpréteront. Dans une évaluation, il s’agit donc d’intégrer l’analyse statistique dans un processus qui lui donne sa légitimité et permette l’appropriation des résultats par les acteurs concernés.
Au-delà donc de la construction de la situation expérimentale et du traitement des données, il s’agit également de vérifier la pertinence des objectifs de l’action au regard des besoins des territoires ou des populations (et non seulement de constater l’atteinte ou non de ces objectifs). Une telle analyse suppose, idéalement, que les objectifs visés sont clairement identifiés. Or, il n’en est pas toujours ainsi : les objectifs restent en partie implicites, voire dissimulés et/ou contradictoires. L’analyse de la cohérence des actions et de leur accord avec les objectifs affichés (ou rendus explicites par le processus d’évaluation) permet dans une certaine mesure – mais c’est délicat à mener – de pallier cette ambiguïté.
Statisticiens et évaluateurs ont beaucoup appris de cette première confrontation et nous espérons que le message essentiel est passé : une étude statistique n’est pas à elle seule une évaluation ; mais les évaluations se nourrissent de statistique. Mais ce n’est qu’une première rencontre, une étape dans la collaboration que devraient développer nos deux communautés.
AVNER BAR-HEN , président de la Société Française de Statistique
ANNIE FOUQUET, présidente de la Société Française de l’Evaluation
RENE PADIEU, membre de la SFdS et de la SFE
SOMMAIRE
Introduction, Avner Bar-Hen, Annie Fouquet, René Padieu
L’évaluation aléatoire des programmes sociaux : un renouveau en France dans l’évaluation des politiques publiques, Philippe Zamora
L’évaluation des aides aux entreprises : l’expérience de l’INSEE, Benoit Mulkay
L’évaluation d’aides directes aux PME : le déroulement d’une évaluation en région Rhône-Alpes, Eric Monnier
Réduire le risque anesthésique : le rôle de la mesure dans le jeu d’acteurs. Passé, présent, futur, André Lienhart
Enquête, évaluation et clinique sociale, René Padieu
La journée a été soutenue par l’Insee et par l’institut Raymond Poincaré qui nous a accueillis dans ses locaux. Nous les en remercions vivement ainsi que tous les intervenants qui ont contribué au succès de la journée, et -directement ou indirectement- à ce Cahier.
Ont contribué à ce Cahier : Jean-René Brunetière, président de Pénombre Jocelyne Delarue, AFD, Annie Fouquet, inspectrice générale des affaires sociales, Insee, Francis Kramarz, Crest-Insee André Lienhart, ancien président de la SFAR, Eric Monnier, Eureval, université de Genève Benoit Mulkay, Insee, université de Montpellier René Padieu, inspecteur général honoraire de l’Insee Michael Ruleta, SFE, Philippe Zamora, Crest-Insee, école d’économie de Paris, J-Pal
Comité de rédaction des Cahiers : Gaëlle Baron, Jean Claude Barbier, Annie Fouquet, Anne Lautredou, Jacques Toulemonde