Quelle différence entre un sondage sur 100 personnes, 1000, ou 1 million ?

14/08/2017 Non Par cborne

La notion d’intervalle de confiance et de fluctuation est une leçon abordée en seconde générale, elle est mal comprise par les élèves car ils ne savent pas lorsqu’ils sont dans un cas ou dans l’autre. Les deux formules sont présentées de la façon suivante :

Intervalle de fluctuation :

[ p – 1/n ; p + 1/n ]

Intervalle de confiance :

[f−1/n;f+1/n]

  • p correspond à une probabilité théorique,
  • f correspond à une probabilité obtenue au niveau de l’échantillon,
  • cet échantillon noté n doit être supérieur à 25, on se doute qu’un sondage réalisé sur trois personnes n’a aucun sens.
On utilise l’intervalle de fluctuation pour vérifier si une situation est correcte, on utilise l’intervalle de confiance pour faire une prédiction.

Prenons le cas d’une pièce de monnaie, la probabilité d’obtenir pile ou face est de 0.5, si on fait 50 tirages, on peut écrire l’intervalle de fluctuation de la façon suivante : [ 0,5 – 1/50 ; 0,5 + 1/50 ] soit en calculant, l’intervalle [0.35; 064]. Cet intervalle est sûr à 95% c’est à dire que tout lancer de pièce de monnaie devrait donner des probabilités qui appartiennent à cet intervalle dans 95% des cas. Imaginons que lors de 50 tirages avec une pièce de monnaie, j’obtienne une probabilité de pile de 0.3 cela peut signifier deux choses. Je suis dans le 5% des cas où j’ai fait une série de face très importante. Cela ne devrait pas arriver mais c’est la part de hasard. Le cas le plus probable c’est que la pièce soit truquée. L’intervalle de fluctuation va être réalisé pour décrypter une situation, trouver une éventuelle anomalie dans une chaîne de production.

On fait un sondage avant une élection quelconque. Les individus vont donner des intentions de votes, on va exprimer plutôt un pourcentage à la place d’une probabilité ce qui est pourtant équivalent. Imaginons qu’un candidat recueille 59% des intentions de vote, on a une probabilité de 59/100=0.59, il s’agit de f, la probabilité trouvée dans l’échantillon.

Imaginons que nous avons obtenu 59% dans trois échantillons, un de 100 personnes, un de 1000 personnes, un de 1 millions de personnes. Les intervalles de confiances respectifs sont :

[ 0,59 – 1/100 ; 0,59 + 1/100 ] soit [0.49;0.69]

[ 0,59 – 1/1000 ; 0,59 + 1/1000 ] soit [0.56;0.62]

[ 0,59 – 1/1000000 ; 0,59 + 1/1000000 ] soit [0.589;0.591]

Dans les trois cas, on peut supposer que le candidat va l’emporter, on remarquera tout de même qu’on est limite sur le cas à 100 personnes puisqu’on est un peu en dessous de 50%. Pour 1000 et 1 million de personnes, il n’y a pas d’ambiguïté. Le sondage réalisé sur 100 personnes n’est pas assez précis, entre la borne inférieure et la borne supérieure, on a 20% d’écart. Pour le sondage sur 1000 personnes, on ramène l’écart entre les deux bornes à 6%, pour celui sur 1 millions, plus que 0.2%, si bien que dans ce dernier cas, on a la quasi certitude que le candidat a gagné (à 95%) et qu’il aura un résultat d’environ 59%. Il s’agit ici d’une logique, plus l’échantillon est important plus on se rapproche du résultat théorique ou l’on sait que le résultat définitif se rapprochera du résultat relevé dans l’échantillon.

L’idéal donc serait de faire un sondage sur l’ensemble des électeurs, pour obtenir le résultat de l’élection ! Il est nécessaire toutefois de ramener un sondage à une réalité bien pratique, son coût, son temps. Interroger des gens demande du temps, des ressources. Vous n’avez pas le temps d’interroger un million de personnes pendant une période électorale où il est nécessaire de multiplier les sondages, vous n’avez pas les moyens de financer une équipe pour interroger un million de personnes. Même si un écart de 6% peu paraître important, il permet néanmoins d’avoir l’information qui nous intéresse réellement, savoir si le candidat va l’emporter.