Table of Contents
  1. L’origine de la méprise

    Le pipeline, vous dis-je !

  2. Les mégapixels, c’est pour le traitement
  3. Le cas du bruit numérique
  4. Moralité(s)

Il y a un truc pénible, qui se produit presque systématiquement chez le photographe un peu geek qui se souvient de ses cours de physique de lycée, c’est qu’il est trop rapide pour donner son opinion technique sur des technologies qui demandent au minimum un BAC+3 en physique appliquée pour seulement commencer à entrapercevoir de quoi ça cause.

Donc, aujourd’hui, on s’attaque à la croyance de tout bon photographe pragmatique :

24, 36, 52 Mpx de définition, dans un appareil photo, ça ne sert à rien : on imprime à 6 Mpx gros maximum. Ducon-Lajoie, polytechnicien de surface

À quoi on conclue doctement : « De toute façon, c’est juste du marketing #ObsolescenceProgrammée #SaloperieDeCapitalisme », et on achète quand même l’appareil qui a le plus de pixels, sans oublier d’en changer tous les 4 ans.

 

For privacy reasons YouTube needs your permission to be loaded. For more details, please see our Politique de confidentialité.

L’origine de la méprise

L’œil humain emmétrope, c’est à dire jeune, en pleine forme et sans défaut de vue (myopie, astigmatisme et j’en passe), peut faire la mise au point sur un objet à une distance minimale de 25 cm (on appelle cette distance caractéristique le punctum proximum, et il s’allonge avec l’âge). À cette distance, pour un individu ayant 10⁄10 d’acuité visuelle, son cercle de confusion a un diamètre d’environ 0,1 mm (0,00393701 pouce). Concrètement, ça signifie que deux points noirs de moins de 0,1 mm de diamètre dessinés l’un à côté de l’autre à une distance de moins de 0,1 mm sur une feuille blanche observée à 25 cm sont vus comme une seule tache grise : ils se confondent.

L’œil humain emmétrope a donc un pouvoir de résolution équivalent à 1 ÷ 0,00393701 = 254 points par pouce (ppp) ou dots per inch (dpi), au mieux, à 25 cm de distance. À noter, la résolution standard théorique d’une imprimante photo est 300 dpi minimum et celle d’un écran Apple Retina est entre 220 dpi (MacBook Pro 15”) et 458 dpi (iPhone X 5,8”).

Sachant que, pour la discrimination des couleurs, on a un champ de vision de 60 ° (encore une fois, pour un sujet jeune et en pleine forme), on peut donc regarder à cette distance un tirage de 28,9 cm (maximum) de large (11,4 pouces). Finalement, on a seulement besoin d’une image de 2900 pixels sur le plus grand côté, soit 2900×1933 pixels au format 3:2, soit 5,6 mégapixels. Donc un appareil photo de 16 Mpx et plus, ça ne sert à rien. CQFD.

Ça a l’air de se tenir. En plus c’est de l’optique de base, donc un peu de trigonométrie, et le tour est joué. Méfiez-vous, quand ça a l’air simple…

Le pipeline, vous dis-je !

On rentre ici dans mon principal combat, en tant que développeur d’algorithmes de traitement d’image : séparer la vue de la manipulation, dans le logiciel et dans la tête des gens.

Le traitement d’une image passe par une succession d’étapes qui se déroulent dans un ordre défini par la physique. On le décrit par une métaphore plombière : les étapes sont des filtres, qui s’empilent en définissant un pipeline (conduite, en anglais), à travers lequel l’image « s’écoule ».

Il y a 3 temps forts dans ce pipeline :

  1. la capture de l’image, par le capteur et son électronique de conditionnement, dans l’appareil photo
  2. le traitement de l’image, par un logiciel (qui peut être soit directement dans l’appareil photo, soit dans un ordinateur)
  3. l’affichage de l’image, sur écran ou sur papier.

Ici, c’est seulement ce dernier temps fort, l’affichage, qui peut se contenter de 0.5 à 6 Mpx. Avant ça, il a le traitement. Le problème, c’est que les gens ne font pas de distinction, dans leur tête, entre le traitement et l’affichage, ce qui fait qu’ils n’hésitent pas à traiter une image encodée pour l’affichage (en JPEG 8 bits avec un gamma 2.2), alors qu’en toute rigueur, elle n’est plus dans un état traitable (enfin, le bricolage immonde reste autorisé, donc les gens font ce qu’ils veulent).

Et ce traitement, quel est-il ? Il y a l’ajustement des couleurs, du contraste, etc. mais la plus grosse partie consiste à récupérer les erreurs du capteur, en particulier le bruit numérique, et les déformations de l’objectif.

#Les mégapixels, c’est pour le traitement

Matrice de Bayer, utilisée par la plupart des capteurs d’appareils photo numériques. CC Wikipedia

Le traitement numérique, que ça soit pour le son, l’image ou n’importe quoi de physique, repose sur la discrétisation : vous photographiez une réalité continue, lisse et sans interruption (du moins, à l’échelle macroscopique), au moyen d’une grille qui découpe la scène en carrés élémentaires monochromatiques : les photosites. La photo brute est donc un simple enregistrement de l’intensité lumineuse à chaque photosite, stocké dans un tableau à double entrée.

La discrétisation du signal physique continu, qu’on appelle l’échantillonnage, est une opération destructive qui dénature le signal d’origine, puisque celui-ci n’est pas découpé comme ça en vrai. En effet, chaque photosite ne capture qu’une seule « couleur » primaire (ce n’est pas vraiment de la couleur, mais je ne vais pas rentrer dans le détail ici), et il faut donc passer par une opération informatique pour restaurer les deux informations chromatiques manquantes à chaque photosite et ainsi créer des pixels RGB valides. Cette opération utilise les valeurs connues des photosites voisins pour estimer par le calcul les valeurs manquantes (en maths, on appelle ça interpoler).

Le dématriçage est limité par le décalage des couches RGB dans le plan du capteur. CC Wikipedia

Le problème est qu’on a toujours un décalage dans le plan du capteur entre les 3 couches RGB, qui créée donc une erreur dans la reconstruction des pixels, à l’origine de moiré et d'aberrations chromatiques. On ne peut donc pas se contenter d’une simple interpolation, il faut en plus essayer de recaler les 3 couches RGB en les translatant dans le plan du capteur : c’est le dématriçage, qui se fait au prix d’algorithmes souvent complexes, lourds, lents et qui ne marchent pas toujours bien. La bonne nouvelle, c’est que plus la densité de photosites élevée (c’est à dire plus les photosites sont petits et rapprochés), plus on réduit cette erreur de décalage.

Le capteur CMOS du Nikon D2 H (sorti en 2004) grossi 10 ×. © Jack/The Landingfield
Le même capteur grossi 40×. Notez les espaces entre les photosites, de l’ordre de ⅕ de la taille d’un photosite. © Jack/The Landingfield

Ces photosites sont non seulement un saucissonnage artificiel de la réalité, mais, de plus, ils sont disjoints : on a quelques dizaines de nanomètres d’écart entre chaque photosite sur le capteur. La première conclusion est qu’on ne « voit » pas les portions de l’image formée par l’objectif qui « tapent » entre les photosites sur le capteur : elles passent entre les cellules de la grille. On peut alors calculer le facteur de remplissage du capteur, qui correspond à la surface du capteur qui capte effectivement de la lumière (la surface réelle des photosites) : pour ce vieux capteur, elle est inférieure à 60 %. Pour des capteurs plus récents, on peut s’arranger pour avoir un facteur de remplissage de 100 % en utilisant des micro-lentilles sur les photosites, mais ces lentilles provoquent une perte de netteté et vous les connaissez probablement mieux sous le nom de filtre passe-bas optique (OLPF), qui tend à disparaître sur les capteurs produits depuis 2012 (chez Nikon et Sony d’abord, puis Olympus, Fuji et Panasonic, le dernier à les conserver étant Canon).

Minh-Ly non dématricée vue en N&B.Minh-Ly dématricée en RGB avec l'algorithme Amaze.

Théoriquement, cette erreur s’annule si la taille des photosites tend vers la taille d’un photon et qu’on annule les espaces entre photosites. En pratique, on y est presque pour les espaces entre photosites, grâce aux capteurs rétro-éclairés, mais pour la taille d’un photon, ce n’est pas encore pour demain. Cependant, il existe un théorème, dit de Shannon-Nyquist, qui énonce que :

La représentation discrète d’un signal exige des échantillons régulièrement espacés à une fréquence d'échantillonnage supérieure au double de la fréquence maximale présente dans ce signal. Théorème de l’échantillonnage

Concrètement, ça veut dire que pour imprimer sereinement à 6 Mpx (en sortie), vous avez besoin au minimum d’une image brute (en entrée) de 24 Mpx (on double la largeur et la hauteur) pour être absolument sûr de ne pas avoir de problèmes liés au dématriçage. En dessous de 24 Mpx en entrée, ça peut quand même marcher, mais il y a plus de chances que ça se passe mal. Étonnamment, c’est la résolution standard en entrée de gamme, ces temps-ci. Marketing, on disait ? Moi j’appelle ça des gens qui savent ce qu’ils font. Mais le théorème de Shannon n’est pas enseigné au lycée, donc Jean-Michel J’ai-écouté-en-cours ne peut pas le savoir, avant d’en appeler à l’optique et au bon sens pour diffuser ses contre-vérités.

#Le cas du bruit numérique

Si vous lisez la presse photo, vous savez que les capteurs moins denses en photosites produisent moins de bruit que les plus denses, car, à taille égale, leurs photosites sont plus gros, et capturent donc plus de lumière. Donc, a priori, pour la photo de nuit, un Nikon D610 est meilleur qu’un D850. C’est évident, hein ?

Oui, mais souvenez-vous, il se passe un truc après la prise de vue : le traitement. Or il se trouve que, plus on a de pixels, plus les algorithmes qui débruitent ont la vie facile. Par exemple, l’algorithme utilisé par DXO Prime et darktable pour débruiter, l’un des meilleurs actuellement, vient de la thèse de doctorat de Antoni Buadès, sous la direction de Jean-Michel Morel, à l’ENS de Cachan (parce qu’en France, on est des bêtes en maths. Dommage qu’on ne les enseigne pas à l’école…).

En gros, le bruit numérique est un phénomène aléatoire, qui affecte des pixels isolés sans forcément affecter leurs voisins. Si je photographie 2 fois la même scène, je n’aurai pas deux fois les mêmes pixels bruités. Cette propriété est à l’origine d’une vieille méthode de débruitage, rudimentaire mais très efficace, qui consiste donc à prendre plusieurs clichés de la même scène, et à superposer les clichés (dans différents calques sur Photoshop, par exemple) en moyennant les valeurs des pixels entre eux. Ça marche bien, tant qu’on n’a pas de sujet mobile dans l’image, auquel cas cette méthode produit des « fantômes ».

L’idée des moyennes non-locales repose sur le même principe, mais dans une seule image. En effet, une image comporte généralement des motifs qui se répètent (tissus, peau, cheveux, fenêtres, grilles, etc.). On va donc découper l’image en patchs, et associer des patchs qui présentent des motifs similaires (en calculant la similarité par des méthodes statistiques), et faire la moyenne patch par patch au sein de la même image, pour diluer de bruit sans lisser les détails et perdre de la netteté (ce qui est le défi fondamental du débruitage).

Qui dit méthode statistique dit faux-positifs : des patchs identifiés à tort comme similaires, qui vont engendrer des modifications peu crédibles de la texture des surfaces (avec création de bruit à gros grain, notamment). Et bien devinez la suite… Plus on a de patchs, plus on réduit la probabilité de faux positif, et mieux ça marche. Donc plus la résolution est élevée, plus le débruitage est crédible (je n’ose pas dire naturel).

À taille de capteur constante, plus la résolution augmente, plus le bruit numérique augmente, mais mieux il se corrige par algorithmes.

Et puis, même avec une correction de bruit imparfaite, à partir du moment où vous divisez la résolution de sortie par 4, le bruit va se retrouvé noyé par effet secondaire.

#Moralité(s)

Leçon zéro : tout l’intérêt de la haute résolution, ce n’est pas de pouvoir afficher plus large (auquel cas, c’est plutôt un capteur plus grand qu’il faudrait), mais de s’en garder sous le pied pour mieux traiter l’image et alléger les problèmes de dématriçage, interpolation, bruit, etc. liés à l’échantillonnage d’un signal continu.

Première leçon : un photographe est un photographe, pas un ingénieur, et il faut vraiment que les gourous du tuto photo/vidéo qui ont pignon sur rue s’autocensurent avant de parler de techniques qu’ils ne maîtrisent pas. Ici, à première vue, ça a l’air simple et évident… donc ils se plantent d’autant plus fort. Tout ce qui a l’air évident est faux, l’intuition et la réalité faisant rarement bon ménage (et la cognition humaine n'est pas conditionnée pour la pensée rationnelle).

Deuxième leçon : il faut faire une distinction claire et fondamentale entre le traitement de l’image, qui utilise un original brut (le master), et son affichage, qui adapte le master à un medium de sortie. Ce n’est pas parce que le medium de sortie tolère des ajustements approximatifs et que l’œil humain est, de toute façon, tout pourri, que le traitement d’image préalable peut s’accommoder d’imprécisions. La confusion entre la vue et le modèle est à la source de nombreuses incohérences dans la chaîne de traitement d’image numérique, y compris dans Photoshop et Lightroom. On travaille ici avec 3 niveaux conceptuels :

  1. la réalité physique (la lumière), supposée parfaite mais inaccessible car les perceptions (humaines) et mesures (des capteurs) sont toujours entachées d’erreur,
  2. le modèle, qui représente cette réalité aussi fidèlement que possible, mais toujours avec une erreur, c’est à dire l’image brute de capteur, échantillonnée de manière destructive en RGB, sur lequel on applique un traitement,
  3. la vue, qui permet à l’utilisateur d’avoir une représentation du modèle (et non de la réalité), qui soit signifiante dans son référentiel cognitif (qu’il puisse la comprendre avec ses connaissances et sa logique), c’est à dire l’image à l’écran, mais aussi tous les graphes, histogrammes, etc. qu’on peut utiliser pour disséquer le master.

En ajoutant un quatrième niveau, le contrôleur (qui permet de modifier le modèle), on obtient une architecture modèle-vue-contrôleur qui est à la base du développement logiciel d’interfaces graphiques depuis les années 1980. Mais pour une raison étrange, la systématisation des interfaces graphiques a juste brouillé les différences conceptuelles entre réalité, modèle, contrôleur et vue, de sorte qu’utilisateurs et développeurs finissent par équivaloir vue et modèle. C’est une grosse erreur, et un problème à la frontière entre l’épistémologie et les sciences cognitives qui a des répercussions directes en traitement d'image, notamment sur la qualité des algorithmes (qu’on applique donc, à tort, sur la vue et pas sur le modèle).

Troisième leçon : les performances brutes des capteurs ou des objectifs ne veulent plus dire grand chose en photographie numérique. Il vaut mieux un capteur ou un objectif plein de défauts faciles à corriger par l’informatique, que proche de la perfection dès le départ mais avec des défauts qui sortent du rayon d’action des algorithmes. D’ailleurs, la conception des nouveaux objectifs prend désormais en compte les possibilités des algorithmes dès le cahier des charges, et l’informatique est totalement intégrée dans les choix optiques. Mais ça, même Ken Rockwell, qui est pourtant censé être ingénieur électronique, n’a pas l’air au courant.

Quatrième leçon : on montre ici, clairement, les limites de l’approche des logiciels de traitement photo comme boîtes noires magiques qui cachent à l’utilisateur ce qui se passe à l’intérieur (parce qu’il serait trop con pour comprendre). Les incompréhensions soulignées ici sont toutes liées à la phase de traitement de l’image, qui est la plus opaque de la chaîne photo, car cachée derrière des interfaces « grand public » de logiciels « intelligents ». Mais les logiciels intelligents rendent les utilisateurs cons. Exposer le pipeline à l’utilisateur, montrer à travers quelles étapes fondamentales son image navigue est un pré-requis indispensable pour lui permettre de développer au moins une culture générale du traitement d’image qui ne soit pas à des années-lumière de la réalité. L’idée ici n’est pas de transformer l’utilisateur en ingénieur obsédé par la technique, mais bien de lui donner des clés pour prendre le contrôle raisonné et raisonnable de sa production photographique, et d’arrêter de le confiner dans un statut de débile mental à qui il faudrait éviter la migraine à tout prix, parce qu’il a payé pour ne pas réfléchir. Les utilisateurs sont intelligents, pour peu qu’on sache leur expliquer clairement ce qui se passe et qu’on leur donne une chance de comprendre.

En fait, je pense que je pourrais finir tous mes articles, ces temps-ci, par la même conclusion :

L’intuition ne marche pas. Méfiez-vous en. Les évidences, c’est pareil.