“Un tournant pour l’audio‑forensique” : entretien avec Fabio Cervi d’Earshot

Cet article est le premier numéro de RESOLUTION, la nouvelle publication mensuelle d’Index consacrée à l’investigation numérique. Chaque mois, RESOLUTION propose un entretien approfondi avec un·e praticien·ne de l’investigation numérique à travers le monde. RESOLUTION sera prochainement intégrée dans le nouveau site d’Index, actuellement en cours de développement.

Publié le 05.03.2026

Fin mars 2025, une fosse commune est découverte à Tel Al‑Sultan, dans la bande de Gaza. On y retrouve les corps de quinze secouristes, ainsi que des ambulances et un camion de pompiers écrasés puis enterrés. La découverte attire l’attention médiatique et révèle la gravité de ce qui s’est passé une semaine plus tôt, dans la nuit du 23 mars.

Malgré les témoignages des survivants, aucun récit précis des circonstances ne parvient à s’imposer dans l’espace public. L’armée israélienne admet avoir tiré sur ces véhicules, tout en les qualifiant de « suspects » et en évoquant un « échange de tirs ». Elle annonce l’ouverture d’une enquête interne, qui conclura quelques semaines plus tard à une série « d’erreurs professionnelles ».

C’est dans ce contexte — preuves détruites, récits contradictoires, parole des survivants discréditée — qu’Earshot et Forensic Architecture sont mandatés pour analyser trois enregistrements captés cette nuit‑là : une vidéo et deux appels téléphoniques. Leur enquête, Israeli Executions of Palestinian Aid Workers, publiée le 24 février 2026, reconstitue minute par minute le déroulement des faits. Elle révèle l’ampleur du massacre et confirme que des exécutions à bout portant ont bien eu lieu.

L’enquête se distingue aussi par la place centrale qu’occupe l’audio dans la reconstitution 3D — un tournant pour l’audio‑balistique, selon Fabio Cervi, d’Earshot. C’est lui que nous avons choisi d’interroger dans ce premier volet de RESOLUTION, la nouvelle publication mensuelle dédiée à l’investigation numérique éditée par Index.


Pour commencer, est‑ce que tu peux te présenter brièvement et nous expliquer ce qu’est Earshot exactement?

Je m’appelle Fabio Cervi. Je suis enquêteur audio chez Earshot, une ONG spécialisée en investigation sonore. J’ai rejoint le projet en 2020, et la structure a été officiellement créée en 2023. Earshot a été fondée par Lawrence Abu Hamdan, directeur, et Caline Matar, directrice adjointe.

Je suis musicien et architecte. J’ai suivi des cours spécialisés en audio‑forensique et en création audio synthétique. Au sein d’Earshot mon rôle est de développer des méthodes d’enquête à travers l’analyse audio et sa visualisation dans des logiciels de modélisation 3D et de simulation.

Earshot est une agence d’enquête qui analyse des cas de violence – principalement des violences d’État – à travers le son. Notre mission est de travailler directement avec les communautés affectées et nous reconstruisons les cas à partir d’enregistrements et de témoignages centrés sur l’expérience sonore des événements. Depuis notre création en 2023, nous avons mené plus de 40 enquêtes – en Palestine, en France, aux États‑Unis, au Royaume‑Uni, en Inde, au Cameroun – et nous avons collaboré avec des organisations comme Al Jazeera, la BBC, Middle East Eye, B’Tselem, Index ou Forbidden Stories.

Vous venez de publier Israeli Executions of Palestinian Aid Workers (avec Forensic Architecture), une enquête sur le massacre commis par l’armée israélienne à Tel Al-Sultan dans la bande de Gaza en mars 2025. Est‑ce que tu peux nous expliquer ce qu’elle révèle et pourquoi l’audio était une source déterminante dans ce cas ?

À Tel Al-Sultan, l’armée israélienne a ciblé du personnel médical, des ambulanciers ont été tués et des véhicules ont été enterrés, ainsi une grande partie des preuves matérielles a été effacée. Ce dossier était important pour de nombreuses raisons, mais notre intervention a été décisive parce que l’attaque a eu lieu de nuit : les images montrent très peu de choses, alors que le son, lui, est omniprésent.

Nous avons travaillé à partir de trois enregistrements : une vidéo tournée par le secouriste Refaat Radwan, qui conduisait l’un des véhicules du convoi et deux appels téléphoniques passés au siège de la Palestine Red Crescent Society (PRCS), l’un par Ashraf Abu Libda, l’autre par Asaad al‑Nasasra.

La vidéo de Refaat contient plus de cinq minutes de tirs continus ; c’était la source la plus importante. L’un des appels a lieu immédiatement après la vidéo de Refaat, l’autre plus de deux heures après le début de l’attaque. Comme tout se déroule de nuit, l’image est presque entièrement noire : on voit Refaat sortir de l’ambulance, se jeter au sol et rester couché pour se mettre à couvert, puis on ne distingue plus rien. À partir de là, l’audio est donc la seule véritable source accessible.

Nous avons interrogé aussi les deux seuls survivants de l’attaque, Asaad al‑Nassasra et Munther Abed, qui nous ont livré un récit très détaillé de la soirée. L’analyse audio a été décisive pour corroborer leurs déclarations et montrer que leur témoignage constitue une description précise et fiable de ce qui s’est passé.

Earshot se distingue par sa spécialisation dans le son. Chez Index on travaille surtout à partir de la vidéo et de l’image. Par exemple, nous prenons en compte la résolution d’une image pour calculer la marge d’erreur de nos modélisations 3D construites à partir de celle‑ci. Quels types de précautions méthodologiques prenez‑vous, vous, avec le son – qui est souvent perçu comme plus subjectif – pour garantir le même niveau de rigueur et de fiabilité ?

Une partie de notre travail consiste précisément à contester l’idée que l’audio serait une source de preuve plus subjective, destinée à jouer un rôle secondaire dans les procédures judiciaires.  Il est vrai que parfois, notre palette de méthodes – comme la vérification ou l’amélioration audio, notamment pour la parole – atteint ses limites : à un certain point, il faut interpréter ce qui est rendu audible.

On parle souvent de la “pixelisation” des images, de leurs limites de résolution. Le son a des limites analogues, mais structurées autrement. Il est échantillonné : un enregistreur capture des compressions et raréfactions de l’air à intervalles réguliers. Selon la fréquence d’échantillonnage, un micro peut enregistrer jusqu’à 48 000 échantillons par seconde. Cela signifie que, sur une seconde, le son est chargé de bien plus d’information brute que les 25 images par seconde d’une vidéo classique. D’un point de vue quantitatif, le matériau forensique contenu dans l’audio est donc considérable.

La mission d’Earshot, c’est de montrer que cette densité d’information ouvre un champ méthodologique très large, qui permet d’élargir ce que l’on considère comme recevable devant la justice et de remettre en question nos catégories de preuve.

Dans le cas de l’enquête à Tel al-Sultan, cela s’est concrétisé par le développement d’une balistique audio avancée : nous avons analysé plus de 910 coups de feu sur une période de plus de deux heures.

Nous avons analysé chaque coup de feu en détail. Un tir est composé de plusieurs sons : d’abord le “bang” de la balle supersonique qui passe, puis le son du tir proprement dit, lié au gaz qui se dilate à la sortie du canon. En travaillant à l’échelle de la milliseconde, on peut décomposer ces sons et comprendre quelles informations spatiales ils contiennent : position du tireur, distance, direction des tirs.

Analyse des 844 coups de feu entendus dans la vidéo de Refaat au cours des 5 minutes et 30 secondes de tirs audibles. 93% de ces coups de feu (789 coups) ont été tirés en direction de la caméra de Refaat. Crédit : Earshot.

À partir de ces 900 coups de feu, nous avons reconstruit un schéma des positions et des déplacements des soldats israéliens. Un aspect déterminant a été l’analyse des échos. Dans de nombreux tirs, entre une demi‑seconde et une seconde après le son principal, on entend un écho, ce qu’on appelle du “muzzle blast”. Une indication que les tirs se reflétaient sur une surface à proximité du lieu du massacre.

Avec Forensic Architecture, nous avons cartographié les positions des ambulanciers, des dispositifs d’enregistrement, ainsi que les structures encore présentes dans la zone – bâtiments, murs de béton, etc. Malgré la destruction massive du quartier, nous avons pu identifier précisément la surface qui produisait ces échos. En suivant les changements dans les échos – leur délai par rapport au tir – nous avons reconstitué les mouvements des soldats : quand l’écho arrive plus tard, cela signifie que la distance totale parcourue par l’onde sonore (du tireur à la surface, puis de la surface au micro) augmente.

En d’autres termes, on entend littéralement les soldats se déplacer. Dans les cinq minutes de tirs captés par la vidéo de Refaat, nous avons déterminé que, pendant les quatre premières minutes, les soldats tiraient depuis une position fixe à environ 50 mètres au sud‑est de lui et en direction des ambulances. Puis le schéma change : les échos se décalent, ce qui indique que les soldats s’éloignent de la surface réfléchissante et se rapprochent des ambulanciers, jusqu’à atteindre leur position et exécuter certains d’entre eux à bout portant. Ces éléments recoupent point par point le témoignage d’Asaad, qui décrit les soldats tirant d’abord depuis un talus de sable surélevé, puis descendant vers les ambulanciers jusqu’à les abattre à courte distance.

Simulation du son d’un coup de feu tiré depuis une position de plus en plus proche de Refaat. Crédit : Earshot.

Peux‑tu expliquer plus concrètement comment vous avez réussi, techniquement, à positionner les soldats à bout portant des ambulanciers à partir de l’audio ?

Après la fin de la vidéo de Refaat, l’appel d’Ashraf continue encore une cinquantaine de secondes et enregistre une série de tirs supplémentaires. Certains de ces tirs produisent des échos très caractéristiques, qui reviennent avec un léger décalage et nous indiquent sur quelles surfaces ils se reflètent. En analysant ces échos, nous avons montré qu’ils se reflétaient sur des surfaces très proches du téléphone d’Ashraf. Or, dans ce périmètre immédiat, il n’y avait que les véhicules de secours, ce qui indique très fortement que les tireurs se trouvaient entre les ambulances, à quelques mètres seulement des secouristes. La disposition et l’orientation des véhicules créaient une sorte d’architecture autour d’eux : en mesurant les intervalles entre les différents échos, nous pouvions déterminer sur quelle ambulance les tirs se reflétaient et, en remontant, la position la plus probable du soldat au moment du tir. Pour l’un de ces coups de feu, nous avons pu placer le tireur à quelques mètres d’Ashraf. Ces tirs coïncident avec le moment où sa voix disparaît définitivement de l’enregistrement, ce qui en fait très probablement les tirs qui l’ont tué.

Simulation du son de coups de feu tirés depuis l’espace entre les véhicules de secours, révélant la présence de soldats israéliens à seulement 1 à 4 mètres des secouriste. Credit : Earshot

À Gaza, les journalistes sont empêchés de travailler, et les principales sources que nous avons sont des témoignages, comme ceux que vous avez recueillis. Comment situes tu votre travail dans ce contexte ?

Depuis le début du génocide à Gaza, nous avons travaillé sur de nombreux cas. Ce que nous observons, c’est un déplacement du rôle de documentation. À cause des limites d’accès et d’un refus de reconnaître la crédibilité des journalistes locaux – qui sont eux‑mêmes pris pour cibles –, le personnel médical assume de plus en plus une fonction de documentation, comme le feraient des journalistes.

On voit ça clairement dans la vidéo de Refaat. Il filme et l’un de ses collègues lui demande pourquoi. Il répond : “Si quelque chose arrive, ce sera la preuve, je dois le faire.” Ce dossier s’inscrit dans une série de cas où nous analysons des preuves audio produites justement parce que les canaux habituels – journalistes, organisations internationales – sont bloqués ou décrédibilisés.

Les images sont aujourd’hui facilement manipulables – et même les reconstructions 3D ont été utilisées par l’armée israélienne comme outil de propagande. Est‑ce que le son peut être vu comme une source qui permet de dépasser ces manipulations ?

J’ai envie de répondre à la fois oui et non. Oui, parce que le son devient souvent un dernier recours pour documenter : d’un point de vue pratique, il permet d’enregistrer longtemps, avec peu de batterie et de stockage, et de manière plus discrète que la vidéo. Dans des conditions extrêmes, c’est un outil plus accessible pour collecter des preuves.

Mais en même temps, nous constatons que le son est lui aussi utilisé dans la propagande. Un exemple : nous avons analysé une vidéo de propagande diffusée par Israël, montrant une femme se présentant comme médecin à Gaza, accusant le Hamas d’avoir bombardé l’hôpital où elle se trouve. Pendant qu’elle parle, on entend des explosions. En étudiant la résonance des sons, nous avons montré que ces explosions avaient été ajoutées en post‑production : leur réverbération ne correspondait pas à celle de sa voix dans la pièce où elle se trouvait.

Dans ce cas précis, le son nous a permis de démontrer la dimension fabriquée de la vidéo et donc d’exposer les limites de cette propagande. Mes collègues arabophones ont également relevé que son accent ne correspondait pas à celui d’une habitante locale. L’analyse sonore, combinée à la connaissance linguistique, permet donc de redéfinir ce qu’on considère comme preuve, au‑delà de ce que l’on peut immédiatement voir ou comprendre à l’image.

Est‑ce que tu considères que cette enquête représente un tournant pour l’audio‑forensique ? Et qu’en est‑il de sa réception publique, notamment au Royaume‑Uni ?

Oui, nous voyons cette enquête comme un tournant pour l’audio‑forensique et la balistique audio. Avant notre enquête, la couverture médiatique faisait intervenir des experts en balistique audio, mais leurs analyses restaient superficielles et limitées : ils arrivaient à la conclusion qu’il y avait un peu plus de cent tirs. Au bout d’un an de travail à analyser ces enregistrements avec Forensic Architecture et les survivants, nous avons pu en compter plus de neuf cents, et surtout établir des statistiques. Nous avons montré que 93 % de ces tirs – soit plus de 780 balles – visaient directement les ambulanciers et leurs véhicules. Ces chiffres et ces dynamiques n’étaient pas présents dans le débat public avant notre travail. En plus, notre analyse a permis de reconstruire minute par minute les positions et les déplacements des soldats israéliens, jusqu’à leur arrivée entre les ambulances et les infirmiers. C’est ainsi que nous avons pu placer un soldat à moins d’un mètre d’Ashraf Abu Libda et identifier le moment probable de son exécution.

L’enquête sera présentée au Parlement britannique le mardi 24 mars. Cette présentation s’inscrit dans une dynamique de requalification de l’audio comme source centrale de documentation et de preuve. Notre travail est étroitement lié à la parole des témoins, notamment Asaad Al-Nasasra et Munther Abed. Même des détails très fins – comme le son d’un véhicule qui manœuvre pour tenter de s’échapper – recoupent exactement ce que décrivent les survivants dans des passages d’enregistrement. Ce travail contribue aussi à valider les témoins comme sources primaires et crédibles, dans un contexte où leurs récits sont souvent discrédités.


Pour aller plus loin :


Tous les quinze jours, recevez nos dernières publications dans votre boîte mail. Inscrivez-vous à la nouvelle Newsletter d'INDEX :

Soutenez-nous →