Un simple appel sans réponse de la part d’un numéro inconnu suffirait à permettre à des cybercriminels de cloner la voix de leur victime, puis de l’utiliser pour escroquer ses proches. C’est l’hypothèse relayée par de nombreux médias ces derniers jours, après la publication d’un communiqué de l’entreprise de cybersécurité Bitdefender. Pourtant, comme le rapporte Franceinfo - Sciences, cette théorie relève davantage du sensationnalisme que de la réalité technique.
Ce qu'il faut retenir
- Un clone vocal de qualité nécessite au minimum dix minutes d’enregistrement clair, et non quelques secondes comme le suggèrent certains articles.
- Les autorités françaises n’ont enregistré aucune plainte ni enquête liée à cette prétendue arnaque à ce jour.
- Les appels silencieux servent principalement à vérifier que les numéros contactés sont actifs, et non à enregistrer des voix pour des clonages.
- Les résultats obtenus par Franceinfo en recréant cette expérience montrent des clones vocaux très éloignés de la réalité.
Selon Bitdefender, ces appels silencieux permettraient aux pirates d’enregistrer la voix des victimes pour en créer des clones à l’aide de l’intelligence artificielle. Une fois l’opération réalisée, les escrocs pourraient contacter les proches de la victime en simulant sa voix pour réclamer de l’argent, en prétextant une situation d’urgence. « Lorsque vous répondez, vous confirmez qu’il s’agit d’un téléphone actif et votre numéro peut alors être ajouté à des listes vendues sur le dark web ou réutilisé dans le cadre d’attaques de phishing vocal (vishing), d’escroqueries par SMS ou d’attaques de clonage vocal par IA », explique l’entreprise dans son communiqué.
Cette affirmation a été reprise par plusieurs médias nationaux, dont CNews, Le Parisien, RMC, BFMTV et TF1. La chaîne TF1 a même poussé l’expérience en demandant à une créatrice de contenu spécialisée dans l’IA, Estherium, de démontrer la faisabilité d’un tel clonage. En moins de dix minutes, celle-ci aurait réussi à reproduire sa voix sur Eleven Labs, un outil de clonage vocal basé sur l’intelligence artificielle. « Maman, est-ce que tu peux m’aider, il y a quelqu’un qui vient de voler mon téléphone. Est-ce que tu peux me faire un virement ? Je t’envoie un SMS tout de suite », aurait-elle fait dire à son clone vocal. Un résultat présenté comme « troublant » par la vidéaste, sans que la méthodologie ne soit précisée.
Une démonstration qui ne résiste pas à l’épreuve des faits
Pour vérifier la crédibilité de ces affirmations, l’équipe de Franceinfo a mené sa propre expérience à l’aide de la version premium d’Eleven Labs. Le résultat obtenu contraste fortement avec les démonstrations relayées dans les médias. Pour créer un clone vocal « instantané », Eleven Labs exige en réalité un enregistrement d’au moins dix secondes. Les journalistes ont donc simulé un appel silencieux en enregistrant des phrases comme « Allô… Allô… Vous m’entendez ? » avant de les soumettre au logiciel.
Après quelques secondes de traitement, le clone vocal généré s’est révélé très éloigné de la voix originale. La version proposée était robotique, désincarnée, et l’IA peinait même à déterminer le genre de la personne. « Au premier essai, elle nous attribue une voix masculine. Au second, une voix féminine… Personne ne tomberait dans le panneau », souligne l’article. Pour obtenir un résultat à peine plus convaincant, il a fallu fournir au logiciel un enregistrement de deux minutes. Même dans ce cas, le clone restait très imparfait : le timbre de la voix était vaguement similaire, mais les intonations et le rendu global sonnaient faux.
Pour créer un clone vocal de qualité professionnelle, Eleven Labs recommande désormais un enregistrement d’au moins trente minutes. Une durée bien loin de l’hypothèse d’un simple « allô » capté en quelques secondes. Centho, un vidéaste spécialisé dans les risques numériques, confirme cette analyse : « Pour faire un clone vocal de qualité à peu près convenable, il faut au moins dix minutes d’enregistrement de voix avec un micro de très bonne facture. Même avec des heures d’enregistrement, il reste des défauts, donc autant dire qu’avec quelques secondes d’une voix compressée par le téléphone, c’est totalement impossible », explique-t-il à Franceinfo.
« Oui, le clonage de voix existe. Mais là, c’est juste du sensationnel et du mensonge. »
Centho, vidéaste spécialisé dans les risques numériques
Les appels silencieux : une technique bien réelle, mais aux objectifs limités
Si le clonage vocal à partir d’un simple appel silencieux relève donc de la fiction, ces appels sans réponse n’en restent pas moins une réalité. Selon Centho, leur véritable utilité est bien moins spectaculaire que ce que certains médias ont pu suggérer. « En réalité, les centres d’appels contactent simplement plus de numéros qu’ils n’ont d’agents disponibles », précise-t-il. Concrètement, ces centres lancent des appels en masse pour identifier les numéros actifs, avant de les transmettre à des opérateurs humains. Certains appels aboutissent sur des messageries, d’autres sur des numéros non attribués. « Si personne ne vous parle et que ça raccroche, c’est juste qu’il n’y a pas d’agent disponible pour vous répondre », résume-t-il.
Cette pratique, appelée « predictive dialing », est courante dans les centres d’appels commerciaux ou de démarchage. Elle vise à optimiser le temps de travail des opérateurs en évitant qu’ils ne perdent du temps à composer des numéros ou à tomber sur des messageries. Aucun lien avec une tentative de clonage vocal, donc. Contactés par Franceinfo, ni le parquet de Paris ni le ministère de l’Intérieur n’ont été en mesure de confirmer l’existence de plaintes ou d’enquêtes liées à ce prétendu schéma d’arnaque.
Jérôme Nottin, directeur général de Cybermalveillance.gouv, la plateforme nationale d’accompagnement aux victimes d’actes de cybermalveillance, confirme ce manque de signalements. « Nous n’avons que très peu de remontées de victimes, vraiment à la marge et certainement suite à la lecture de certains articles », indique-t-il. Il ajoute : « À la limite, le seul objectif [des appels silencieux] serait de s’assurer que des numéros de téléphone récupérés dans des fuites de données sont toujours actifs. Nous ne voyons pas de scénario d’attaque plausible. Si vous avez cartographié l’environnement d’une victime, vous allez directement l’appeler et capter plus de quelques secondes pour faire une usurpation de sa voix auprès de ses proches. »
Une chose est sûre : les cybercriminels disposent déjà de méthodes bien plus efficaces pour cloner une voix, comme le vol de données personnelles ou l’utilisation de longues extraits audio disponibles en ligne. Les appels silencieux, eux, restent avant tout une technique de prospection massive, sans lien direct avec le clonage vocal. Autant dire que la prétendue arnaque repose davantage sur l’imagination des internautes que sur des faits avérés.
D’après les experts, pour créer un clone vocal crédible, les cybercriminels ont besoin d’au moins dix minutes d’enregistrement clair de la voix de la victime. Cela peut provenir de vidéos en ligne, d’enregistrements publics ou de fuites de données. Les outils modernes d’IA, comme Eleven Labs, nécessitent des fichiers audio longs pour produire un résultat convaincant. Un simple « allô » capté lors d’un appel silencieux ne suffit absolument pas.