Une IA pour brouillé les écoutes
Une intelligence artificielle parvient à anticiper une conversation et à y ajouter du bruit instantanément pour la camoufler des oreilles potentiellement indiscrètes de nos objets connectés.
ll fut un temps où des fontaines, judicieusement placées dans des palais ou des jardins, permettaient que les conversations soient tenues à l’abri des oreilles indiscrètes. Notre monde connecté demande encore plus de précautions. Avez vous déjà reçu sur un de vos objets connectés une publicité sur le sujet précis dont vous veniez de parler ? Si c’est le cas, vous êtes vous alors demandé si votre téléphone, assistant personnel, montre intelligente ou ordinateur, situé à proximité, aurait pu vous « espionner » à votre insu ?
C’est peut être encore un scénario de fiction, mais nous sommes désormais entourés d’une multitude de microphones dont les enregistrements peuvent être analysés par des algorithmes de machine learning. Puisque ces programmes d’intelligence artificielle (IA) apprennent à « comprendre » les voix, technologiquement, cet espionnage est possible. « Un nombre très important de données personnelles sont déjà utilisées par l’apprentissage machine. Il faut, d’une certaine façon, rendre le pouvoir à l’utilisateur », explique la chercheuse franco américaine de 24 ans Mia Chiquier.
Avec deux autres spécialistes en IA de l’université de Columbia (Etats Unis), Chengzhi Mao et Carl Von drick, la scientifique annonce avoir trouvé une parade : un camouflage de la voix, quasi inaudible et en temps réel, qui empêche, dans « 80 % des cas », l’efficacité d’un espionnage, « même si rien n’est connu de la position de l’éventuel micro dans l’espace», expliquetelle. Les résultats de ces travaux intitulés « RealTime Neural Voice Camouflage » ont été publiés sur ArXiv, le 16 février, et présentés à la prestigieuse International Conference on Learning Representa tions (ICLR), le 25 avril.
Depuis 2018, plusieurs travaux se sont déjà intéressés au camouflage de la voix. «Il s’agit, à chaque fois, d’un algorithme qui va essayer d’en tromper un autre en rajoutant un bruit intelligent, que la profession appelle adversarial attack », explique Mia Chiquier. Mais, jusqu’à présent, « les algorithmes qui attaquent ceux dit “d’ASR” [automative speach reco gnition, qui traduisent la voix en texte] avaient besoin d’écouter toute la phrase d’un interlocuteur pour l’analyser et ensuite la brouiller ». Logiquement, ces logiciels ne pou vaient pas être efficaces dans le cas d’un usage en temps réel, puisque leur réponse, le bruit intelligent, arrivait trop tard.
Pour un camouflage en direct, il fallait que les chercheurs imaginent une conversation avant qu’elle ait eu lieu… Ils ont relevé ce défi en développant une approche inédite : la création d’« attaques prédictives ».
Prédire les possibles sons
Leur logiciel de machine learning (aussi baptisé NVC), qui utilise des réseaux de neurones profonds, n’a besoin que de deux secondes de la voix humaine pour « comprendre » celleci puis prédire les possibles sons qui vont suivre. De façon quasi ins tantanée, NVC prévoit alors une attaque qui brouillera ces possibles sons et perturbera les modèles de reconnaissance automatique de la parole qui sont entraînés à transcrire nos paroles. Et à, peutêtre, les espionner.
Afin de rendre le camouflage le plus efficace possible, NVC a été entraîné avec le logiciel en accès libre Deep Speech, qui traduit la voix en texte. «NVC est le plus performant sur les sons les plus rares », note l’autrice principale de l’étude. « C’est plutôt une bonne nouvelle, car ce sont ceux qui apportent le plus d’informations dans une conversation. » Point de bruit de fontaine, cependant, pour ce brouillage. « Notre attaque est optimisée pour avoir un volume similaire à un bruit de fond normal, de l’ordre de celui d’une machine à air conditionné », explique Mia Chiquier. Des performances qui permettent aux personnes présentes dans une pièce de converser naturellement sans saisir que la phrase «we can go to the restaurant » sera par exemple « comprise » comme «with hany ytris are to ther restremant»par le logiciel indiscret.