English followed by Japanese
The problem of using deep generative models to learn human faces and voices, generate images and voices that look and sound like the real thing, and use them for fraudulent purposes, is recognised in society as ‘deepfake’ and is currently being addressed worldwide. The Japanese Government and the G7 have also identified countermeasures against disinformation by AI-made fake media as an urgent and important issue.
In order to address this issue, the Japan-France Joint CREST Project “VoicePersonae: Identity Cloning and Protection of Voices”, conducted by the National Institute of Informatics in Japan, the University of Avignon in France and the Eurecom Institute in France from 2018 to 2023, was a pioneering project in the field of deepfake detection in the video and voice. The project continued to produce pioneering research results in the field of deepfake detection. In addition, we developed the deepfake video detection WebAPI tool SYNTHETIQ VISION and licensed it to several companies in Japan, so that domestic companies can use the results of our research.
On the other hand, considering the situation where image generation commercial services based on diffusion models such as StableDiffusion are widely spreading, and digital voice cloning commercial services are beginning to spread and reports of cases of abuse are being reported, it is also necessary to rapidly scale up research on countermeasures against AI-made fake media from the laboratory scale to the real world scale, and to make the technology available as a countermeasure to ongoing social problems.
Therefore, in this JST AIP acceleration grant (FY2024-2025), called the Personalia project, we will integrate the results of several countermeasure technologies for fake media that we have conducted basic research on in the CREST project above, so that more Japanese companies will be able to use these technologies. At the same time, we will upgrade our countermeasure technologies so that they can be introduced into the real world.
人間の顔や音声などを深層生成モデルにより学習し、本物と見まがうような画像や音声を合成し、不正目的で利用する問題は、「ディープフェイク」として社会で認知され、現在世界中で対策が求められている。日本政府およびG7でもAI製フェイクメディアによる偽情報対策を喫緊の重要課題として挙げている。
この課題に対処すべく、日本の国立情報学研究所、仏アビニョン大学、そして仏Eurecom研究所で2018年度から2023年度に実施した日仏共同戦略的研究推進事業「VoicePersonae: 声のアイデンティティクローニングと保護」では、映像および音声のディープフェイク検知分野における先駆的研究成果を挙げ続けた。また更に国内企業が研究成果を利用できるように一気通貫でディープフェイク映像検知WebAPIツールSYNTHETIQ VISIONも開発し、そして、国内数社へ有償ライセンスを行なうなど、研究成果の社会還元も行なった。
その一方、StableDiffusion等の拡散モデルによる画像生成商用サービスが広く普及し、音声のボイスクローン商用サービスも普及し始め、悪用事例が報告され始めている状況を鑑みると、AI製フェイクメディアが悪用された場合への対処技術の研究も、研究室単位のラボ実験スケールから、実社会を想定した技術へ迅速にスケールアップする必要があり、現在進行形の社会問題への対策技術として利用可能にする必要がある。
そこで、Personaliaプロジェクトという名称の本AIP加速課題(2024年度-2025年度)では、我々が上記CRESTプロジェクトにおいて基礎研究を行ってきた複数のフェイクメディア対策技術の成果を統合することで、さらに多くの日本企業がフェイクメディア対策技術を利用できる様にすると同時に、実社会への導入を前提とした技術高度化を行う