Publications

Improving curriculum learning for target speaker extraction with synthetic speakers

Yun Liu, Xuechen Liu, Junichi Yamagishi

Disentangling the Prosody and Semantic Information with Pre-trained Model for In-Context Learning based Zero-Shot Voice Conversion

Zhengyang Chen, Shuai Wang, Mingyang Zhang, Xuechen Liu, Junichi Yamagishi, Yanmin Qia

The VoiceMOS Challenge 2024: Beyond Speech Quality Prediction

Wen-Chin Huang, Szu-Wei Fu, Erica Cooper, Ryandhimas Zezario, Tomoki Toda, Hsin-Min Wang, Junichi Yamagishi, Yu Tsao

Disentangling the Prosody and Semantic Information with Pre-trained Model for In-Context Learning based Zero-Shot Voice Conversion

Zhengyang Chen, Shuai Wang, Mingyang Zhang, Xuechen Liu, Junichi Yamagishi, Yanmin Qian

Spoofing-Aware Speaker Verification Robust Against Domain and Channel Mismatches

Chang Zeng, XiaoXiao Miao, Xin Wang, Erica Cooper, Junichi Yamagishi

Quantifying Source Speaker Leakage in One-to-One Voice Conversion

Scott Wellington, Junichi Yamagishi, Xuechen Liu

A Preliminary Case Study on Long-Form In-the-Wild Audio Spoofing Detection

Xuechen Liu, Xin Wang, Junichi Yamagishi

Malacopula: adversarial automatic speaker verification attacks using a neural-based generalised Hammerstein model

Massimiliano Todisco, Michele Panariello, Xin Wang, Héctor Delgado, Kong Aik Lee, Nicholas Evans

Exploring Active Data Selection Strategies for Continuous Training in Deepfake Detection

Yoshihiko Furuhashi, Xin Wang, Junichi Yamagishi, Huy Nguyen, Isao Echizen

ASVspoof 5: Crowdsourced Speech Data, Deepfakes, and Adversarial Attacks at Scale

Xin Wang, Héctor Delgado, Hemlata Tak, Jee-weon Jung, Hye-jin Shim, Massimiliano Todisco, Ivan Kukanov, Xuechen Liu, Md Sahidullah, Tomi Kinnunen, Nicholas Evans, Kong Aik Lee, Junichi Yamagishi

Polarity Classification of Low Resource Roman Urdu and Movie Reviews Sentiments Using Machine Learning-Based Ensemble Approaches

Muhammad Ehtisham Hassan, Iffat Maab, Masroor Hussain, Usman Habib, Yutaka Matsuo

The VoicePrivacy 2022 Challenge: Progress and Perspectives in Voice Anonymisation

Michele Panariello, Natalia Tomashenko, Xin Wang, XiaoXiao Miao, Pierre Champion, Hubert Nourtel, Massimiliano Todisco, Nicholas Evans, Emmanuel Vincent, Yamagishi Junichi

Objective assessment of synthetic speech and the VoiceMOS Challenge (合成音声の客観評価とVoiceMOSチャレンジ)

Cooper Erica, Huang Wen-Chin, Tsao Yu, Wang Hsin-Min, Toda Tomoki, Yamagishi Junichi

Revisiting and Improving Scoring Fusion for Spoofing-aware Speaker Verification Using Compositional Data Analysis

Xin Wang, Tomi Kinnunen, Kong Aik Lee, ‪Paul-Gauthier Noé‬, Junichi Yamagishi

Generating Speakers by Prompting Listener Impressions for Pre-trained Multi-Speaker Text-to-Speech Systems

Zhengyang Chen, Xuechen Liu, Erica Cooper, Junichi Yamagishi, Yanmin Qian

An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios

Cheng Gong, Erica Cooper, Xin Wang, Chunyu Qiang, Mengzhe Geng, Dan Wells, Longbiao Wang, Jianwu Dang, Marc Tessier, Aidan Pine, Korin Richmond, Junichi Yamagishi

Target Speaker Extraction with Curriculum Learning

Yun Liu, Xuechen Liu, XiaoXiao Miao, Junichi Yamagishi

Spoof Diarization:" What Spoofed When" in Partially Spoofed Audio

Lin Zhang, Xin Wang, Erica Cooper, Mireia Diez, Federico Landini, Nicholas Evan, Junichi Yamagishi

To what extent can ASV systems naturally defend against spoofing attacks?

Jee-weon Jung, Xin Wang, Nicholas Evan, Shinji Watanabe, Hye-jin Shim, Hemlata Tak, Sidhhant Arora, Junichi Yamagishi, Joon Son Chung

Uncertainty as a Predictor: Leveraging Self-Supervised Learning for Zero-Shot MOS Prediction

Aditya Ravuri, Erica Cooper, Junichi Yamagishi

SynVox2: Towards a privacy-friendly VoxCeleb2 dataset

XiaoXiao Miao, Xin Wang, Erica Cooper, Junichi Yamagishi, Nicholas Evans, Massimiliano Todisco, Jean-François Bonastre, Mickael Rouvier

SPOOFING ATTACK AUGMENTATION: CAN DIFFERENTLY-TRAINED ATTACK MODELS IMPROVE GENERALISATION?

Wanying Ge, Xin Wang, Junichi Yamagishi, Massimiliano Todisco, Nicholas Evans

Detection of Sarcasm in Urdu Tweets using Deep Learning and Transformer based Hybrid Approaches

Muhammad Ehtisham Hassan, Masroor Hussain, Iffat Maab, Usman Habib, Muhammad Attique Khan, Anum Masood

DDSP-based Neural Waveform Synthesis of Polyphonic Guitar Performance from String-wise MIDI Input

Nicolas Jonason, Xin Wang, Erica Cooper, Lauri Juvela, Bob L. T. Sturm, Junichi Yamagishi

Can large-scale vocoded spoofed data improve speech spoofing countermeasure with a self-supervised front end?

Xin Wang, Junichi Yamagishi

eKYC-DF: A Large-Scale Deepfake Dataset for Developing and Evaluating eKYC Systems

Hichem Felouat, Huy Hong Nguyen, Le Trung-Nghia, Junichi Yamagishi, Isao Echizen

Bridging Textual and Tabular Worlds for Fact Verification: A Lightweight, Attention-Based Model

Shirin Dabbaghi Varnosfaderani, Canasai Kruengkrai, Ramin Yahyapour, Junichi Yamagishi

Analysis of Fine-Grained Counting Methods for Masked Face Counting: A Comparative Study

Khanh-Duy Nguyen, Huy Hong Nguyen, Trung-Nghia Le, Junichi Yamagishi, Isao Echizen

A review on subjective and objective evaluation of synthetic speech

Erica Cooper, Wen-Chin Huang, Yu Tsao, Hsin-Min Wang, Tomoki Toda, Junichi Yamagishi

The VoiceMOS Challenge 2023:Zero-shot Subjective Speech Quality Prediction for Multiple Domains

Erica Cooper, Wen-Chin Huang, Yu Tsao, Hsin-Min Wang, Tomoki Toda, Junichi Yamagishi

Partial Rank Similarity Minimization Method for Quality MOS Prediction of Unseen Speech Synthesis Systems in Zero-Shot and Semi-supervised setting

Hemant Yadav, Erica Cooper, Junichi Yamagishi, Sunayana Sitaram, Rajiv Shah

XFEVER: Exploring Fact Verification across Languages

Yi-chen Chang, Canasai Kruengkrai, Junichi Yamagishi

Speaker Anonymization Using Orthogonal Householder Neural Network

XiaoXiao Miao, Xin Wang, Erica Cooper, Junichi Yamagishi, Natalia Tomashenko

How Close are Other Computer Vision Tasks to Deepfake Detection?

Huy Hong Nguyen, Junichi Yamagishi, Isao Echizen

Towards Single Integrated Spoofing-aware Speaker Verification Embeddings

Sung Hwan Mun, Hye-jin Shim, Hemlata Tak, Xin Wang, Xuechen Liu, Md Sahidullah, Myeonghun Jeong, Min Hyun Han, Massimiliano Todisco, Kong Aik Lee, Junichi Yamagishi, Nicholas Evans, Tomi Kinnunen, Nam Soo Kim, Jee-weon Jung

SASPEECH: A Hebrew Single Speaker Dataset for Text To Speech and Voice Conversion

Orian Sharoni, Roee Shenberg, Erica Cooper

Range-Based Equal Error Rate for Spoof Localization

Lin Zhang, Xin Wang, Erica Cooper, Nicholas Evans, Junichi Yamagishi

Investigating Range-Equalizing Bias in Mean Opinion Score Ratings of Synthesized Speech

Erica Cooper, Junichi Yamagishi

Improving Generalization Ability of Countermeasures for New Mismatch Scenario by Combining Multiple Advanced Regularization Terms

Chang Zeng, Xin Wang, XiaoXiao Miao, Erica Cooper, Junichi Yamagishi

Controlling Multi-Class Human Vocalization Generation via a Simple Segment-based Labeling Scheme

Hieu-Thi Luong, Junichi Yamagishi

Exploring Isolated Musical Notes as Pre-training Data for Predominant Instrument Recognition in Polyphonic Music

Lifan Zhong, Erica Cooper, Junichi Yamagishi, Nobuaki Minematsu

BodyFormer: Semantics-Guided 3D Body Gesture Synthesis with Transformer

Automatic gesture synthesis from speech is a topic that has attracted researchers for applications in remote communication, video games …

Kunkun Pang, Dafei Qin, Yingruo Fan, Julian Habekost, Takaaki Shiratori, Junichi Yamagishi, Taku Komura

Revisiting Pathologies of Neural Models under Input Reduction

Canasai Kruengkrai, Junichi Yamagishi

ASVspoof 2021: Towards Spoofed and Deepfake Speech Detection in the Wild

Xuechen Liu, Xin Wang, Md Sahidullah, Jose Patino, Héctor Delgado, Tomi Kinnunen, Massimiliano Todisco, Junichi Yamagishi, Nicholas Evans, Andreas Nautsch, Kong Aik Lee

Xiaoicesing 2: A High-Fidelity Singing Voice Synthesizer Based on Generative Adversarial Network

Chunhui Wang, Chang Zeng, Xing He

Spoofed Training Data for Speech Spoofing Countermeasure Can Be Efficiently Created Using Neural Vocoders

Xin Wang, Junichi Yamagishi

Joint Noise Reduction and Listening Enhancement for Full-End Speech Enhancement

Haoyu Li, Yun Liu, Junichi Yamagishi

Hiding Speaker’s Sex in Speech Using Zero-Evidence Speaker Representation in an Analysis/Synthesis Pipeline

‪Paul-Gauthier Noé‬, XiaoXiao Miao, Xin Wang, Junichi Yamagishi, Jean-François Bonastre, Driss Matrouf

Can Knowledge of End-to-End Text-to-Speech Models Improve Neural MIDI-to-Audio Synthesis Systems?

Xuan Shi, Erica Cooper, Xin Wang, Junichi Yamagishi, Shrikanth Narayanan

Analysis of Master Vein Attacks on Finger Vein Recognition Systems

Huy Hong Nguyen, Trung-Nghia Le, Junichi Yamagishi, Isao Echizen

ZMM-TTS: Zero-shot Multilingual and Multispeaker Speech Synthesis Conditioned on Self-supervised Discrete Speech Representations

Cheng Gong, Xin Wang, Erica Cooper, Dan Wells, Longbiao Wang, Jianwu Dang, Korin Richmond, Junichi Yamagishi

The PartialSpoof Database and Countermeasures for the Detection of Short Fake Speech Segments Embedded in an Utterance

Automatic speaker verification is susceptible to various manipulations and spoofing, such as text-to-speech synthesis, voice …

Lin Zhang, Xin Wang, Erica Cooper, Nicholas Evans, Junichi Yamagishi

SSI-Net: A Multi-Stage Speech Signal Improvement System for ICASSP 2023 SSI Challenge

Weixin Zhu, Zilin Wang, Jiuxin Lin, Chang Zeng, Tao Yu

Speaker-Text Retrieval via Contrastive Learning

Xuechen Liu, Xin Wang, Erica Cooper, XiaoXiao Miao, Junichi Yamagishi

Investigating Active-Learning-Based Training Data Selection for Speech Spoofing Countermeasure

Xin Wang, Junichi Yamagishi

Cyber Vaccine for Deepfake Immunity

Ching-Chun Chang, Huy Hong Nguyen, Junichi Yamagishi, Isao Echizen

CrossSinger: A Cross-Lingual Multi-Singer High-Fidelity Singing Voice Synthesizer Trained on Monolingual Singers

Xintong Wang, Chang Zeng, Jun Chen, Chunhui Wang

Outlier-Aware Training for Improving Group Accuracy Disparities

Methods addressing spurious correlations such as Just Train Twice (JTT, Liu et al. 2021) involve reweighting a subset of the training …

Li-Kuang Chen, Canasai Kruengkrai, Junichi Yamagishi

Use of Speaker Recognition Approaches for Learning and Evaluating Embedding Representations of Musical Instrument Sounds

Xuan Shi, Erica Cooper, Junichi Yamagishi

The VoicePrivacy 2020 Challenge: Results and findings

Natalia Tomashenko, Xin Wang, Emmanuel Vincent, Jose Patino, Brij Mohan Lal Srivastava, ‪Paul-Gauthier Noé‬, Andreas Nautsch, Nicholas Evans, Junichi Yamagishi, Benjamin O’Brien, others

The VoiceMOS Challenge 2022

Wen-Chin Huang, Erica Cooper, Yu Tsao, Hsin-Min Wang, Tomoki Toda, Junichi Yamagishi

SVSNet: An End-to-End Speaker Voice Similarity Assessment Model

Cheng-Hung Hu, Yu-Huai Peng, Junichi Yamagishi, Yu Tsao, Hsin-Min Wang

Spoofing-Aware Attention based ASV Back-end with Multiple Enrollment Utterances and a Sampling Strategy for the SASV Challenge 2022

Chang Zeng, Lin Zhang, Meng Liu, Junichi Yamagishi

Robust Deepfake on Unrestricted Media: Generation and Detection

Recent advances in deep learning have led to substantial improvements in deepfake generation, resulting in fake media with a more …

Trung-Nghia Le, Huy Hong Nguyen, Junichi Yamagishi, Isao Echizen

Optimizing Tandem Speaker Verification and Anti-Spoofing Systems

Anssi Kanervisto, Ville Hautamäki, Tomi Kinnunen, Junichi Yamagishi

On the Interplay between Sparsity, Naturalness, Intelligibility, and Prosody in Speech Synthesis

Cheng-I Jeff Lai, Erica Cooper, Yang Zhang, Shiyu Chang, Kaizhi Qian, Yi-Lun Liao, Yung-Sung Chuang, Alexander H. Liu, Junichi Yamagishi, David Cox, James Glass

Mitigating the Diminishing Effect of Elastic Weight Consolidation

Canasai Kruengkrai, Junichi Yamagishi

Master Face Attacks on Face Recognition Systems

Huy Hong Nguyen, Sebastien Marcel, Junichi Yamagishi, Isao Echizen

Language-Independent Speaker Anonymization Approach Using Self-Supervised Pre-Trained Models

XiaoXiao Miao, Xin Wang, Erica Cooper, Junichi Yamagishi, Natalia Tomashenko

Investigating Self-Supervised Front Ends for Speech Spoofing Countermeasures

Xin Wang, Junichi Yamagishi

Improving Neural-Network-Based Speech Enhancement for Noise Reduction and Intelligibility Boosting(雑音抑圧と明瞭性向上のためのニューラルネットワークによる音声強調の改善について)

Haoyu Li

Generalization Ability of MOS Prediction Networks

Erica Cooper, Wen-Chin Huang, Tomoki Toda, Junichi Yamagishi

Future Trends in Digital Face Manipulation and Detection

Recently, digital face manipulationDigital face manipulation and its detection have sparked large interest in industry and academia …

Ruben Tolosana, Christian Rathgeb, Ruben Vera-Rodriguez, Christoph Busch, Luisa Verdoliva, Siwei Lyu, Huy Hong Nguyen, Junichi Yamagishi, Isao Echizen, Peter Rot, Klemen Grm, Vitomir Štruc, Antitza Dantcheva, Zahid Akhtar, Sergio Romero-Tapiador, Julian Fierrez, Aythami Morales, Javier Ortega-Garcia, Els Kindt, Catherine Jasserand, Tarmo Kalvet, Marek Tiits

Estimating the Confidence of Speech Spoofing Countermeasure

Xin Wang, Junichi Yamagishi

DDS: A new device-degraded speech dataset for speech enhancement

Haoyu Li, Junichi Yamagishi

Capsule-Forensics Networks for Deepfake Detection

SeveralCapsule-Forensics sophisticated convolutional neural network (CNN)Convolutional Neural Networks (CNN) architectures have been …

Huy Hong Nguyen, Junichi Yamagishi, Isao Echizen

Automatic Speaker Verification Spoofing and Deepfake Detection Using Wav2vec 2.0 and Data Augmentation

Hemlata Tak, Massimiliano Todisco, Xin Wang, Jee-weon Jung, Junichi Yamagishi, Nicholas Evans

Attention Back-End for Automatic Speaker Verification with Multiple Enrollment Utterances

Chang Zeng, Xin Wang, Erica Cooper, XiaoXiao Miao, Junichi Yamagishi

Analyzing Language-Independent Speaker Anonymization Framework under Unseen Conditions

XiaoXiao Miao, Xin Wang, Erica Cooper, Junichi Yamagishi, Natalia Tomashenko

A Practical Guide to Logical Access Voice Presentation Attack Detection

Voice-based human-machine interfaces with an automatic speaker verification (ASV) component are commonly used in the market. However, …

Xin Wang, Junichi Yamagishi

A Multi-Level Attention Model for Evidence-Based Fact Checking

Canasai Kruengkrai, Junichi Yamagishi, Xin Wang

Text-to-Speech Synthesis Techniques for MIDI-to-Audio Synthesis

Erica Cooper, Xin Wang, Junichi Yamagishi

Revisiting Speech Content Privacy

Jennifer Williams, Junichi Yamagishi, Paul-Gauthier, Cassia Valentini-Botinhao, Jean-François Bonastre

Rakugo Speech Synthesis: Toward Speech Synthesis That Entertains Audiences(落語音声合成: 人を楽しませる音声合成に向けて)

Shuhei Kato

OpenForensics: Large-Scale Challenging Dataset For Multi-Face Forgery Detection And Segmentation In-The-Wild

Trung-Nghia Le, Huy Hong Nguyen, Junichi Yamagishi, Isao Echizen

Multi-task Learning in Utterance-level and Segmental-level Spoof Detection

Lin Zhang, Xin Wang, Erica Cooper, Junichi Yamagishi

Multi-Metric Optimization Using Generative Adversarial Networks for Near-End Speech Intelligibility Enhancement

Haoyu Li, Junichi Yamagishi

Lexical pitch accent and duration modeling for neural end-to-end text-to-speech synthesis(End-to-endニューラル音声合成のための構文的ピッチアクセントと音素継続長のモデル化)

Yusuke Yasuda

Learning Disentangled Phone and Speaker Representations in a Semi-Supervised VQ-VAE Paradigm

Jennifer Williams, Yi Zhao, Erica Cooper, Junichi Yamagishi

How Similar or Different is Rakugo Speech Synthesizer to Professional Performers?

Shuhei Kato, Yusuke Yasuda, Xin Wang, Erica Cooper, Junichi Yamagishi

How do Voices from Past Speech Synthesis Challenges Compare Today?

Erica Cooper, Junichi Yamagishi

Exploring Disentanglement with Multilingual and Monolingual VQ-VAE

Jennifer Williams, Jason Fong, Erica Cooper, Junichi Yamagishi

Enhancing Low-Quality Voice Recordings Using Disentangled Channel Factor and Neural Waveform Model

Haoyu Li, Yang Ai, Junichi Yamagishi

End-to-End Text-to-Speech Using Latent Duration Based on VQ-VAE

Yusuke Yasuda, Xin Wang, Junichi Yamagishd

Effectiveness of Detection-based and Regression-based Approaches for Estimating Mask-Wearing Ratio

Khanh-Duv Nguyen, Huv H. Nguyen, Trung-Nghia Le, Junichi Yamagishi, Isao Echizen

Denoising-and-Dereverberation Hierarchical Neural Vocoder for Robust Waveform Generation

Yang Ai, Haoyu Li, Xin Wang, Junichi Yamagishi, Zhenhua Ling

ASVspoof 2021: accelerating progress in spoofed and deepfake speech detection

Junichi Yamagishi, Xin Wang, Massimiliano Todisco, Md Sahidullah, Jose Patino, Andreas Nautsch, Xuechen Liu, Kong Aik Lee, Tomi Kinnunen, Nicholas Evans, Héctor Delgado

ASVspoof 2019: Spoofing Countermeasures for the Detection of Synthesized, Converted and Replayed Speech

Andreas Nautsch, Xin Wang, Nicholas Evans, Tomi H. Kinnunen, Ville Vestman, Massimiliano Todisco, Héctor Delgado, Md Sahidullah, Junichi Yamagishi, Kong Aik Lee

An Initial Investigation for Detecting Partially Spoofed Audio

Lin Zhang, Xin Wang, Erica Cooper, Junichi Yamagishi, Jose Patino, Nicholas Evans

A Comparative Study on Recent Neural Spoofing Countermeasures for Synthetic Speech Detection

Xin Wang, Junichi Yamagishi

Deep learning based voice cloning framework for a unified system of text-to-speech and voice conversion（テキスト音声合成と声質変換を統合した深層学習によるボイスクローニング）

Hieu-Thi Luong

Introduction to Voice Presentation Attack Detection and Recent Advances

Over the past few years, significant progress has been made in the field of presentation attack detection (PAD) for automatic speaker …

Md Sahidullah, Héctor Delgado, Massimiliano Todisco, Tomi Kinnunen, Nicholas Evans, Junichi Yamagishi, Kong Aik Lee

Fundamental Frequency Modeling for Neural-Network-Based Statistical Parametric Speech Synthesis (ニューラルネットワークに基づく統計的音声合成のための基本周波数モデリング)

Xin Wang

User Generated Dialogue Systems: uDialogue

This chapter introduces the idea of user-generated dialogueUDialogue technologycontent and describes our experimental exploration aimed …

Keiichi Tokuda, Akinobu Lee, Yoshihiko Nankaku, Keiichiro Oura, Kei Hashimoto, Daisuke Yamamoto, Ichi Takumi, Takahiro Uchiya, Shuhei Tsutsumi, Steve Renals, Junichi Yamagishi

おしゃべりなコンピュータ : 音声合成技術の現在と未来

順一山岸, 恵一徳田, 智基戸田, よしこみわ, 国立情報学研究所

Speaker Recognition Anti-spoofing

Progress in the development of spoofing countermeasures for automatic speaker recognition is less advanced than equivalent work …

Nicholas Evans, Tomi Kinnunen, Junichi Yamagishi, Zhizheng Wu, Federico Alegre, Phillip De Leon

Building personalized synthetic voices for individuals with dysarthria using the HTS toolkit

Sarah Creer, Phil Green, Stuart Cunningham, Junichi Yamagishi

A review on subjective and objective evaluation of synthetic speech

Erica Cooper, Wen-Chin Huang, Yu Tsao, Hsin-Min Wang, Tomoki Toda, Junichi Yamagishi