Adobe Research » Publications

Publication date: May 4, 2026

Multi-Domain Audio Question Answering Benchmark Toward Acoustic Content Reasoning

International Conference on Acoustics, Speech, and Signal Processing (ICASSP 2026)

Chao-Han Huck Yang, Sreyan Ghosh, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan Catanzaro

Audio
Natural Language Processing

Publication date: May 4, 2026

AudioCards: Structured Metadata Improves Audio Language Models For Sound Design

International Conference on Acoustics, Speech, and Signal Processing (ICASSP 2026)

Sripathi Sridhar, Prem Seetharaman, Oriol Nieto, Mark Cartwright, Justin Salamon

Audio
Natural Language Processing

Publication date: April 13, 2026

SoundStager: Interactive Design of Story-Driven GenAI Soundscapes for Video

ACM Conference on Human Factors in Computing Systems (CHI 2026)

Suhyeon Yoo, Adolfo Hernandez Santisteban, Prem Seetharaman, Justin Salamon, Oriol Nieto, Anh Truong

AI & Machine Learning
Audio
Computer Vision, Imaging & Video

Publication date: April 13, 2026

MoSound: An Interactive Tool for Generative Sound Design in Motion Graphics

CHI 2026

Jialin Huang, Prem Seetharaman, Tim Langlois, Li-Yi Wei, Rubaiat Habib, Yotam Gingold

Best paper honorable mention

AI & Machine Learning
Audio
Graphics (2D & 3D)
Human Computer Interaction

Publication date: April 13, 2026

VidTune: Creating Video Soundtracks with Generative Music and Video-Based Thumbnails

CHI Conference on Human Factors in Computing Systems (CHI 2026)

Mina Huh, Ailie Fraser, Dingzeyu Li, Mira Dontcheva, Bryan Wang

AI & Machine Learning
Audio
Human Computer Interaction

Publication date: November 5, 2025

DRAGON: Distributional Rewards Optimize Diffusion Generative Models

Transactions on Machine Learning Research

Yatong Bai, Jonah Casebeer, Somayeh Sojoudi, Nicholas J. Bryan

AI & Machine Learning
Audio

Publication date: October 13, 2025

Learning to Upsample and Upmix Audio in the Latent Domain

IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA 2025)

Dimitrios Bralios, Paris Smaragdis, Jonah Casebeer

AI & Machine Learning
Audio

Publication date: October 12, 2025

SILA: Signal-to-Language Augmentation for Enhanced Control in Text-to-Audio Generation

IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA)

Sonal Kumar, Prem Seetharaman, Justin Salamon, Oriol Nieto

Audio

Publication date: August 31, 2025

Re-Bottleneck: Latent Re-Structuring for Neural Audio Autoencoders

IEEE International Workshop on Machine Learning for Signal Processing (MLSP 2025)

Dimitrios Bralios, Jonah Casebeer, Paris Smaragdis

Best Paper

AI & Machine Learning
Audio

Publication date: July 4, 2025

“It’s more of a vibe I’m going for”: Designing Text-to-Music Generation Interfaces for Video Creators

ACM Designing Interactive Systems Conference (DIS 2025)

Noor Hammad, Ailie Fraser, Erik Harpstead, Jessica Hammer, Mira Dontcheva

AI & Machine Learning
Audio
Human Computer Interaction

Publication date: May 8, 2025

FLAM: Frame-Wise Language-Audio Modeling

International Conference on Machine Learning (ICML)

Yusong Wu, Christos Tsirigotis, Ke Chen, Cheng-Zhi Anna Huang, Aaron Courville, Oriol Nieto, Prem Seetharaman, Justin Salamon

AI & Machine Learning
Audio

Publication date: April 26, 2025

SpeakEasy: Enhancing Text-to-Speech Interactions for Expressive Content Creation

CHI 2025

Stephen Brade, Sam Anderson, Rithesh Kumar, Zeyu Jin, Anh Truong

Audio
Human Computer Interaction

Publication date: April 24, 2025

Presto! Distilling Steps and Layers for Accelerating Music Generation

International Conference on Learning Representations (ICLR 2025)

Zachary Novack, Ge Zhu, Jonah Casebeer, Julian McAuley, Taylor Berg-Kirkpatrick, Nicholas J. Bryan

(Spotlight, top 5%)

AI & Machine Learning
Audio

Publication date: April 21, 2025

Visual Description Grounding Reduces Hallucinations and Boosts Reasoning in LVLMs

International Conference on Learning Representations (ICLR)

Sreyan Ghosh, Chandra Kiran Reddy Evuru, Sonal Kumar, Utkarsh Tyagi, Oriol Nieto, Zeyu Jin, Dinesh Manocha

AI & Machine Learning
Audio

Publication date: April 7, 2025

ReCLAP: Improving Zero Shot Audio Classification by Describing Sounds

International Conference on Acoustics, Speech, and Signal Processing (ICASSP)

Sreyan Ghosh, Sonal Kumar, Chandra Kiran Reddy Evuru, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha

AI & Machine Learning
Audio
Natural Language Processing

Publication date: April 7, 2025

Sketch2Sound: Controllable Audio Generation via Time-Varying Signals and Sonic Imitations

International Conference on Acoustics, Speech, and Signal Processing (ICASSP)

Hugo Flores García, Oriol Nieto, Justin Salamon, Bryan Pardo, Prem Seetharaman

AI & Machine Learning
Audio

Publication date: April 6, 2025

ReCLAP: Improving Zero Shot Audio Classification by Describing Sounds

International Conference on Acoustics, Speech, and Signal Processing (ICASSP)

Sreyan Ghosh, Sonal Kumar, Chandra Kiran Reddy Evuru, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha

Audio

Publication date: March 24, 2025

MMAU: A Massive Multi-Task Audio Understanding and Reasoning Benchmark

International Conference on Learning Representations (ICLR)

S Sakshi, Utkarsh Tyagi, Sonal Kumar, Ashish Seth, Ramaneswaran Selvakumar, Oriol Nieto, Ramani Duraiswami, Sreyan Ghosh, Dinesh Manocha

Oral Paper (Top 5%)

AI & Machine Learning
Audio
Natural Language Processing

Publication date: November 16, 2024

GAMA: A Large Audio-Language Model with Advanced Audio Understanding and Complex Reasoning Abilities

Empirical Methods in Natural Language Processing Conference (ENMLP)

Sreyan Ghosh, Sonal Kumar, Ashish Seth, Chandra Kiran Reddy Evuru, Utkarsh Tyagi, S Sakshi, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha

Oral Paper (Top 5%)

AI & Machine Learning
Audio
Natural Language Processing

Publication date: November 10, 2024

Augment, Drop & Swap: Improving Diversity in LLM Captions for Efficient Music-Text Representation Learning

International Society for Music Information Retrieval Conference (ISMIR)

Ilaria Manco, Justin Salamon, Oriol Nieto

AI & Machine Learning
Audio
Natural Language Processing

1 2 3 4 … 10