研究

研究亮点

近期结果与进行方向的简短概述，并附各领域简要背景。

当前侧重

构建层次化音频表示与评测协议，面向通用音频理解。

音频问答案例提供具体示例；更广的研究设想还涉及跨任务迁移、效率以及在现实算力预算下的鲁棒性。

Research theme

将 AQA 作为具体试验平台，考察系统是否基于真实声学证据作答，还是过度依赖语义与文本捷径。

Listening or Reading? An Empirical Study of Modality Importance Analysis Across AQA Question Types

ECHOTWIN-QA: A Dual-Tower BEATSBERT System for DCASE 2025 Task 5 Audio Question Answering

Research theme

工作的核心主题之一是度量不同输入模态在各题型上的贡献，从而更严格地解释模型行为。

分题型的消融研究

声学依赖与语义依赖对比分析

Research theme

研究设想探讨：在相近算力预算下，显式层次化表示能否比在异构音频任务上的扁平表示带来更好的泛化与鲁棒性。

声学 → 单元 → 事件 → 场景 → 语义

面向通用音频理解的统一表示

Research theme

设想中的核心方向是构建覆盖识别、音频—文本对齐与类推理任务的紧凑评测套件，并将分析与具体抽象层级对应。

跨任务迁移矩阵

识别、对齐与推理类任务

Research theme

关注算力感知的扩展、高效适配，以及在压缩、噪声、域偏移与长音频等条件下的鲁棒性。

算力—能力扩展曲线

压缩与域偏移下的鲁棒性

近期工作以音频问答为试验平台，研究模态加权、分题型行为以及层次化表示。

项目基于公开基准与工具链，便于思想延续到后续工作。