研究

研究亮点

近期结果与进行方向的简短概述,并附各领域简要背景。

当前侧重

构建层次化音频表示与评测协议,面向通用音频理解。

音频问答案例提供具体示例;更广的研究设想还涉及跨任务迁移、效率以及在现实算力预算下的鲁棒性。

查看案例
Research theme

音频问答

将 AQA 作为具体试验平台,考察系统是否基于真实声学证据作答,还是过度依赖语义与文本捷径。

Listening or Reading? An Empirical Study of Modality Importance Analysis Across AQA Question Types
ECHOTWIN-QA: A Dual-Tower BEATSBERT System for DCASE 2025 Task 5 Audio Question Answering
Research theme

模态重要性分析

工作的核心主题之一是度量不同输入模态在各题型上的贡献,从而更严格地解释模型行为。

分题型的消融研究
声学依赖与语义依赖对比分析
Research theme

层次化音频智能

研究设想探讨:在相近算力预算下,显式层次化表示能否比在异构音频任务上的扁平表示带来更好的泛化与鲁棒性。

声学 → 单元 → 事件 → 场景 → 语义
面向通用音频理解的统一表示
Research theme

跨任务统一评测

设想中的核心方向是构建覆盖识别、音频—文本对齐与类推理任务的紧凑评测套件,并将分析与具体抽象层级对应。

跨任务迁移矩阵
识别、对齐与推理类任务
Research theme

效率与鲁棒性

关注算力感知的扩展、高效适配,以及在压缩、噪声、域偏移与长音频等条件下的鲁棒性。

算力—能力扩展曲线
压缩与域偏移下的鲁棒性

研究设计与分析

近期工作以音频问答为试验平台,研究模态加权、分题型行为以及层次化表示。

  • 可控的音频/文本融合系数
  • 按题型分层的准确率与统计检验
  • 区分捷径与感知落地的诊断

基准与工具

项目基于公开基准与工具链,便于思想延续到后续工作。

  • DCASE 2025 Task 5 多域 AQA 基准
  • 基于 BEATs 的音频编码器与类 BERT 文本塔
  • 含消融与评测的 PyTorch 训练流程