信息与计算科学本科

Zeyu Yin (Joey)

本科信息与计算科学专业学生,研究方向为音频问答与层次化音频智能

我是西交利物浦大学的本科生研究员。近期工作关注音频问答中的模态重要性分析;当前研究设想聚焦层次化音频智能:面向识别、对齐与推理等任务的统一表示与通用音频理解。

学术简介

音频问答与层次化音频智能相关研究。

当前侧重:音频问答中的模态重要性分析,以及面向通用音频理解的统一表示研究设想。

院校

西交利物浦大学

地点

中国苏州

研究设想方向

面向通用音频理解的层次化音频智能,强调抽象层级、跨任务统一评测、效率与鲁棒性。

精选研究

近期工作的若干项目页

以下条目以简明方式概括近期工作,后续可为精选页面补充更多材料。

案例研究
研究项目

Listening or Reading? An Empirical Study of Modality Importance Analysis Across AQA Question Types

案例研究:音频问答系统在不同题型上更依赖声学证据,还是文本或上下文捷径。

音频问答
模态加权
声学推理
DCASE 2025
Interactive Research Preview

不同题型对音频的依赖有何不同?

对比 6 类 AQA 题型,检视模型是否真正在“听”。

DCASE 2025 Task 5EchoTwin-QA · BEATs + BERT6 question types
声音计数Mostly audio-groundedBest 35.7% at lambda=0.9
Lambda sweep

Real aggregated accuracy from your experiment, averaged across the available seeds for this question type.

Text-only
Audio-only
lambda=0.0: 30.4%
lambda=1.0: 25.9%
Readout
Range
25.9% - 35.7%
Balanced
30.4%
Audio-only
25.9%
Key settings
Text-only
lambda=0.0
Accuracy: 30.4%

No material change. Remains strong without audio.

Balanced
lambda=0.5
Accuracy: 30.4%

No material change. Useful as a reference point in the sweep.

Audio-heavy
lambda=0.9
Accuracy: 35.7%

+5.4 pts vs text-only. Improves when audio contributes more.

Accuracy improves toward audio-heavy settings and peaks near lambda=0.9.
赛题系统
研究项目

ECHOTWIN-QA: A Dual-Tower BEATSBERT System for DCASE 2025 Task 5

为 DCASE 2025 挑战赛搭建的端到端音频问答系统,包含从零开始的训练、评测与消融实验。

DCASE 2025
BEATSBERT
端到端 AQA
SURF 项目
研究项目

Expressive Timing Modelling in Performed Classical Piano Music

暑期本科生研究项目:通过计算建模探索古典钢琴演奏中的表现力时值(expressive timing)。

音乐信息检索
音频建模
科研
论文

精选论文与报告

近期工作的精简列表,含会议/期刊、年份、贡献摘要与链接。

研讨会论文
2025

Listening or Reading? An Empirical Study of Modality Importance Analysis Across AQA Question Types

DCASE 2025 Workshop

Zeyu Yin, Yiqiang Cai, Pingsong Deng, Xinyang Lyu, Shengchen Li

参与研究设计,实现模态重要性实验,按题型分析结果并撰写论文。

技术报告
2025

ECHOTWIN-QA: A Dual-Tower BEATSBERT System for DCASE 2025 Task 5 Audio Question Answering

DCASE 2025 Challenge (Task 5)

Zeyu Yin, Ziyang Zhou, Yiqiang Cai, Shengchen Li, Xi Shao

从零搭建端到端 AQA 系统,完成训练与评测流程、消融实验并撰写技术报告。

技术报告
2025

ADAPTF-SEPNET: AudioSet-Driven Adaptive Pre-training of TF-SEPNet for Multi-device Acoustic Scene Classification

DCASE 2025 Challenge

Ziyang Zhou, Zeyu Yin, Yiqiang Cai, Shengchen Li, Xi Shao

参与模型开发与实验评测,并支持结果分析与文稿撰写。

研究兴趣

当前研究主题

工作围绕音频问答、层次化表示、评测与鲁棒性等相互关联的问题展开。

层次化音频智能
大音频模型
音频问答
模态重要性分析
跨任务统一评测
效率与鲁棒性
研究视角

清晰的问题、统一的评测与审慎的诊断。

本站汇集已发表工作、进行中的研究主题,以及一个可扩展的案例研究页面(后续可加入图表、消融与交互分析)。

时间线

学术路径

近期角色与节点的概览,帮助理解当前研究兴趣的脉络。

2025

DCASE 2025 参赛与科研

搭建端到端 AQA 系统,并按题型分析模态重要性

2025

研讨会与挑战赛论文

参与音频问答相关项目的设计、实验、消融与写作

2024

SURF 本科生研究员

在西浦开展古典钢琴演奏表现力时值建模研究

2023

学业优秀奖获得者

获校级学业优秀奖及全额奖学金支持