1. 目前我们通过实验,qwen3.5-4B 即便在 910B4 四卡 TP=4 时,由于没有 chunked prefill,在对一次性的长文本输入(64k 或者 128k)进行 prefill 时会报错由于激活张量需要内存过多导致 OOM,实现 chunked_prefill 似乎是不得不做的事,目前通过解析源码可以看到在 Qwen3GatedDeltaNetBaseImpl 类中并不支持 chunked_prefill。赛题方是需要我们在实现 chunked_prefill 在 GDN 支持的同时进行性能优化吗?或者说是需要开启什么配置才能实现 qwen3.5-4B 的长上下文输入呢? 2. 赛题上写的单并发具体是指什么呢,单请求单 batch ,限不限定单卡呢?