[Question]: ict_final 关于 Qwen3.5-4B 的 64k 和 128k 长文本输入问题

1. 目前我们通过实验,qwen3.5-4B 即便在 910B4 四卡 TP=4 时，由于没有 chunked prefill，在对一次性的长文本输入（64k 或者 128k）进行 prefill 时会报错由于激活张量需要内存过多导致 OOM，实现 chunked_prefill 似乎是不得不做的事，目前通过解析源码可以看到在 Qwen3GatedDeltaNetBaseImpl 类中并不支持 chunked_prefill。赛题方是需要我们在实现 chunked_prefill 在 GDN 支持的同时进行性能优化吗？或者说是需要开启什么配置才能实现 qwen3.5-4B 的长上下文输入呢？
2. 赛题上写的单并发具体是指什么呢，单请求单 batch ，限不限定单卡呢？