Skip to content

[Question]: ict_final 关于 Qwen3.5-4B 的 64k 和 128k 长文本输入问题 #1261

@drink-less-milktea

Description

@drink-less-milktea
  1. 目前我们通过实验,qwen3.5-4B 即便在 910B4 四卡 TP=4 时,由于没有 chunked prefill,在对一次性的长文本输入(64k 或者 128k)进行 prefill 时会报错由于激活张量需要内存过多导致 OOM,实现 chunked_prefill 似乎是不得不做的事,目前通过解析源码可以看到在 Qwen3GatedDeltaNetBaseImpl 类中并不支持 chunked_prefill。赛题方是需要我们在实现 chunked_prefill 在 GDN 支持的同时进行性能优化吗?或者说是需要开启什么配置才能实现 qwen3.5-4B 的长上下文输入呢?
  2. 赛题上写的单并发具体是指什么呢,单请求单 batch ,限不限定单卡呢?

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions