Упаковка последовательностей ускоряет обучение LLM
Packed sequences уменьшают потери GPU на padding и ускоряют обучение. Для тебя это значит дешевле тренировки и выше throughput. Стоит внедрить, но только с корректными масками и позициями.
Идея в том, чтобы склеивать короткие тексты в одну длинную последовательность вместо добавления padding. Ключевым становится masked attention, который запрещает токенам «видеть» соседние примеры, а также сброс position ids для каждой новой последовательности. Без этого модель путает границы данных. В батчах логика усложняется из-за глобальных индексов EOS, но решается через тензорные операции. Подход особенно полезен для pretraining и SFT.