🔹 Throughput vs Latency — кто кому уступает? 🔹 Жертвовать ли задержкой ради пропускной способности? 🔸 В DE (Data Engineering) пайплайнах проблема в том, что ресурсы ограничены: нужно либо обрабатывать много данных (throughput), либо отвечать быстро на каждое событие (latency). Без этого выбор приведёт к задержкам в аналитике или к недостаточной скорости отклика для реального времени.
🔸 Когда оптимизировать throughput: batch-процессы (ежечасные ETL, загрузка больших файлов). Если задача — накопить и обработать терабайты с минимальной стоимости, берём высокую throughput и агрегируем пакеты.
🔸 Когда минимизировать latency: stream-пайплайн, пользовательские реакции, алерты, fraud detection. Если решение должно сработать за миллисекунды — уменьшаем задержку даже ценой меньшей пропускной способности.
📚 Выбор по SLA: если нужен объём — batch/throughput; если нужен отклик — stream/latency.
➡️ Мы в Telegram - Сетке - Дзен Буду рад вашей реакции здесь⬇️
В этом посте были ссылки, но мы их удалили по правилам Сетки