IT's GNIVC пишет:

Ваши ORC-запросы могут работать быстрее ⚡️ Три настройки, о которых многие забывают: ⚫️сортируйте данные перед записью — Hive прочитает один страйп вместо всей таблицы ⚫️включите Bloom Filter для столбцов с точечным поиском — это +15–20% к скорости ⚫️настройте orc.row.index.stride — меньше значение = точнее фильтрация

Вячеслав Сухих в статье на Хабр объясняет, как всё это работает изнутри: анатомия файла, три уровня индексации и живой эксперимент с замерами

➡️ Читать: ORC in Hive/Spark — “анатомия” файла, индексация и фильтр Блума

P.S: и не забудьте поддержать автора 💜

#полезное ➿➿➿➿➿➿➿➿ Мы в MAX