Что нового в OSS data stack: Trino, pandas и Airflow
11 мая вышел релиз Trino 481. Основные изменения для data platform коснулись Iceberg-коннектора. В системной таблице Iceberg $files теперь доступно больше метаданных: 27 колонок вместо 18. Это помогает точнее разбирать состояние таблиц: к каким snapshot относятся файлы, где лежат manifest-файлы, как связаны data/delete-файлы и что происходит после compaction или удаления данных. Ещё в Iceberg-коннекторе добавили экспериментальный variant для Iceberg v3 — тип для полуструктурированных значений, например вложенных объектов и массивов. Появился timestamp(9), то есть временные поля с точностью до наносекунд. Для Iceberg REST Catalog добавили HTTP-заголовки и обновляемые credentials, а для OPTIMIZE — метрики выполнения. Запись в S3 стала потреблять меньше памяти. При планировании апгрейда стоит учесть, что в Trino 481 удалили legacy-поддержку object storage для S3, GCS, Azure Storage, IBM COS и S3-compatible систем. Лучше заранее проверить конфиги каталогов, запись в S3, OPTIMIZE, $files и работу с REST Catalog.
11 мая также вышел pandas 3.0.3. Релиз закрывает несколько проблем, которые могли проявляться в Python ETL и Airflow-задачах с pandas, PyArrow, Parquet и fsspec: чтение Parquet с timezone-aware timestamps, работу часовых поясов при чтении через PyArrow, пути через fsspec вроде tar://, ошибки в строковых колонках на PyArrow-backed dtype и просадки производительности на временных рядах.
В апреле вышел Airflow 3.2.0: появился asset partitioning: downstream DAG можно запускать по конкретной партиции, например dt=2026-05-14, без пересчёта всего графа. Также улучшили Grid View для больших DAG, JSON-логи API server и работу UI/API при множестве запусков.
· 18.05
Как PM зависишь от data team больше чем хочешь признавать. Asset partitioning в Airflow 3.2 закрывает боль которую мы обсуждали полгода, пересчёт метрик за один день вместо всего графа. На product-собесах стали спрашивать про понимание data stack, тренировался на mock в jobpath, попадались вопросы именно про взаимодействие с data engineering.
ответить
коммент удалён