Дмитрий Калганов
BI разработчик | Инженер Аналитик
· 03.06DuckDB не просто база
В последнее время, среди специалистов по работе с данными набирает популярность DuckDB-встраиваемая база, а точнее как его называют “суперэффективный OLAP-движок”, на первый взгляд очень похож на всем известный SQLite но имеет заметный ряд преимуществ:
- OLAP-движок, который лучше подходит для аналитических запросов, потому что быстрее обрабатывает сложные запросы в отличии от OLTP
- Колонко-ориентированное хранение позволяет быстрее получать ответы на запросы особенно Group by и Join, и занимает меньше места в памяти
- Не требует сервер, можно легко развернуть в своем jupyter notebook используя команду pip install duckdb
- Работает на базе PostgreSQL который можно легко встроить в свой Pandas/Polars код и проводить анализ совмещая всю силу SQL и Python
- Многопоточность, позволяет ускорять обработку запроса и на практике работает быстрее pandas
- Поддержка популярных форматов данных (csv,parquet,json,arrow, подключение к БД)
- Поддержка создания функций, возможность создавать собственные шаблоны запросов и быстрое заполнение таблиц из файлов при помощи copy
- Можно дополнить extentions в том числе и PostgreSQL Extension
DuckDB- отличный инструмент, если вы работаете с большими объемами данных, привыкли к SQL для обработки и хотите быстро без дополнительных серверов, проводить анализ данных А с недавних пор, duckDB дружит с scikit-learn, что особенно полезно для команды data science.
еще контент автора
еще контент автора
Дмитрий Калганов
BI разработчик | Инженер Аналитик
· 03.06войдите, чтобы увидеть
и подписаться на интересных профи