Поделюсь своим опытом работы над проектом по машинному обучению для предсказания оценок гостиниц.

Недавно работал над интересным проектом, где анализировал отзывы о гостиницах и пытался предсказать оценки (reviewer_score). В процессе пришлось использовать как обработку текстов, так и работу с числовыми данными, что дало мне хороший опыт в разных аспектах машинного обучения.

1. Первичная подготовка данных: Сначала очистил данные. Применил технику обработки текста для очистки отзывов, чтобы потом сделать их более подходящими для анализа. Также преобразовал числовые признаки, такие как “дата отзыва”, в более удобные для моделей формы.

2. Работа с текстовыми данными: Использовал TF-IDF для преобразования текста в числовые данные, а также LDA (Latent Dirichlet Allocation) для извлечения тем из отзывов. Это позволило выделить важные темы и сделать анализ более глубоким.

3. Модели машинного обучения: Для предсказания использовал три популярных алгоритма: • XGBoost – мощная модель для задач регрессии. • LightGBM – отличная для больших объёмов данных. • CatBoost – очень удобная модель для категориальных признаков.

С помощью Optuna я занимался поиском гиперпараметров, что позволило найти наиболее оптимальные настройки для каждой модели.

4. Кластеризация: Также проводил кластеризацию на основе географических данных, что помогло выделить группы гостиниц с похожими характеристиками.

5. Оптимизация гиперпараметров: С помощью Optuna провёл серию экспериментов, чтобы найти лучшие параметры для каждой модели, что значительно повысило точность предсказаний.

6. Ансамблирование: В конце использовал ансамблирование (смешивание предсказаний от разных моделей), чтобы улучшить результат. Применял как Weighted Average, так и более сложный метод stacking с использованием мета-модели.

7. Результаты: Итоговый результат показал, что ансамблирование действительно улучшает предсказания, а использование разных моделей дает более стабильный результат.

Процесс оказался очень интересным и полезным. Работать с текстами и числовыми данными одновременно — это всегда вызов, но в этом есть и своя магия! Особенно рад был использовать Optuna для оптимизации моделей — это реально ускоряет процесс.

Теперь проект готов, и результаты можно использовать для дальнейших исследований или внедрения в реальный бизнес.

#машинноеобучение #dataanalysis #модели #оптимизация #текстовыеданные #XGBoost #LightGBM #CatBoost #Optuna #stacking #кластеризация #анализациятекстов #классификация #регрессия #моделипредсказаний #искусственныйинтеллект #анализданных #программирование #data science #машиннообучение #метамодели #нейросети #кейс

Поделюсь своим опытом работы над проектом по машинному обучению для предсказания оценок гостиниц | Сетка — социальная сеть от hh.ru Поделюсь своим опытом работы над проектом по машинному обучению для предсказания оценок гостиниц | Сетка — социальная сеть от hh.ru