Скаути | Нейросети | AI | Scoutie.ru | ML
06.01
💫 NER – что это такое? Named Entity Recognition (NER) – это процесс, с помощью которого модель машинного обучения способна определять сущности или слова, относящиеся к определённым классам.
📌Примеры классов сущностей: PER – персоны, ORG – организации, LOC – местоположения, а также другие часто встречающиеся классы, которые употребляются в речи.
📍Как работает NER? Выявление именованных сущностей широко применяется в задачах обработки естественного языка (Natural Language Processing, NLP). NLP включает работу с текстами на разных языках, таких как русский, английский и другие.
Например, название города "Париж" может писаться по-разному на разных языках. Основная задача NER – находить в тексте слова, относящиеся к определённым классам сущностей. Так, слово "Париж" будет помечено как LOC (местоположение). С какими сложностями сталкивается NER?
1️⃣Языковое разнообразие. Разные формы написания одного слова на разных языках.
2️⃣Контекст. Некоторые слова могут не являться сущностями, а их значение зависит от контекста. Пример: слово "Вена". Оно может обозначать: город (LOC), или кровеносный сосуд в предложении "Вена – это кровеносный сосуд".
👻Для чего применяют NER? NER используется для обогащения обучающей выборки дополнительными признаками. Эти признаки помогают модели понять то, что она не знает из исходных данных.Пусть мы имеем размеченный датасет вида: Текст: "Париж – столица Франции." Сущности: Париж → LOC (город, столица). Франция → LOC (страна). Модель обучается понимать связи между сущностями. На запрос "Столица Франции" она сможет ответить "Париж".
NER также полезен для анализа связей между сущностями, такой процесс связывания сущностей между собой называется Named Entity Linking (NEL), но это уже другая история, поэтому просто посмотрим на пример: Гагарин (PER) – космонавт (тег профессии) – Россия (LOC) = связь. Дополнительно можно добавить краткое описание сущностей, например, из Википедии.
🌟NER в Скаути. В Скаути мы используем NER, чтобы вы могли размечать и обогащать выборки дополнительными признаками и готовить качественные данные для обучения моделей, как в примере выше.
🪄С помощью Скаути вы можете не только размечать данные, но и автоматически собирать тексты из Telegram. Мы стремимся полностью автоматизировать процесс подготовки данных для ваших задач.
Попробуйте Скаути бесплатно Примеры датасетов Скаути News
#AI #MLеще контент в этом сообществе
еще контент в этом соообществе
Скаути | Нейросети | AI | Scoutie.ru | ML
06.01
войдите, чтобы увидеть
и подписаться на интересных профи