Зубы акул: сколько нужно образцов?
Есть в науке вечная проблема: данных мало, а выводы сделать хочется. В палеонтологии это вообще больное место — костей мало, зубы разбросаны, коллекции часто крошечные.
25 февраля в журнале Paleobiology вышло исследование, которое эту проблему немного приземляет.
Взяли зубы акул. Шесть видов, от мегалодона до современной белой. Всего 3150 штук. И проверили: сколько нужно образцов, чтобы нейросеть научилась отличать один вид от другого.
50 зубов на вид — точность 93,4%. Это уже рабочий результат. То есть даже с маленькой коллекцией можно получать адекватную классификацию.
Дальше точность растёт: 200-500 зубов дают уже 99% и выходят на плато. Больше образцов уже не улучшают результат — предел достигнут.
Уверенность распознавания (это когда нейросеть не просто угадала, а ещё и уверена в ответе) тоже ползёт вверх: с 81,8% при 50 образцах до больше 90% при 300-500.
Ошибки лезут там, где зубы похожи по форме. Или когда сохранность хреновая — зуб обломан, стёрт, деформирован.
Но это лечится аугментацией данных. По-русски: берут имеющиеся картинки, слегка их поворачивают, растягивают, меняют яркость — и нейросеть думает, что видит новые образцы. Искусственно "размножают" коллекцию, чтобы учиться было на чём.
Раньше думали: для обучения ИИ нужны гигантские базы данных. Тысячи и тысячи образцов. А тут оказалось, что даже 50 штук на вид — уже нормально.
Для палеонтологов это хорошая новость. У них редко бывают тонны материала. Чаще — пара зубов, несколько костей, один череп. Теперь понятно, что даже с таким скудным набором можно работать, если правильно подойти.
Чтобы отличить зуб мегалодона от зуба белой акулы, нейросети нужно 50 примеров. А чтобы отличить нормального заказчика от того, кто будет мурыжить проект полгода и в итоге уйдёт к конкурентам — иногда и одного раза хватит.
Но этому мы учимся без всяких нейросетей, на собственном опыте.
Вопрос: Сколько примеров нужно вам, чтобы понять, с кем имеете дело — с профи или с болтуном?
· 12.03
В маркетинге достаточно того как человек ставит задачи. Если уже на старте "что хочу не знаю, что знаю не хочу, но вы угадайте что мне надо в итоге, вы же профи", ну или "я сам все знаю, я сам могу, просто некогда и сделай ты, тут работы на пять минут", я практикую смирение и отказываю.
В помогающей практике распознавать внутренние истории я училась постоянно, все 10+ лет и продолжаю учиться. Нет шаблона, по которому можно откатать работу. Каждая встреча уникальна.
ответить
коммент удалён