Алексей Андиряков пишет:

Первые базы данных по ископаемым.

Где-то в девяностых палеонтологи начали понимать: бумажные каталоги — это тупик. Карточки теряются, описания расползаются по журналам, найти что-то через двадцать лет практически невозможно.

Начали собирать цифровые базы данных. Заносили в компьютер информацию о том, где, когда и кто нашёл конкретные образцы, к какому виду они относятся, какого возраста породы.

Поначалу всё было скромно. Текстовые файлы, простые таблицы, каждая лаборатория вела свою учётку. Но главное — процесс пошёл.

Зачем это надо

Одна окаменелость — это просто кость. Тысяча окаменелостей — уже статистика. Десять тысяч — возможность увидеть закономерности, которые не видны на отдельных образцах.

Когда данных много, можно спрашивать:

· Как менялось разнообразие видов во времени? · Когда вымирали одни группы и появлялись другие? · Связаны ли изменения фауны с климатом? · Где были центры происхождения новых видов?

Без цифровых каталогов ответить на эти вопросы невозможно. Просто не хватит памяти перебрать все публикации.

Что получилось в итоге

Из этих разрозненных попыток выросли большие проекты. Paleobiology Database, Neotoma, Now Database — глобальные системы, куда сейчас стекаются данные со всего мира.

К 2020-м годам это уже настоящий big data. Миллионы записей, автоматические выборки, статистические модели, машинное обучение на палеонтологических данных.

В девяностых это выглядело как скучная работа: перепечатывать карточки в компьютер. Казалось, что это просто учёт, ничего нового. А оказалось — фундамент для всей современной палеоинформатики.

#палеоинформатика #базыданных #историянауки #bigdata #методы