Дизраптор
26.11
Как ChatGPT, но для реального физического мира
Компания Niantic Labs заявила, что разрабатывает большую геопространственную модель (Large Geospatial Model, LGM). Это аналог большой языковой модели, но только для физического мира. Для изображений, связанных с гео и картографией. Казалось бы: ну и что с этого? Но дело в том, что Niantic - это разработчики Pokemon Go, а для обучения LGM они использовали хренову тонну реальных снимков с телефонов охотников за покемонами (о чём игроки вряд ли догадывались, но это ладно, кто нынче не без греха).
Если Niantic сможет запилить толковую LGM, то выйдет довольно крутая штука, смотрите:
Как работает LLM (large language model, движок для этих ваших ЧатовГПТ)? Если совсем упрощенно, то берём нейронку и сгружаем ей дохренища текстовых данных и/или картинок и видосов. В результате такого обучения нейросетка учится воссоздавать следующий шаг: если она видит слово "котейка", то знает, что за ним часто следуют слова "пушистая", "мягкая", "кс-кс-кс", "брысь" (осуждаем) ну и так далее, и прикидывает, как продолжить текст, опираясь на контекст вокруг "котейки". Аналогично с картинками - LLM знает, как выглядит котейка. И если она видит пушистое туловище, то может прикрутить к нему усы, лапы и хвост. Получается, такой Т9 на стероидах.
LGS делает то же самое, но для реальных мест на карте. Вот так её суть описал Niantic (я слегка адаптировал):
Представьте, что вы стоите позади вокзала. Модель никогда не видела заднюю часть этого здания. Но в глобальном масштабе она видела множество разных вокзалов. Вокзалы не похожи друг на друга, но многие имеют общие характеристики. LGM - это способ доступа к этим распределенным знаниям.
Проще говоря, если LGM увидит частичку нашего физического мира, то сможет плюс-минус корректно дорисовать элементы вокруг. В результате получится цельная картинка, не очень непохожая на правду. А если модель обучена действительно хорошо и переваривала много годных данных, то воссоздаваемый образ может отличаться от реальности очень незначительно.
Можете сами прикинуть, где такое пригодится. VR/AR, компьютерные симуляции, ориентирование беспилотников, автономность робототехники, целая куча новых способов создания контента, криминалистика и много чего еще. А учитывая, сколько сейчас есть разных источников качественных пространственных данных (от автомобилей до носимых устройств), генеративная точность LGM может в будущем стать очень-очень высокой. Такой вот занятный заход на дизрапт.
еще контент в этом сообществе
еще контент в этом соообществе
Дизраптор
26.11
войдите, чтобы увидеть
и подписаться на интересных профи