Era of experience Програмная статья от David Silver(Deepmind), Richard S. Sutton(сооснователь метода reinforcement learning, автор bitter lesson) Welcome to the Era of Experience Основные тезисы: ✔️Созданные человеком текстовые данные, пригодные для обучения LLM - практически закончились. Чтобы двигаться вперед, и тем более - чтобы достичь сверхчеловеческого уровня в решении разнообразных задач - нужен новый источник данных. ✔️Таким источником может стать собственный опыт ИИ агентов, решающих практические задачи в реальном мире на протяжении длительного времени. ✔️Reinforcement learning был успешен в достаточно простых средах с одной понятной наградой. ✔️LLM с человеческим подкреалением - ограничены человеческим уровнем мышления и способностей. ✔️Если объединить обучение на основе опыта с объективным вознаграждением и фидбэк от человека - можно преодолеть ограничения обоих подходов. ✔️Кроме того, современные LLM умеют в planning and reasoning, но делают это по человечески. Если они научатся делать это на своем собственном языке со своими собственными концепциями - есть шанс, что у них получится сильно лучше.
В общем, авторы считают, что время для очередного поворотного момента в развитии ИИ - пришло.