Data Engineer в Сетка · 18.11
Почему всегда лучше общаться с ChatGPT и другими американскими LLM на английском языке? Можно сказать, что у языковых моделей, как и у человека, есть родной и выученные языки. Но выученные языки менее нюансированные, упрощенные, по сравнению с основным.
Чем дальше от родного английского, тем сильнее будет снижение качества ответов. Английский и немецкие языки относятся к одной языковой группе - германским языкам, и там разница будет менее выражена. А вот с русским, японским или грузинским результаты будут все хуже и хуже.
Основных причин ухудшения результатов две: - Меньшая доля текстов на других языках использовалась при обучении модели. - То как модель токенизирует текст, то есть разделяет его на составляющие.
Очень упрощенно можно представить эти отличия так: на английском модель "прочитала" 10 000 книг и умеет читать и понимать одно слово за раз почти всегда (cat, reading, token-izing). А на русском у неё за плечами всего 1000 книг и "читает" она по слогам, если не по буквам (т-ракт-ор, ч-т-ение).
Поэтому, если ваши знания позволяют, я рекомендую во всех случаях, которые напрямую не требуют использования другого языка, использовать английский. Заодно и попрактикуетесь. 😉
Пишите, если хотите больше узнать про токенизацию текста и про обучающие наборы данных ChatGPT.
еще контент автора
еще контент автора
Data Engineer в Сетка · 18.11
войдите, чтобы увидеть
и подписаться на интересных профи