Компания Google представила новую языковую модель Gemma 3, которая, по ее утверждению, приближается к точности мощной DeepSeek R1, но при этом использует в разы меньше вычислительных ресурсов. Если для работы R1 требуется 32 топовых графических процессора Nvidia H100, то Gemma 3 достигает 98% ее точности, используя всего один такой чип.

В компании считают, что им удалось достичь идеального баланса между производительностью и эффективностью. Gemma 3 демонстрирует отличные результаты, превосходя модели Llama-405B, DeepSeek-V3 и o3-mini в тестах человеческих предпочтений, согласно рейтингу Эло. Кроме того, по расчетам Google, модель опережает Llama 3 от Meta, для которой требуется 16 графических процессоров.

Gemma 3 разработана с учетом экономии вычислительных ресурсов. В отличие от гигантских моделей вроде R1, у которых число параметров может доходить до сотен миллиардов, новая разработка Google предлагает варианты с 1, 4, 12 и 27 миллиардами параметров. Это делает ее гораздо более доступной для работы даже на устройствах без мощных серверных решений.

Одним из ключевых факторов высокой эффективности стало использование технологии «дистилляции» знаний. Этот метод позволяет переносить знания из более крупной нейросети в компактную модель, повышая ее возможности при меньших затратах вычислительной мощности. Кроме того, модель прошла несколько этапов оптимизации, включая обучение с подкреплением на основе обратной связи с человеком (RLHF), машиной (RLMF) и выполнением задач (RLEF), что значительно улучшило ее способность работать с текстами, кодом и математическими расчетами.

Google использует три метода оптимизации качества работы Gemma 3: RLHF (обучение с подкреплением на основе обратной связи от человека), RLMF (обучение с подкреплением на основе обратной связи от машины), и RLEF (обучение с подкреплением на основе выполнения). Эти подходы помогают сделать ответы более полезными, улучшают математические способности модели, и увеличивают точность кода и логики.

По сравнению с предыдущей версией Gemma 2 новая модель получила более длинное контекстное окно – с 8 000 до 128 000 токенов. Это означает, что теперь она может анализировать более крупные фрагменты текста, что особенно полезно для обработки длинных документов. Еще одно важное улучшение – поддержка мультимодальности, что позволяет задавать модели вопросы о содержимом изображений.

Корпорация также уделила внимание вопросам безопасности. Исследователи компании протестировали модель и выяснили, что Gemma 3 запоминает длинные тексты с меньшей вероятностью по сравнению с предшественниками, тем самым снижая риски утечек информации. Семейство Gemma 3 включает модели с параметрами от 1 до 27 миллиардов, и они способны обрабатывать тексты и изображения, используя контекстное окно на 128 000 токенов.

Специалисты по оценке в области чат-ботов дали Gemma 3-27B-IT оценку Эло 1338, что поместило её в десятку лучших моделей AI. Модели доступны через Hugging Face, Kaggle и Google AI Studio, и поддерживают распространенные фреймворки, такие как PyTorch и JAX. Модели Gemma 3 будут полезны для множества задач, включая анализ документов и работу с множеством языков.

Варианты Gemma 3 демонстрируют эффективность, доступные также будут специальные версии для обнаружения опасного контента, что подчеркивает важность безопасности в разработках AI.

От Дмитрий Соколов

Гик-писака🤓