DanceNow: на мой субъективный взгляд, китайская моделька более критически отвечает на вопросы и значительно меньше нахваливает пользователя, чем её американские конкуренты и зачастую они делают это необоснованно
ОригиналВсе так, разница политик в обучении с подкреплением (RL)
GRPO — у дипсика (тут нет критика, делается «сетка» ответов и затем обобщение и усреднение, метод хорошо для логики, и в два раза дешевле, но пока что мало изучен и не такой универсальный в сравнении с PPO)
PPO — у американцев (тут две равнозначные модели в обучении, актер и критик, актер хочет пройти критика поэтому подлизывает — чтобы получить лучшую награду, это если совсем просто — на выходе/инференсе оператор(кожанный) по сути = критик, поэтому подлизываем)
___
Вообще зашел сюда сказать, что дела у дипсика из-за «импортзамещения», полагаю пока что идут не так как хотелось бы.
Релиз затянулся (а его ждали под китайский НГ), были недавние сбои и откаты версий общей модели.
Есть мнение, связано это из-за того, что на чипах хуавей что то пошло не так (напомним что чипы нвидии были стопнуты в поставках и генсек (или кто там у них главный) сказал делайте сваё родное, нате денег)
Сам я слежу за ними, это первый братан кто меня затянул во все эти ваши ИИ чатики.
Считаю что у дипсика стратегически есть неплохие шансы нагнуть многих коллег по цеху (как было по-моему с R1), слишком они инженерно хороши и инновационны, но пока что имеем, что имеем.