так чуть новостей
поделюсь немного опытом тестирования моделей под свои задачи
Изначально я писал, что у меня была проблема что мой HR жрет слишком много токенов и медленно отвечает
я поменял его с кими 2.6 на гемини флеш, начались другие проблемы -гемини сука тупая как пробка, под нее пришлось переписывать абсолютно все сценарии скриптами, сама она не может сделать ну нихуя, и даже если у нее есть путь или инструкция, она 10 раз обосрется пока сделает, запросит 10 левых перишнов (из-за чего мне пришлось ее ограничить, потому что я не знаю ее пермишн адекватный или она сгалюцинировала себе ошибку в мосте с мессенджером и написала «новый» (реальный кейс, но там хук предотвратил слава богу), когда обратно откатился на кими, все проблемы решились, HR стал умнее в неск.раз, но сука, продолжает отвечать по 2 минуты
Итого были взяты 4 модели и даны им одинаковые 3 задачи
KIMI 2.6
Gemini flash 2.5 Flash
DeepSeek V3.2
GLM 4.7 (5.1 и 5.2 пока не стал тестить, на опенроуте они в 4 раза дороже гемини и в 2 раза дороже кими)
всем были даны 3 задачи:


1. задача-поднять мне резюме всех кого я приглашал на стажировку по последней вакансии (я задачу так и поставил, больше никакой конкретики)
2. Вытащить последние 5 сообщений из ватсапа всех кого звали на стажировку
3. Проанализировать рынок по вакансии через HH.API
Лучший агент
Kimi K2.6
Единственная, кто честно выполнил A и B с подтверждёнными message_id. Не галлюцинирует. Провал только на Task C (длинная HH-коллекция) — таймаут 600с. Критичный минус: 2+ мин на ход в чате, с ней невозможно работать в реальном времени
Модель умная, но сука медленная что пиздец, это убивает просто все ее преимущества, но зато максимально чистые данные, буквально 0 галлюцинаций
Самая быстрая + закрыла C
GLM-4.7
Единственная, кто выполнил Task C за 159с (Kimi таймаут). Task A реально. Но Task B — галлюцинация: заявила об отправке без вызова инструментов. Для WA-чата (коротких реплик) может быть рабочей, нужна доп. проверка.
Она запоролась на задании В, либо потому что не поняла инструкций и подхода к ватсапу, либо потому что просто тупая сука, она прочитала сообщения, но придумала отсеюятину, что то сократила, что то обхединила, указала неправильную дату и время
Ненадёжна
Gemini 2.5 Flash
Task A: нашла 5 из 6, смешала форматы (HH-ссылки + PDF). Task B: отказалась — спутала WhatsApp с Telegram (ошибка распознавания инструментов). Task C: выполнила но скудно (N/A для графика, без выборки). Корень проблем — reasoning_effort: medium не снят с конфига.
Полная противоположность кими, быстрая но пиздец тупая, никаких перимшнов и свободы воли, только плетка и четкие инструкции (хуки и скрипты)
Не подходит
DeepSeek V3.2
Task A: таймаут 420с (пусто). Task B и C: ответы подозрительно короткие (219 и 272 байта), нет конкретных цифр, нет content — возможные галлюцинации. Медленнее всех при низком доверии к результату.
Дипсик оказался просто лютым гавном, в общем ничего нового, обосраться со всеми тремя задачами это сильно
Вот теперь у меня вилка на чем остановится, мне и скорость важна (кими заебал), и качество работы (глм привет), и чтобы не особо кусалась цена когда надо (поэтому стремаюсь брать последний глм
Кто имел подобный опыт и тоже в чем то не мог прийти к консенсусу, буду рад если поможете с аргументами в пользу того или иного
хайку, гпт, соннет, опус не рассматриваю по причине того, что это жуткие оверпрайс модели за относительно небольшое преимущество в харнесе против вышеупомянутых