ndrВ принципе, мне теперь понятна твоя мысль по поводу того что прикосновения ко всяким дистиллятам клода особо не имеют смысла.
Сегодня я подумал о, казалось бы, простой вещи: фактическая стоимость использования модели. Возьмем очень тупой и простой пример:
2 модели: одна стоит $25 за 1м токенов, вторая — $0.4 за 1м.
Промпт (задача) одинаковая. Первой модели нужно 1м токенов чтобы решить задачу. Цена: $25
Второй модели нужно 50м токенов. Цена: $12
Вторая модель лучше, т.к. дешевле, верно? Вроде да, но любому человеку понятно из примера что что-то тут не так. Вторая хоть и дешевле, но при прочих равных условиях она затрачивает в 50 раз больше времени. А если условия не равны и 1 модели скорость 2000 токенов в секунду, а у второй 200?
Итого имеем:
1 модель: 1м / 2000 = округлим и будет 9 минут.
2 модель: 50м / 200 = 4166 минут (70 часов).
Естественно, это же не автономные агенты. Ты тоже тратишь свое время на работу с моделью. И получается следующее:
4166-9 = 4157 минут (69 часов) разницы и выигрыш в $13. Т.е., получается что если мы возьмем, не знаю, половину времени (время которое лично ты затрачиваешь на работу с моделью), то выходит что ты оцениваешь свое время в $13 / 35 = $0.37 в час
То есть: суть примера не в числах конкретных, потому что мы это не высчитаем точно. Выводы следующие:
-Дешевые китайцы типа умных дипсиков, квенов (больших), кими и т.д. в итоге оказываются дорогими из-за времени. Тогда вопрос: для чего они нужны тогда? Может и не нужны?
Любая работа на масштабе — это либо API, либо локальные модели. И оба варианта моделей тоже не подходят. Десятки тысяч долларов на апи клода пусть американцы тратят. Вариант с дешевыми «умными» китайцами по апи не устраивает из-за скорости, что делает их уже не такими дешевыми, как мы выяснили.
Что остается? Остается локальные небольшие модели, либо эти же модели, но по api. У них уже получается и скорость повыше, и цена сильно ниже. В таком случае есть ярко-выраженный экономический эффект.
Посмотрим на chutes:
Этот парень в топе уже хер знает сколько. Значит народ в нем нашел максимальный экономический эффект: достаточно умный и дешевый для работы на потоке, несмотря на низкую скорость.
Выходит что народу эти все умные дипсики, кими и т.д. не нужны будут, если субсидии провайдеры обрежут и нужно будет платить за фактическое использование. Возможно та же участь и этого квена ждет, может нет. Но народ уже будет рассматривать локальные решения
Значит, для масштабирования подходят больше квены, геммы, hermes и т.д. и таки да, прекариат нанесет удар в какой-то момент, потому что на Земле 8 млрд людей. Вероятность того что какие-то сверх-разумы встретились и прямо сейчас в гараже клепают какого-то монстра как минимум ненулевая.
В общем, это лично мое наблюдение сейчас после интенсивного использования разных моделей на chutes. Я тупо не вижу экономический эффект от «умных» моделей типа кими, дипсик, минимакс, больших квенов и т.д. А малыши — это уже другое дело
Соответственно, возможно оптимальная работа строится так:
1. Топ-модель типа опуса 4.7 по дешевой подписке для мозгового штурма, для критики, для составления планов, для решения каких-то сложных вопросов и т.д.
2. Локальный малыш либо по api, типа квенов 30-35b. Это раб для грязной работы, типа написания кода
Для всех остальных нишевых задач — другие локальные модели, затюненные лично (в идеале)
Я может (скорее всего) тормоз и до каких-то очевидных вещей прихожу не сразу, но что поделать. Житиё такое