ndr: Осваивать не ии сложно, а башку менять в новые подходы,
Оригинал Тру стори:Как то несколько месяцев назад, когда уже поимел опыт работы и с кодовыми агентами и успешный опыт обучения своих сеток (deep learning), упоролся сделать автодетектор паттернов на голых данных (и это были OHLC — ничего удивительного, да)
Как же было непривычно видеть подходы нейросеток, по каким критериям они «видят» паттерны...
Хотя там в некоторых кластерах были паттерны похожие на треуголку, клины — ну типа «сжатие волы», но в этих же кластерах были совершенно невообразимые вещи также, что нейронка видела как похожие на треуголки — я долго пытался это отрисовать и найти закономерности, типа why бро, почему то тут видишь нечто похожее, хотя я нихера не вижу (отрисовывая безусловно линию цены, чтобы посмотреть глазами).
Что по итогу: - 90+% паттернов мусор (в плане прибыли), потому что была попытка дать на вход в модель данные таким образом, которые понятны человеку через его опыт (OHLC и все производные от них + там некоторые ончейн метрики). Это работает тоже, но не так как кажется

— примерно 3-5% из того что кластеризовалось в паттерны, оказалось ценным и изучение этого дало несколько нетривиальных идей, как данные на вход лучше дать данные, чтобы исключить мусор и шум, в контексте детектора (это чтобы модель сама видела сигнал — первый слой пайплайна, а предиктить и фильтровать паттерны эти, отработает или нет и с какой вероятностью — это уже далее)
— вначале я сокрушался и реально долго возился с этой темой (а хули ты хотел, сразу получить с первого/десятого раза из одних из самых сложных данных в мире — где 90%+ шум мусорный), но в целом проект больше был исследовательский и считаю его успешным.
Мораль сей басни такова:
-OHLC — это хорошо, но если было бы так все просто...
-Если строить предиктор на OHLC, входящие данные уже должны быть отфильтрованы под сигнал (то есть в предиктор идет уже сигнал и модель оценивает и фильтрует говно сигнал или нет — давая вероятности). Этот подход работает.
-Сигнал — это то что фильтруется заранее перед входом, это может быть человеческая экспертиза (аля пересечение там каких то линий — боже упаси, это лишь пример).
Давать тупо OHLC и все что с ними связано сразу в сетку, чтобы она предиктила цену — путь в никуда, это не работает (иначе почти каждый дата саентист или мл инженер пошел бы предиктить цену и жил бы припеваючи, нет, страдайте на галере братаны).
Ключевое:OHLC — это уже агрегированные данные (с огромной потерей сливок, особенно для сеток), нужен слой ниже — микруха, трейды, книга, микруха ончейна (тики не обязательны) и на них строить детектор или просто для анализа,разведки и поиска чего бы то ни было.
Агрегируй там уже эту микруху как хочешь...
*под нейронкой я здесь подразумеваю не чаты гпт итд, а свои сетки обученные (CNN, LSTM, Temporal Transformer).