Главная | Опросы | Регистрация |  | Поиск | Стата | 1.0Сайт
Радио Бингуру
🔊
Выбрать
Готово

дневник Али

Автор | Дата: 10Только для участников с 10+ постами — войдите, чтобы продолжить   
Скрытый пост
Автор | Дата:   
Ali



Ты действительно все это читаешь?
Автор | Дата:   
нет конечно большинство это будет ии саммари и далее уже выборочно, я обычно юзаю cli с агентом сразу, а так не осилить такое конечно мне, в день около 3-5 будет пока предел с моим англ и другими ограничениями
Автор | Дата:   
Ali: парсер bloomberg
Оригинал
сложна было? 
Ты как и dstreltsov сделал или по-другому? 

dstreltsov:
Парсить блумберг — это не задача, которую вообще можно доверить клоду, не потому что он не может, а потому что нужно знать столько ньюансов относительно самого сайта, которые довольно сложно передать или выразить каким-то скиллом.

Вообще парсинг сложных вещей — это задача с очень высокой энтропией, т.е. там огромное количество ньюансов, на блумберге скажем я нашел как получить фид статей в порядке их публикации, имея ссылки уже нужно реализовать парсинг статьи — там начинается очень много работы, потому что нужно взять браузер, запатчить его фингерпринтами, брать не хромимум-бейзед, потому что плейврайт и прочие сливают мгновенно, что сайт открывается через automation tool, и тут вам стелс плагин на плейврайт не сильно поможет это спрятать, CF и другие защиты умеют это определять и банят это очень легко, плюс нужно делать ротацию прокси, это вообще база, и любые прокси не подойдут, нужно брать redistential

Ну и ньюанс в том, что написать парсер блумберга не так уж и сложно, если знаешь что делать, я его за три дня написал, сложность начинается в мейнтенсе, в реакции на изменения в верстке, на упавшие страницы и прочие инциденты Оригинал
Автор | Дата: 10Только для участников с 10+ постами — войдите, чтобы продолжить   
Скрытый пост
хомяки 0 трейдят [ Noligik ] сегодня 1 постпик 178
© 2026 Форум Бингуру. Уходи, тебя не звали
  ⇓     ⇑