0: В вашей сетевой деятельности вам может понадобиться сбор и анализ различных открытых данных. Даже если мы зайдём на любой сайт, то мы увидим, что есть различные типы данных, есть статические данные, а есть динамические данные. Ну и по логике понятно, что для
1: Сбора статических данных на разных ресурсах, на разных сайтах нам достаточно будет прописанного скрипта, чтобы он понимал чётко, откуда, где какую информацию нужно брать. А вот для сбора динамических данных нам пригодится хотя бы минимальная мозговая активность.
2: И для этих целей лучше использовать нейронку. Можно, конечно, оплачивать подписки на различных сервисах, которые предоставляют услуги по парсингу, но быстрее, надёжнее и дешевле собирать данные все-таки через собственный парсер. Так что сейчас с помощью нейронки мы напишем
3: Собственный парсер, который будет собирать для нас необходимые данные. Ну и наметим дальнейшие шаги. Что полезного мы можем из этого извлечь для наших повседневных нужд. Использовать. Я предлагаю дипси.
4: Собственно, пробиваем его, открываем, потому что это самая такая бесплатная, достаточно умная нейронка, которая доступна без всяких смен днс, без vpn и так далее, в общем, более чем.
5: Достаточный инструмент для наших задач ставим сразу, наверное, эксперта defying и search, чтобы он тоже заодно какие-то данные, необходимые ему, искал в промте, мы должны очень подробно описать, что нам необходимо сделать.
6: Для того, чтобы, собственно, получить тот результат, который мы запланировали, начинаем с того, что мы прописываем, что нам необходим парсер. Далее, нам необходимо подробно описать те задачи, которые мы ставим перед этим парсером. Какие данные мы
7: Собираемся собирать. С помощью него мы возьмём такую задачу. Допустим, мы хотим как раз перед летним сезоном войти в нишу по сапборда. Это такая надувная доска с веслом, которую ты, собственно, надуваешь, и
8: Сплавляешься, например, по речке или плаваешь на озере. И при этом, конечно же, мы предполагаем, что поскольку это нейронка, то предложит нам такие решения, что это будет не просто написано, как по поиску, там, не знаю,
9: В том же озоне, например, в яндекс маркете. Ну, возьмём озон, что он будет искать просто как сапборд, потому что доску могут искать вообще по разному. Такую. Это может быть и надувная доска, и какая-нибудь сёрферская доска, потому что, ну, люди
10: Тоже они по разному ищут то, что им необходимо. И мы должны учитывать разный контекст того, как это будет искаться. И, например, если мы в озоне будем вбивать в разные периоды времени в зависимости от разных условий, от продвижения этих карточек, от раз.
11: Продавцов будем вбивать, например, сапборд, то выдача у нас будет разная. То есть, по сути, выдача у нас динамическая, она постоянно будет меняться в зависимости от различных факторов. И мы предполагаем, что все-таки нейронка эти моменты учтёт.
12: Так что прописываем, что нам необходимо.
13: Поскольку мы пишем это на русском языке, то нейронка предполагает, что мы находимся в России, и озон это та площадка, на которой мы, собственно, и будем использовать наш парсер. Но это мы ещё проверим в будущем, как она вообще нас поймёт и что она нам напишет, если что.
14: Мы её просто подкорректируем. Далее нам нужно описать ту среду, в которой мы, собственно, будем это запускать. Давайте возьмём здесь попроще, возьмём просто, что у нас там есть ноутбук или компьютер. И вот мы просто вот заходим в интернет, и мы запускаем
15: Некий скрипт, некую маленькую программу, которая будет собирать данные в фоновом режиме, потому что более сложные схемы там, когда мы располагаем там, условно этого парсера, где-то в облаке, на какой-то виртуальной машине и так далее. Но это более сложные
16: Вы всегда сможете ваш парсер масштабировать до таких размеров и до такой сложности. Сейчас мы берём нечто более простое, что вы сможете сделать достаточно быстро, поэтому опишем это как простой скрипт, который мы будем запускать.
17: Из под винды. Далее я рекомендовал бы все-таки описать те данные, которые нам будут нужны и куда они вообще будут передаваться для этого откроем озон, вобьём сапборд.
18: Ну, даже лучше, наверное, заранее понимать, что нам нужно из выдачи предварительной. Во первых, конечно же, нам нужна цена. Также нам необходимо обязательно понимать, какой бренд продаётся и размеры доски, желательно в сантиметрах.
19: Они тут, в принципе, все их, да, указывают в сантиметрах, ну где-то вот просто, например, длина 335, но это уже мы положим на плечи нейронки, чтобы он каким-то образом все-таки понял, что если указан 1 параметр, то это относится
20: Именно к длине сапборда. Ну потому что он не может быть в ширину или в толщину 335 сантиметров. Это логично. Ну и поскольку наша цель создания бизнеса полноценного, то есть мы хотим завозить эти доски и продавать их. То есть мы предполагаем, что в конечном итоге у нас
21: Будет некая таблица с этими данными и затем, чтобы сама же нейронка проанализировала эти данные и выдала нам в качестве результата предложение о том, в какие именно самые прибыльные ниши мы могли бы вложиться, но пока нам нужно реализовать 1.
22: Часть, то есть написать сам парсер, чтобы он собрал данные и положил их в google таблицы. Все-таки я бы ещё обязательно бы добавил цвет. Он, в принципе, здесь есть. Вот, например, мы наводим утро на байкале, полдень, на камчатке рассвет.
23: На ольхоне. Ну, это хитро, конечно, они сделали, но есть и сапборды, например, вот такие вот стандартных цветов, бело голубой, хотя бело голубой это либо голубой, либо синий. Ну, в общем, ладно, жёлтый. Гу.
24: Goose чего жёлтый, жёлтый, жёлтый гусь ладно, давайте возьмём простые цвета зелёный, замечательно оранжевый, супер и чёрный и как такой способ предварительной оценки.
25: На эти сапы я бы взял как показатель для сбора, это количество отзывов и количество вопросов. И все эти параметры как раз мы сейчас впишем. Ну, собственно, вроде бы предварительно мы все расписали, поэтому запускаем анализ наш
26: Нейронкой. Возможно мы что-то, даже если мы упустили, все равно, если что, мы это сможем поправить в следующих сообщениях. Ну и, собственно читаем ответ от нашей нейронки. Она говорит там, да, что нужно будет имитировать
27: Пользователя и так далее, и так далее. Поскольку он здесь сразу прописывает о том, куда и как эти данные будут собираться структурироваться, что это будет формат ксв. Ну, в принципе, можно, кстати, на это согласиться и, в принципе, нашу идею
28: Можно даже и не брать, потому что все равно же нам нужно будет обратно загружать эти данные в нейронку, поэтому соглашаемся с этим хорошо и идём далее. Даже если мы ничего не понимаем, нейронка нам все описывает.
29: Нам нужно поставить Питон, нам нужно запустить командную строку для того, чтобы установить там некоторую 1 там из модулей для сбора и структурирования данных в формат, и что нужно скопировать код самого парсера добавить.
30: File и по сути запустить но только вот он пишет откройте командную строку в Папке со скриптом и выполните но что такое открыть командную строку в Папке наверное не для всех будет понятно, но в принципе вы можете это отдельно, не знаю там
31: В отдельном, может быть, сообщении у нейронки спросить, как вообще это сделать. Там, в принципе, даже несколько способов есть. Можно действительно открыть командную строку, именно находясь в определённой Папке, уже сразу, либо просто открыть командную строку и перейти в нужную папку.
32: Для удобства я все-таки закину этот парсер в корень диска ц. Для того, чтобы нужно было поменьше всего прописывать я копирую скрипт создаю txt документ закидываю туда код нашего.
33: Парсера сохраняю, переименовываю, называю его латинскими буквами парсер, даю ему расширение p i для питона, закидываю в корень диска ц соответствен.
34: Вот так вот он называется парсер точка pi.
35: Смотрим далее нам нужно открыть командную строку и установить необходимый модуль открываем, а у нас необходимый вот этот pep, кстати говоря, не установлен ну, берём просто тогда в тупую копируем.
36: Ошибку и вставляем сюда. Ну и заодно прописываем тогда уже для следующей итерации ответа в том, что у нас файл называется парсер точка pi и где он находится, что
37: Он сразу нам команду просто прописал, как его, ну, можно будет быстро активировать, да, в принципе, и все. Запускаем. Тогда нас более, чем, мне кажется, будет устраивать формат ксв. Мы его потом, когда он соберёт данные, закинем сюда же.
38: И попросим проанализировать то, как нам необходимо. А, ну вот проблема, да, в том, что у меня просто питон то не установлен, так что сейчас мы идём на официальный сайт питона, ставим его.
39: Так, смотрим, какой нам нужен. Там он, по моему, говорил, 3 точка 8, либо новее. Ну, сейчас 3, 16 получается. Нет. У нас сейчас 3, 15 получается. Самая последняя версия.
40: Открываем. Нам надо для винды установить, скачать. Скачиваем. Установщик.
41: Устанавливаем и возвращаемся к нашей команде и командной строке. Возвращаемся к командной строке. Проверяем версию. Да, все 3 точка 14, даже не 3, точка 15. Видимо, она позже будет выходить.
42: Далее идём по командам, переходим в диск ц.
43: Устанавливаем сюда вот этот вот пандас или pandas. Пока идёт установка. Смотрим, что нам требуется дальше. Нам нужно будет установить chromium для плейрайт. Но если у нас уже age, может быть, нам достаточно будет
44: Этого сейчас спросим как раз у нейронки смотрим, что далее. Просто, по сути, запустить какие проблемы найти товары. Нет. Так, так, так, ага. Блокировка капча. Ну то есть вот это вот в принципе, не нашёл товары.
45: Ну, в принципе, и ладно, если что, мы потом посмотрим, что он вообще соберёт. Блокировка капча после нескольких Десятков может потребоваться прокси. Ну да, в принципе, чтобы распределить, распределить эту нагрузку и вручную.
46: Эту капчу не проходить и не ставить там всякие модули, которые тоже автоматически будут эту капчу проходить. Типа нажми, что я не робот и он тебе нажимает. Я не робот, замечательно. А, ну ещё он пишет, что плейрайт все-таки может быть не установлен.
47: Нужно специально устанавливать это, видимо, какой-то необходимый ему модуль. Сейчас мы прочитаем, что это такое. Ну, написано, что просто chromium, который использует плейрайт, но мы напишем тогда, что у нас есть уже браузер эйч, который на базе хромиума построен, и
48: По идее он должен это поддерживать я у него спросил можем ли мы использовать браузер edge для вот этих вот всех наших задач для запуска вообще парсера а что касается прокси, то был ролик как раз по использованию прокси для обхода блокировок.
49: И там я как раз говорил, что можно использовать прокси, в том числе для распределения нагрузки на парсер. Соответственно, отсылаю вас к этому ролику и о том, как вообще можно использовать разные прокси.
50: Как их покупать и так далее. Все там есть. Поэтому сейчас мы на этом задерживаться не будем. Даже если вылезет капча, и мы, собственно, должны будем там её либо ввести, либо данные, просто не все соберутся, но возьмём те данные, которые есть, не пугайтесь.
51: Кстати, когда он написывает что-то именно на английском языке, то он просто так думает ну да, как я предполагал он пишет, что вот этот play white он и так уже заложен в age, потому что ну edge на базе хроме построен это как бы.
52: Логика он просит тогда, чтобы мы заменили 1 из строк, потому что у нас браузер edge а он предполагал, что будем использовать все-таки chromium заходим в код нашего парсера и ищем раздел браузера ну кстати он здесь.
53: Метки хорошие сделать. Типа игнорируем ошибки, консоли и так далее и так далее. Парсинг данных с карточки, с карточки товара. Вообще классно все. Даже есть. Вот парсинг данных с карточки товара, цена без скидки, цена.
54: Со скидкой. Ну смотрите, как он прям соображает, но на самом деле, скорее всего, эти данные должны быть в самом верху. То есть какой браузер мы должны вообще запускать. Ну просто берём значение браузер и просто ищем по документ.
55: Так вот она, эта строка, которую нам необходимо заменить.
56: Берём.
57: И заменяем её полностью. Так, все мы заменили, файл сохраняем. Он там же у нас лежит, да, он пишет, что хоть мы используем другой браузер, но нам все равно нужно будет подгрузить драйвера.
58: Это плейрайт, поэтому мы все равно открываем командную строку, пишем, и чтобы он это все сам установил ну и в конце есть команда, соответственно, запуска. Вот питон ц, парсер, точка pi ну да, вроде все необходимые.
59: Драйвера он скачал, все установил, поэтому мы берём нашу финальную команду. Поскольку мы уже в командной строке находимся на диске ц, то просто запускаем.
60: Так, мы видим, что он открыл. Так, ага. В общем, открылось окно браузера дополнительное, там открылся озон, и он сразу заметил, что что-то непонятное происходит, его пытаются пропарсить и
61: И потом это окно закрылось. Короче, ссылок не найдено. И вообще по нулям у нас все, поэтому это используем для нашей нейронки. Берём, копируем все это, пишем сюда и описываем вообще какая
62: Ситуация произошла, что ozon нас заметил.
63: В общем, нейронка сама сейчас подумает, как нам обойти эти ограничения, чтобы хотя бы собрать данные нескольких товаров. Ну вот, в общем, сам проанализировал, какие ошибки могут быть и что нужно исправить и полностью заменяет.
64: Парсер на вот этот вот код новый ну все, у нас есть код нового парсера мы открываем блокнот заменяем на новый код, сохраняем. Лежит он у нас там же все у нас установлено.
65: То есть, по сути, нам нужно просто запустить скрипт, заново запускаем скрипт по новой, но, по сути, никакого окна у нас нового не появилось. Вообще его нет нигде. Ну хорошо, тогда берём это за ошибку. Опи.
66: Снова в нейронку занимаемся дебагингом. Короче, да, поскольку мы закинули в корень диска ц, то нам нужны повышенные права администратора, поэтому командную строку мы новую запустим все-таки с правами админа снова запускаем коман.
67: Уже с правами админа посмотрим и снова у нас ничего не прогружается, а нет, прогружается.
68: Так.
69: Ну все, он сам уже ищет.
70: Сам че то там проматывает, как будто бы обновляет страницу или листает страницы. В общем он самостоятельно фоне это все делает. Мы можем это видеть. Он пишет, что нашёл 60.
71: 7 товаров, и он просто каждый открывает и анализирует карточку. Длиться это будет относительно долго, но я подожду.
72: Так, скрипт завершил работу. Теперь мы можем взять файл, который он нам подготовил, загрузить его и что-нибудь спросить для анализа, например.
73: Какие Бордов рекомендуешь завозить на продажу на озоне? Поскольку fail мы прикрепили, то он, собственно, будет его тоже анализировать и ссылаться на данные. Ну вот, он предложил 2 гладиатор про и fun. Вот.
74: Kids столько отзывов лидер по отзывам ну да, значит, спрос, скорее всего, будет выше, если отзывов там больше получается столько, столько стоит по цене тоже можно прикинуть. Ну, в общем, в принципе такой.
75: Большой бизнес план тоже накидал с рейтингом и всем прочим. Вот мы собрали собственный парсер на базе нейронки. У нас такой получился некий вайб кодинг и из важных моментов, которые хотел в заключении сказать, что
76: Необходимо учитывать важные нюансы, которые могут всплыть в будущем, когда вы там, не знаю, уже собрали конфигурационный файл, вашего парсера запустили, он там все проанализировал, а по итогу оказалось, что вам нужны ещё какие-то дополнительные данные, чтобы вот такого
77: Не было. Нужно заранее это все продумать. И вообще, наверное, может быть, стоит даже гипотезы разрабатывать с нейронкой изначально. То есть сказать, что у вас есть такая-то идея, вам нужны данные, но вы хотите узнать у неё
78: Какие конкретно будут данные нужны для того, чтобы принять очевидное там решение, да, какое-то бизнес решение, не знаю, там бытовое какое-то решение. В общем, в зависимости от ваших задач. Так что я рекомендую исходить из изначальной гипотезы.
79: После этого формировать некую сетку, некий список тех параметров, которые вы будете собирать, потом сформировать те источники, откуда вы будете собирать эти данные, собственно, куда вы их будете собирать, как вы их потом будете
80: Анализировать, где они вам, может быть, пригодятся, в какие промежутки времени вообще собирать эти данные. Может быть, не знаю, там эти карточки обновляются. Ну, понятно, что они там в зависимости, наверное, от времени не только года, да, если мы говорим про
81: Birdie. Но ещё от дня недели наверняка зависит. В общем, все эти факторы вам нужно будет заранее подготовить, проанализировать и уже после этого только создавать парсер. Так что на здоровье. Стройте гипотезы, собирайте данные, собирайте свои парсеры, анализи.
82: Зируйте эти данные, стройте бизнес модели.