Назад к портфолио
data / registry workflow

reestr.curs.kz

Проект для работы с реестровыми данными и прикладной автоматизацией вокруг reestr.curs.kz, с фокусом на структурирование и обработку информации.

reestr.curs.kz

Краткое назначение

Модульный парсер реестра предприятий Казахстана.

Бизнес-задача

Для B2B research и data enrichment нужны структурированные данные о предприятиях. Проект автоматизирует сбор, нормализацию, валидацию, дедупликацию и экспорт таких данных.

Техническое решение

Парсер обходит листинг, читает карточки предприятий, нормализует данные, валидирует поля, дедуплицирует записи по БИН и экспортирует результат в несколько форматов.

Архитектура

  • configuration layer;
  • HTTP client;
  • listing parser;
  • company card parser;
  • models;
  • processors;
  • exporters;
  • storage layer;
  • retry/rate limiting.

Стек

Python, HTTP client, JSON/CSV, SQLite, PostgreSQL, retry logic, rate limiting.

Экспорт

  • JSON;
  • JSONL;
  • CSV;
  • SQLite;
  • PostgreSQL.

Ограничения и риски

Парсинг зависит от структуры сайта и ограничений источника. Для устойчивости нужны rate limiting, retry logic и регулярная проверка селекторов.

Что показывает в портфолио

ETL design, scraping architecture, качество данных, дедупликацию и export-ready data pipelines.