Назад к портфолио
document processing / data extraction

docling-project

Локальный конвертер документов в Markdown для PDF, DOCX, PPTX, XLSX, HTML и image-based inputs на базе Docling.

docling-project

Краткое назначение

docling-project — локальный конвертер документов в Markdown на базе Docling.

Бизнес-задача

Перед RAG, knowledge base, аудитом документов или миграцией материалов часто нужно привести PDF, DOCX, PPTX, XLSX, HTML и изображения к читаемому текстовому формату. Проект дает повторяемый CLI-процесс для такой подготовки.

Техническое решение

Скрипт принимает входной файл или директорию, определяет формат, конвертирует документ в Markdown, при необходимости сохраняет JSON и поддерживает batch-обработку. Это удобно как отдельный utility tool или как первый шаг document ingestion pipeline.

Архитектура

  • CLI для одиночной и пакетной обработки;
  • Docling как conversion engine;
  • output в Markdown и optional JSON;
  • configurable image handling;
  • verbose logging для диагностики конвертации;
  • структура для examples и tests.

Стек

Python, Docling, Markdown, JSON, batch processing, document parsing.

Ограничения и риски

Качество результата зависит от исходного документа, OCR/изображений и таблиц. Для чувствительных данных важен локальный режим обработки и контроль output-файлов.

Что показывает в портфолио

Document automation, подготовку данных для RAG/knowledge workflows и практичный подход к локальной обработке файлов без внешнего облака.

Ссылка

https://github.com/NohchiyBors/docling-project