docling-project
Краткое назначение
docling-project — локальный конвертер документов в Markdown на базе Docling.
Бизнес-задача
Перед RAG, knowledge base, аудитом документов или миграцией материалов часто нужно привести PDF, DOCX, PPTX, XLSX, HTML и изображения к читаемому текстовому формату. Проект дает повторяемый CLI-процесс для такой подготовки.
Техническое решение
Скрипт принимает входной файл или директорию, определяет формат, конвертирует документ в Markdown, при необходимости сохраняет JSON и поддерживает batch-обработку. Это удобно как отдельный utility tool или как первый шаг document ingestion pipeline.
Архитектура
- CLI для одиночной и пакетной обработки;
- Docling как conversion engine;
- output в Markdown и optional JSON;
- configurable image handling;
- verbose logging для диагностики конвертации;
- структура для examples и tests.
Стек
Python, Docling, Markdown, JSON, batch processing, document parsing.
Ограничения и риски
Качество результата зависит от исходного документа, OCR/изображений и таблиц. Для чувствительных данных важен локальный режим обработки и контроль output-файлов.
Что показывает в портфолио
Document automation, подготовку данных для RAG/knowledge workflows и практичный подход к локальной обработке файлов без внешнего облака.
Ссылка
https://github.com/NohchiyBors/docling-project