Ручная сортировка документов не нужна
Что делает
Автоматизация Раскладка документов решает две связанные задачи: распознаёт тип файла и отправляет его в правильное место файлового хранилища. AI-агент запускается на каждый новый документ, который попадает во входящую папку или приходит вложением в почту. Работа идёт круглосуточно, без ручного триггера.
Что делает AI-агент
- Получает файл из входящей папки файлового хранилища или почтового ящика — триггер срабатывает на событие «новый файл».
- Извлекает текстовый слой: OCR для сканов и фотографий, парсинг для PDF и DOCX, текст как есть для TXT, RTF, EML.
- Классифицирует документ по типу через LLM — договор, счёт, акт сверки, кадровый документ, коммерческое предложение, резюме, выписка из банка, доверенность.
- Извлекает ключевые метаданные под тип документа: контрагент, дата, номер, сумма для финансовых; ФИО, должность, тип справки для кадровых.
- Формирует понятное имя файла по шаблону — например, «2026-04-24_Договор_ООО-Ромашка_№142.pdf» или «2026-04-24_Счёт_Контур_№СФ-00128.pdf».
- Перемещает файл в целевую папку по правилам, заданным при настройке: /Договоры/2026/Действующие/, /Счета/Входящие/, /Кадры/Документы-сотрудников/Иванов-И-И/.
- Записывает событие в лог: кто инициатор, какой тип распознан, с какой уверенностью, куда перенесено, timestamp для аудита.
- Уведомляет ответственного менеджера при низкой уверенности распознавания или когда тип документа не попал ни в одну из категорий — файл уходит в папку «На разбор».
Чего автоматизация не делает
- Не принимает юридические или финансовые решения по содержимому — только классифицирует и раскладывает, не подписывает, не согласовывает, не одобряет платёж.
- Не проверяет корректность реквизитов в документе: наличие подписи, печати, соответствие шаблону. Это остаётся работой бухгалтера, юриста или отдела качества.
- Не заменяет бизнес-процесс согласования входящего документа. Если договор должен пройти через юриста и финансового директора, маршрут согласования живёт в отдельной системе, а Раскладка лишь обеспечивает, что документ лежит там, где его найдут.
Как работает
Раскладка документов строится на связке трёх слоёв: триггер на файловое хранилище, обработка файла через LLM-агент, запись результата обратно в хранилище. Low-code стек позволяет собрать пайплайн за несколько дней без написания отдельного backend-сервиса.
Технический поток
- Триггер в low-code платформе или Zapier слушает входящую папку в Google Drive, Dropbox, OneDrive или S3. При появлении нового файла передаёт его содержимое в следующий шаг.
- Шаг извлечения текста: для PDF используется text extraction, для сканов — OCR (Tesseract, Google Vision, AWS Textract), для офисных форматов — парсеры DOCX и XLSX.
- Шаг классификации: текст файла передаётся в AI-модель с промптом, описывающим типы документов компании и ожидаемый JSON-ответ вида {type, confidence, metadata}.
- Шаг валидации: если confidence ниже заданного порога, файл уходит в папку «На разбор» и создаётся задача в Slack или Notion.
- Шаг именования: на основе извлечённых метаданных формируется новое имя файла по шаблону, заданному бизнесом.
- Шаг перемещения: файл копируется в целевую папку, оригинал удаляется или переносится в архив «обработано».
- Шаг логирования: запись в таблицу Airtable, Google Sheets или Notion для аудита — дата, тип, контрагент, путь, confidence.
Этапы внедрения
- Неделя 1 — дискавери. Собираем список типов документов компании, текущую структуру папок, правила именования, текущих ответственных. Фиксируем ключевые типы, покрывающие основную массу входящего потока.
- Неделя 2 — прототип. Разворачиваем оркестратор, подключаем файловое хранилище, пишем промпт для классификации, тестируем на репрезентативной выборке реальных документов.
- Неделя 3 — настройка правил. Докручиваем шаблоны имён, маппинг «тип → папка», пороги confidence, обработку исключений (неопознанные документы, дубликаты, пустые файлы).
- Неделя 4 — пилот и запуск. Запускаем на живой поток с параллельным ручным контролем в первые дни, фиксируем расхождения, итерируем промпт.
Компоненты решения
Слой | Инструмент | Задача |
|---|---|---|
Оркестрация | low-code платформа или Zapier | Триггер и пайплайн шагов |
Хранилище | Google Drive, Dropbox, OneDrive, S3 | Источник и целевое место |
OCR | Google Vision, AWS Textract, Tesseract | Текст из сканов и фото |
LLM | языковая модель | Классификация и извлечение метаданных |
Лог | Airtable, Google Sheets, Notion | Аудит и отчётность |
Уведомления | Slack, email | Эскалация неопознанных файлов |
После стабилизации пайплайна решение работает в фоновом режиме, требует периодической проверки лога на дрифт качества — когда появляется новый тип документа или контрагент меняет формат.
Что нужно
Перед запуском Раскладки документов нужно подготовить три слоя: данные, доступы и людей. Без одного из них пилот буксует.
Данные и доступы
- Файловое хранилище с API — Google Drive, Dropbox, OneDrive или S3-совместимое. Доступ на чтение и запись к соответствующим папкам.
- Входящая папка, в которую попадают файлы — либо вручную от менеджеров, либо через интеграцию с почтой, либо выгрузкой из других систем.
- Список типов документов, которые реально встречаются в потоке, и правил их хранения — даже если это сейчас живёт в голове офис-менеджера.
- Образцы по каждому типу — несколько реальных файлов, чтобы настроить классификатор и проверить качество на этапе прототипа.
- API-ключ к LLM-провайдеру (Anthropic для AI-модели) и к OCR-сервису, если в потоке есть сканы.
- Аккаунт workflow-движка (self-hosted или cloud) или Zapier с достаточным лимитом операций под ожидаемый месячный объём.
Готовность команды
- Владелец процесса — офис-менеджер, руководитель операций или юрист, который решает, что считать корректной раскладкой.
- Инженер или интегратор, который соберёт пайплайн в workflow-движке и напишет промпты — достаточно одного специалиста уровня middle.
- Согласие пользователей на изменение пути файлов. Если команда привыкла складывать документы вручную, важно договориться о новой структуре до запуска, а не после.
Таймлайн
- Формат weekend-проекта: 2-4 недели от старта до продакшена при одном инженере на частичной загрузке.
- Первая неделя — дискавери и сбор образцов, вторая — прототип, третья — настройка и тесты, четвёртая — пилот и запуск с параллельным ручным контролем.
Боли
- Хаос в документах
- Повторяющиеся рутинные задачи
FAQ
Сколько времени занимает внедрение?
Раскладка документов запускается за 2-4 недели. Первая неделя уходит на сбор типов документов и образцов, вторая — на прототип в оркестраторе, третья — на настройку правил и тесты на реальной выборке, четвёртая — на пилотный запуск с параллельным ручным контролем. Один инженер на частичной загрузке справляется без привлечения внешней команды.
Что делать, если у нас нет единого файлового хранилища с API?
Если входящие документы сейчас лежат в почте или на локальном диске без единой точки входа, перед запуском Раскладки нужно выбрать файловое хранилище — подойдёт Google Drive, Dropbox, OneDrive или S3. Миграция старых файлов не обязательна: автоматизация работает только с новым потоком, а существующий архив остаётся на своих местах до отдельного проекта переноса.
Какие риски у автоматической раскладки и что ломается?
Главный риск — неверная классификация редких или нестандартных документов. Для таких случаев пайплайн отправляет файл в папку «На разбор» и уведомляет ответственного, не выбрасывает и не теряет. Второй риск — изменение форматов от контрагентов; это решается мониторингом confidence и обновлением промпта. Потери данных исключены: оригинал сохраняется до подтверждения успешной раскладки.
Подходит ли решение для нашей отрасли?
Раскладка документов работает универсально — везде, где есть входящий поток файлов смешанных типов. Прямые кейсы: юридические фирмы (договоры, доверенности, судебные акты), консалтинг (контракты, отчёты клиентов, НДА), профессиональные сервисы и агентства (ТЗ, акты, счета). Для отраслей со специфическими документами — медицина, логистика, недвижимость — под типы настраивается отдельный промпт.
Насколько точно AI классифицирует документы?
Качество классификации зависит от выборки на этапе настройки. На типовых классах документов при подготовленном промпте AI-модель показывает стабильное качество на большинстве стандартных форм. Файлы с низкой уверенностью уходят на ручной разбор — ложной раскладки молча не происходит. После первого месяца работы промпт дорабатывается по фактическим ошибкам, и точность растёт.
Работает ли это со сканами и фотографиями документов?
Да, сканированные документы и фото договоров обрабатываются через OCR-слой — Google Vision, AWS Textract или Tesseract для self-hosted решений. Качество зависит от разрешения и читаемости скана; для плохо читаемых файлов агент сразу отправляет их в папку «На разбор». Правило простое: документ, который человек не может прочитать, AI тоже не классифицирует.
Хотите такую автоматизацию в своём бизнесе?
Запишем на бесплатный аудит — покажем, как это будет работать именно у вас.