Как конвертировать отсканированный PDF в Word (и чем скан отличается)
Краткий ответ: отсканированный PDF не станет редактируемым Word без OCR
Обычный PDF хранит текст как настоящие символы — буквы, слова, шрифты и их расположение сохранены внутри файла. Наш конвертер на /convert/pdf-to-word считывает эти символы и восстанавливает их в редактируемый документ Word. Если вы можете выделить и скопировать предложение в своей программе просмотра PDF, значит, этот текст настоящий, и он сконвертируется.
Отсканированный PDF — это другое. Когда вы сканируете бумажную страницу или фотографируете документ, результатом становится изображение — сетка пикселей, которая выглядит для ваших глаз как текст, но не содержит ни одного настоящего символа. Здесь нечего считывать и нечего восстанавливать, поэтому конвертация возвращается пустой.
Чтобы получить редактируемый текст из скана, сначала нужен OCR, который анализирует изображение и угадывает каждую букву. Это отдельный шаг, который мы пока не поддерживаем, поэтому сейчас отсканированный PDF здесь нельзя конвертировать в редактируемый Word. Мы предпочитаем сказать вам об этом сразу, чем выдать пустой документ.
Как за 5 секунд понять, что ваш PDF — это скан
Перед конвертацией проведите один быстрый тест. Откройте PDF в любой программе просмотра (или в браузере) и попробуйте выделить строку текста мышью, как будто собираетесь её скопировать.
- Если текст выделяется слово за словом и вы можете его скопировать — это PDF с настоящим текстом. Он сконвертируется в Word.
- Если курсор просто рисует синий прямоугольник поверх всей страницы и ничего не выделяется как текст — это скан (изображение), и ему нужен OCR.
- Ещё один признак: приблизьте картинку. Настоящий текст остаётся чётким при любом увеличении; скан становится размытым или пикселизированным, как фотография.
- Быстрая проверка происхождения: PDF, созданные в Word, Google Docs, Pages или командой «Печать в PDF», почти всегда содержат настоящий текст. PDF со сканера, копировального аппарата или приложения для сканирования на телефоне почти всегда являются изображениями.
Почему наш конвертер честен насчёт пустых результатов
Если вы загрузите отсканированный PDF на /convert/pdf-to-word, инструмент ищет выделяемый текст, не находит его и останавливается с понятным сообщением вместо того, чтобы выдать пустой .docx. Сообщение говорит, что файл выглядит как скан и что OCR пока не поддерживается.
Мы делаем это намеренно. Множество инструментов с радостью «сконвертируют» скан и вернут пустую страницу или файл Word с одним полностраничным изображением, которое вы всё равно не сможете редактировать. Это пустая трата вашего времени. Мы предпочитаем сказать «это не сработает, и вот почему», чтобы вы могли найти правильный следующий шаг.
Что конвертируется хорошо, а что нет
Когда ваш PDF содержит настоящий текст, инструмент считывает каждую строку, сохраняет размер шрифта, определяет жирность и курсив по встроенному шрифту, а затем восстанавливает абзацы в чистый, редактируемый .docx, который вы можете открыть в Word, Google Docs или Pages.
- Конвертируется хорошо: письма, резюме, отчёты, договоры, эссе и другие текстовые документы, экспортированные из текстового редактора.
- Конвертируется приемлемо: простые одноколоночные макеты с заголовками и абзацами.
- Может быть не идеально: сложные многоколоночные макеты, объёмные таблицы и точные отступы — слова передаются, но макет может не совпадать в точности с оригиналом.
- Не поддерживается: отсканированные PDF (только изображения, нужен OCR), а также надёжное восстановление изображений и сложных таблиц.
Честные ожидания насчёт макета
Даже с PDF, содержащим настоящий текст, это конвертация, точная по тексту, а не пиксельно-точная копия. Цель — вернуть вам редактируемые слова с разумной структурой абзацев и размерами шрифтов, а не воссоздать каждую колонку, границу таблицы и графику в точности.
Для обычного письма или отчёта результат обычно выглядит очень близко к оригиналу. Для журнальной страницы с тремя колонками, боковыми блоками и таблицей данных ожидайте, что текст передастся корректно, но макет потребует некоторой доработки в Word. Всегда открывайте .docx и просматривайте его, прежде чем отправлять дальше.
Что делать, если у вас сейчас отсканированный PDF
Пока OCR здесь недоступен, у вас есть несколько честных вариантов для скана:
- Найдите оригинал. Если документ пришёл из цифрового источника, запросите оригинальный Word, Google Docs или текстовый PDF — он конвертируется чисто, без всякого OCR.
- Экспортируйте заново вместо сканирования. Если вы управляете исходным приложением, используйте «Экспорт в PDF» или «Печать в PDF» вместо сканирования распечатки; это сохранит текст настоящим.
- Перепечатайте короткие документы. Для одностраничной формы или письма набрать текст заново часто быстрее, чем исправлять ошибки OCR.
- Пока используйте отдельный инструмент OCR, а затем верните полученный PDF с настоящим текстом сюда для конвертации в Word.
Приватно и бесплатно, ничего не загружается
Конвертируется ваш PDF или нет, он никогда не покидает ваш компьютер. Конвертация выполняется полностью в вашем браузере с помощью локального кода, поэтому файл считывается, обрабатывается и сохраняется на вашем собственном устройстве — он никогда не загружается на сервер. Это важно для договоров, выписок и всего, что вы не хотели бы оставлять на чужой машине.
Нет регистрации, нет водяного знака на результате и нет дневного лимита. Откройте /convert/pdf-to-word, перетащите PDF с настоящим текстом и скачайте редактируемый .docx.
Как конвертировать отсканированный PDF в Word (и чем скан отличается)
Открыть редакторFAQ
Могу ли я здесь конвертировать отсканированный PDF в редактируемый документ Word?
Пока нет. Отсканированный PDF — это изображение страницы без выделяемого текста, поэтому восстанавливать в Word нечего. Для конвертации потребовался бы OCR (оптическое распознавание символов), который этот инструмент пока не поддерживает. PDF, содержащие настоящий, выделяемый текст, отлично конвертируются на /convert/pdf-to-word.
Как узнать, мой PDF — это скан или настоящий текст?
Откройте его в любой программе просмотра и попробуйте выделить строку текста мышью. Если выделяются отдельные слова и вы можете их скопировать, это настоящий текст, и он сконвертируется. Если вы можете только нарисовать прямоугольник поверх страницы и ничего не выделяется как текст — или картинка выглядит размытой при увеличении — это отсканированное изображение, и ему нужен OCR.
Мой сконвертированный файл Word получился пустым. Что произошло?
PDF почти наверняка является сканом (изображением страницы), в котором нет текста для чтения. Наш инструмент обнаруживает это и останавливается с сообщением вместо того, чтобы выдать пустой документ. Используйте PDF, который был экспортирован из Word, Google Docs или похожего приложения — они содержат настоящий текст, который конвертируется.
Будет ли файл Word выглядеть точно так же, как мой оригинальный PDF?
Для обычных текстовых документов, таких как письма и отчёты, он обычно выглядит очень близко — текст, размеры шрифтов и жирность/курсив сохраняются, абзацы восстанавливаются. Для сложных многоколоночных макетов и объёмных таблиц слова передаются, но точный макет может сдвинуться, поэтому просмотрите и приведите в порядок .docx в Word перед отправкой.
Конвертация PDF в Word бесплатная и приватная?
Да. Она выполняется на 100% в вашем браузере, поэтому ваш файл никогда не загружается ни на какой сервер — он всё время остаётся на вашем устройстве. Нет регистрации, нет водяного знака и нет дневного лимита.