Как скопировать текст из PDF с сохранением форматирования

я PDF они являются одними из лучших инструментов для обмена сложными документами. В отличие от ePub они хорошо управляют форматированием и изображениями, по сравнению с HTML ими легче управлять и делиться ими. Но у них есть проблема, они негибкие. Или, что лучше, их ценность заключается в том, что мы можем создать PDF-файл с уверенностью, что будет делиться одним и тем же документом независимо от того, какая программа использовалась для его чтения. Проблема возникает, когда мы хотим работать с текстом, извлеченным из PDF. Если, например, мы скопируем текст в столбец, мы получим странное форматирование: после каждой строки будет «новая строка», а нам лучше оставить точки вместе. Или часто мы теряем жирный шрифт, курсив и различные специальные знаки. Как решить эту проблему? Как мы можем копировать текст из файла PDF с сохранением его форматирования?

Ответ

Общее изображение в PDF-файлах
Чтобы ответить на этот вопрос, мы должны сначала понять, что такое PDF. PDF – это формат, созданный для имитации печатной страницы. И, как любая печатная страница, это только формат вывода, а не ввод. Или, другими словами, это только для чтения информации, а не для входа или взаимодействия с нами. В основном PDF-файлы – это карты, содержащие точное положение символов (букв, знаков препинания, специальных символов и т. Д.) И изображений. Большинство PDF-файлов никоим образом не запоминают конец слова или конец предложения: это было бы пустой тратой памяти для того, для чего предназначен документ.
Однако верно и то, что в некоторых PDF-файлах используются более современные технологии, способные сохранять эту информацию. Но нам должно быть вдвойне повезло, если мы сможем его использовать. Во-первых, файл должен быть создан для хранения этой информации; и, во-вторых, программа для чтения PDF-файлов, которую мы используем, должна правильно интерпретировать необычный синтаксис.
В любом случае со «стороны PDF» ничего не поделаешь, формат не предусматривает копирование текста с сохранением его форматирования. Но мы можем вмешаться и на «программной стороне». Нам нужен своего рода «искусственный интеллект», способный извлекать не только отдельные символы, но и понимать, какие из них составляют слово, например предложение, например абзац и так далее. Но все не так просто, как может показаться. Также потому, что каждый PDF-документ может быть выполнен множеством различных способов, некоторые из которых упрощают экспорт, другие чрезмерно усложняют его. Не говоря уже об особо защищенных PDF-файлах. В любом случае от такой операции не следует ожидать идеальных результатов. Действительно, если вы хотите услышать мое мнение, по возможности получите исходный документ: в конце концов, это единственный способ получить хороший результат.
Однако иногда невозможно сделать что-либо, кроме просмотра файла PDF. В этом случае вы можете попробовать преобразовать PDF-файл в HTML, а затем извлечь из него текст. Если он у вас уже есть, вы можете его использовать Adobe Acrobat Professional, но не бесплатный проигрыватель, самое дорогое решение Adobe. Но не тратьте деньги только на это, боги тоже есть бесплатные программы, не идеальный, но функциональный. Мы можем использовать, например, Калибр (для конвертации PDF в формат RTF), PDF в HTML или текстовый процессор AbiWord. А для тех, кто использует LibreOffice или OpenOffice, также есть плагины, созданные специально для этой цели.
Однако помните одну вещь: копирование и вставка текста из PDF с сохранением его форматирования никогда не бывает легким делом, и результаты могут быть разными, от «хороших» до «плохих».