如何在Linux中使用命令行将PDF文件转换为可编辑文本

您可能希望将PDF文件转换为可编辑文本的原因有多种。也许您需要修改一个旧文档,而您拥有的只是它的PDF版本。在Windows中转换PDF文件很容易,但如果您使用的是Linux怎么办?

别担心。我们将向您展示如何使用名为pdftotext的命令行工具轻松地将PDF文件转换为可编辑的文本,该工具是“poppler-utils”包的一部分。此工具可能已安装。要检查您的系统上是否安装了pdftotext,请按“Ctrl+Alt+T”打开一个终端窗口。在提示符下键入以下命令,然后按“Enter”键。

注意:如果我们说要在本文中键入内容,并且文本两边有引号,请不要键入引号,除非我们另有说明。

如果未安装pdftotext,请在提示符下键入以下命令,然后按“Enter”。

在系统提示时键入您的密码,然后按“Enter”键。

Poppler-utils包中有几个工具可用于将PDF转换为不同格式、操作PDF文件以及从文件中提取信息。

以下是将PDF文件转换为可编辑文本文件的基本命令。按“Ctrl+Alt+T”打开终端窗口,在提示符下键入命令,然后按“Enter”。

更改每个文件的路径,使其与原始PDF文件的位置和名称以及要保存生成的文本文件的位置相对应。此外,将文件名更改为与您的文件名相对应。

文本文件已创建,并且可以像在Linux中打开任何其他文本文件一样打开。

转换后的文本可能在您不想要的位置有换行符。在PDF文件中的每一行文本之后都会插入换行符。

您可以保留文档的布局(页眉、页脚、分页等)。从转换后的文本文件中的原始PDF文件中使用“-Layout”标志。

如果只想转换PDF文件中的一系列页面,请使用“-f”和“-l”(小写“L”)标志指定要转换的范围内的第一页和最后一页。

要转换使用所有者密码保护和加密的PDF文件,请使用“-opw”标志(标志中的第一个字符是小写字母“O”,而不是零)。

将“密码”更改为用于保护要转换的原始PDF文件的密码。确保“password”周围有单引号,而不是双引号。

如果PDF文件使用用户密码进行保护和加密,请使用“-upw”标志而不是“-opw”标志。命令的其余部分是相同的。

您还可以指定应用于转换文本的行尾字符类型。如果您计划在不同的操作系统(如Windows或Mac)上访问该文件,这将特别有用。为此,请使用“-eol”标志(标志中的中间字符是小写字母“O”,而不是零),后跟空格和要使用的行尾字符类型(“unix”、“dos”或“mac”)。

注意:如果您没有为文本文件指定文件名,pdftotext会自动使用PDF文件名的基础并添加“.txt”扩展名。例如,“file.pdf”将转换为“file.txt”。如果文本文件指定为“-”,则转换后的文本将发送到标准输出,这意味着文本将显示在终端窗口中,而不是保存到文件中。

要关闭终端窗口,请单击左上角的“X”按钮。

有关pdftotext命令的详细信息,请在终端窗口的提示符下键入“man page pdftotext”。

相关文章