如何从Google Reader导出带星号的项目

如果你对谷歌阅读器(Google Reader)宣布消亡的反应是尖叫“但我的星级项目!”,那么这就是为你准备的教程。请继续阅读,我们将向您展示从Google Reader中提取所有星级文章的多种方法。

我为什么要这么做?

谷歌阅读器将于7月1日关闭。如果你和全球数以百万计的RSS粉丝一样,是谷歌阅读器的粉丝,那么你很有可能会使用星号功能来标记文章,以便留住、稍后阅读或用于其他目的。

尽管谷歌阅读器(Google Reader)即将崩溃,但如果你想确保所有这些星级文章都是安全无恙的,你需要执行几个小步骤,以确保数据在你手中,而不是留在谷歌服务器上腐烂。

当您完成本教程的学习后,您将(至少)拥有一个包含所有星号项目的文件,并且(取决于您决定跟随教程的哪个部分)您的星号项目的格式更加用户友好。

然而,有一件事是任何导出或自动化魔术都无法帮助的,那就是实际处理加星文章的内容。如果您多年来一直在主演文章以供以后阅读,那么现在您可能会对此过程生成的导出文章数量感到震惊。在接下来的几周里,你可能只需要每天留出一点时间来一点一点地挖掘由此产生的转储。

使用Google外卖导出您的Google Reader数据

首先要做的就是把你所有的谷歌阅读器数据直接复制到你的手中。这样一来,无论你的阅读器数据将来在谷歌的服务器上发生什么变化,你都会有一个副本可以使用。

Google外卖是一个很棒的工具,可以从各种谷歌服务中提取你的数据,但我们只对Reader感兴趣。点击此处访问谷歌外卖工具的阅读器部分,计算外卖文件的大小需要一些时间。完成后,单击创建存档。

尽管它不会导出你的整个谷歌账户,而只是其中的一小部分,但这个过程花费了令人惊讶的长时间。我们建议勾选“准备好了给我发邮件”,然后去喝杯咖啡。

全部完成后,单击右下角出现的Download(下载)按钮。

继续将存档解压到工作目录(如My Documents),并将存档本身放在安全的位置。存档文件的排列方式如下:

存档中有两种文件类型:JSON和XML。JSON(JavaScript Object Notation)文件只是一种数据交换格式,而XML(Extensible Markup Language,可扩展标记语言)文件是标记文档的一种便捷方式,从而使文档既是机器可读的,也是人类可读的。对于本教程,我们最感兴趣的文件是starred.json文件,因为它包含星号项目的所有条目。

然而,在将数据从Google Reader中解放出来并转移到更环保的地方这一宏伟计划中,同样重要的是scriptions.xml文件。此文件包含您所有的RSS订阅,如果您希望将所有旧订阅从Google Reader导入到新的RSS应用程序中,此文件将用于执行此操作。一定要把它(和你从谷歌外卖下载的原始档案)放在一个安全的地方。

将带星号的项目转换为书签

处理JSON文件最简单的方法之一是使用JSONview(Firefox和Chrome都可以使用的扩展)。此方法最适合Google Reader中带有少量星号项目(少于1,000个)的读者。

为您各自的浏览器安装扩展,然后只需将starred.json文件拖放到新的浏览器窗格中。将生成的文件另存为HTML文档。然后,您可以右转并将HTML文档导入到您选择的Web浏览器中,它会将所有链接作为新书签导入。

然而,这种技术有两个缺点。首先,你会在书签文件中找到一些重复的URL,因为你经常看到的文章(比如How-to Geek中的文章)的域/主源URL会多次出现。这有点烦人,但没什么大不了的。

第二个缺点是,对于拥有大量星级项目的人(我们中拥有成千上万个星级项目的人)来说,这会破坏交易;当处理非常庞大的HTML导入时,大多数情况下,它只会失败,永远不会完成。显然,对于Reader高级用户来说,这是一个非常不令人满意的解决方案,因为它永远不会完成您的星级项目的导入。如果你是一个高级用户,你有成千上万的星级物品要处理,将它们作为书签导入并不能解决问题。

将带星号的项目转换为单独的链接(并导入到Evernote)

对于用户需要的那种强大的处理能力(这种处理可以在几分钟内处理5000多个星级项目),我们求助于Python来帮助我们处理我们庞大的列表。

感谢两位Google Reader高级用户Paul Kerchen和Davide Della Casa,他们想要导出他们所有的旧星级项目,我们有两个非常方便的Python脚本可以帮助我们做以下两件事之一:1)将所有星级项目条目转换为不同的HTML文档和/或2)将我们所有的星级项目导入Evernote。

对于这两种技巧,您需要在系统上安装Python。获取适用于您的操作系统的Python副本,并在继续之前安装它。

安装Python之后,访问Kerchen/Casa的Google Reader Export项目的站点,并将export2HTMLFiles.py和export2enex.py文件保存到您将starred.json文件解压到的同一文件夹中。

如果要将所有带星号的项目转换为不同的HTML文件,可以使用export2HTMLFiles.py,方法是在存储starred.json文件的目录中执行以下命令:

(如果您的机器上没有将python指定为系统范围的命令,请将“python”替换为python可执行文件的完整路径,例如C:\Python2.7\python.exe)

根据您拥有的星形物品的数量,此过程可能需要几秒钟到几分钟不等。在我们的测试中,大约花了三分钟的时间撕毁了12000个星级项目。

当它完成时,你将有一系列编号和命名的超文本标记语言文件(例如,1到10000你选择了.html的某篇文章,或者你选择了.html的其他一些文章)。查看所有这些目录的最简单方法是只需在Web浏览器中加载本地目录。

这是从Google Reader和JSON文件中释放星级项目的好方法,但是正如我们在本教程前面提到的,如果您多年来一直保存文章以备以后阅读,那么您将面临一项艰巨的任务。

您可以更好地管理此任务的一种方法是使用Evernote作为工作区来排序、标记和可能删除不再有用的星形项目。

有两种方法可以将项目导入Evernote。您可以使用Import文件夹导入我们刚才创建的HTML文件。在您的Evernote桌面客户端中,您可以转到“工具”->“导入文件夹”,然后为HTML文件创建一个转储文件夹。我们在/Reader/work文件夹中创建了一个名为Imports的子文件夹,并在Evernote中创建了一个名为Starred Items的新笔记本。通过将HTML文件拖放到/Reader/Imports/文件夹中,我们可以将它们作为Evernote文件夹中带星号的不同注释导入。它们被永久地储存在那里,供我们闲暇时查看。

或者,如果您希望一下子将所有带星号的项目转换为原生Evernote笔记本,您可以使用下载的第二个Python脚本export2enex.py来完成此操作。这样做的好处是,它在保存文档格式方面做得稍微好一些。

在starred.json文件所在的文件夹中,执行以下命令:

获取生成的文件StarredImport.enex,并使用File->Import->Evernote Export Files将其导入到您的Evernote桌面客户端。

在这一点上,您已经从Google Reader中完全释放了您的星级项目,并且您已经准备好开始处理(可能很冗长的)工作--对堆放的内容进行排序。

有没有一种聪明的方法来操作JSON文件并提取带星号的项目?加入下面的讨论,并与其他读者分享您的提示和技巧。

相关文章