破解Google book方法的探讨

这几日,受朋友之托,帮他查询一些英文电子书籍,而这也是我近几日无暇更新博客的主要原因。

的确,我积累了一定量的英文图书,不过这些书多数是“碰到”而不是“找到”的。如何“碰”呢?自然是通过RSS阅读器啦,订阅了不少中文期刊+外文资料站+国外博客,自然会在第一时间(或者是第二时间)得到好书的下载地址。而“找书”则要花费更多的心血,却还不一定能有多大收获。

这次找书就是这样,忙了几天也没有像样的结果,,水平有限,实在愧对那位朋友。

不过,我认认真真研究了一下Google Book,这倒也可算作一大收获。

什么是Google Book?

Google Book是Google推出的图书计划,前身是Google Print。Google想要打造全球最大的电子图书馆,实际上是图书检索系统。换句话说,Google为了避免可能发生的版权纠纷,并不提供电子书的下载,只是提供有限预览,目的是让读者“看好了去书店购买”。

每本书的内容都是不完整的?

不知大家使用过“读秀”么?只要在读秀的检索系统中可以“试读”的图书,都可以找到电子版。明白了吧?如果Google扫描纸质图书,难道会刻意留下几页?只是我们在网站中能看到的预览版本,是经过处理(限制其中一部分页面访问权限)的而已。

使用Google Book遇到的问题和解决方法

1、我能看到完整的图书么?

曾见某网友提到,用不同IP登陆,“限制阅读”页面是不一样的。即,Google是对不同的人有不同的限制,于是通过更换IP(使用代理,或者ADSL用户“重新拨号”即可)即可搞定看完整图书的问题。不过,经过我的尝试,却没有发现此类情况。由于研究Google Cookie的资料大多是2007年以前Google Print时代的成果,貌似现在已经失效,不知那位高人有高招?

2、为什么我只能看几页?

虽然“限制阅读”所能限制的量一般不超过20%,但由于Google对同一IP的预览页数有限制(大概三两页,中文图书有的可能会多一些,不知何故),故而经常给我们带来不便。不过这个问题好解决,只需要在页面右上角“在此书中搜索”中输入某一常见关键词(这和书籍种类有关了,比如桥梁工程,就搜索“桥”),即可看到带有此关键词的所有页面,而这些页面的前后几页也就都能看到了。

有人尝试搜索 1 or 2 or 3 or 3 or 5  ,搜索页码,更加奏效。

我能把Google Book上的电子书下载下来么?

这也是我正在尝试的工作。完成这项任务,需要两个步骤:第一,需要得到书中每页图片的下载地址;第二,把这些图片下载下来。

这其实一点也不简单,因为Google不会让我们轻易得逞……

方法1:firefox+Greasemonkey

步骤:英文好的朋友,可参考这里。其他人可向下看:

  1. 打开Firefox,没有的话去下载一个;
  2. 通过firefox,打开这个网址,安装Greasemonkey插件。【注】此插件的功能是允许执行一些自定义的JS脚本,实现高级的网络功能。
  3. 打开这个页面,点击右上角的“Install”按钮,安装Google Book Downloader脚本。
  4. 安装后,重新打开图书的页面,在右上角出现"Download"按钮,当然是要按下去啦。
  5. 随后,程序自动查找可以下载的书籍图片下载地址。

本插件的功能,也就只能达到“获取下载地址”了,这点请注意。下载的时候,可以使用Flashget,迅雷(尽量少用),或者DownThemAll插件。期间若遇到无法下载,那就是代理的问题了,不再此文讨论范围之内。

方法2:使用Google Book Downloader下载

这和上面提到的不一样,这次可是一个现成的软件,集合了检索页面+代理下载的整套功能。官方网站在这里,安装步骤如下:

  1. 确认你已经安装了Microsoft .net Framework 3.5 SP1 。如果没有,则到这里下载安装。需要注意的是,这个软件安装时间非常长~
  2. 下载并安装GBD
  3. 此软件为绿色软件,解压后运行mgbd.exe即可。
  4. 在Book Code 里,输入书籍ID,然后点击CHECK,开始检索图书。
  5. 检索完毕(有时程序不停止,自己看差不多了就STOP),点击Download all开始下载。

【注】Book ID的获取,看图书链接地址,举例:http://books.google.com/books?hl=zh-CN&lr=&id=0u5G8E3uPUAC&oi=fnd&pg=PA1&ots=oo670o8cZ0&sig=SHw29x_8OJxDtdh68uD-6pL3yOA#PPP1,M1

红色的部分,就是ID,在软件中输入0u5G8E3uPUAC即可。

如果你还有其他好方法,欢迎与我分享啊。

*欢迎转载,转载请标明来源:十千牛,文章地址: http://10kn.com/google-book-download/

欢迎关注十千牛微信公众号

说不定我这一生涓滴意念,侥幸汇成河,而且是一条大长河

44 条评论

  1. @a-duo 第二种方法,有时的确是不好使的,再者,貌似会陷入死循环。只要在主界面中发现已经读出图书信息,就可以手动终止其检索过程,直接下载。下载不完全也没关系,可以先保存,软件支持“断点续传”的

  2. 真是太厉害了,心仪了N就的书,终于搞到了!
    不是不想掏钱买,实在是很难买到啊!
    这样的好书,真的应该给作者钱的。

  3. 有一个网站能下载“全部浏览”权限的图书,虽然大家要的大部分图书是“部分浏览”权限,不过“全部浏览”权限的图书也不乏优秀的作品,比如杂志和绝版的图书等,这些图书虽然可以全部浏览,但Google依然不提供下载,大家可以到 http://www.googlebookdownload.com 看看

  4. Help!~

    “确认你已经安装了Microsoft .net Framework 3.5 SP1 。如果没有,则到这里下载安装。需要注意的是,这个软件安装时间非常长~”
    –>

    您好!昨天晚上经过很长时间下载&安装了“Microsoft .net Framework 3.5 SP1”,但是当我重起系统的时候,左上方出现

    “正在设置个人设置
    C:\WINDOWS\SYSTEM32\RUNDLL32.EXE
    C:\WINDOWN.SYSTEM32\MSLOTIESDLL.INSTALL”

    我看不到启动和桌面的快捷键。
    貌似系统在update 什么东西。。

    请问这个是安装Microsoft .net Framework 3.5 后的正常步骤吗?
    如果是异常情况,请问该如何恢复到系统原本状况。。。。

    谢谢啦。。!~

  5. @rainy.sunday 我没遇到这样的情况,肯定是出问题了。你可以运行任务管理器>“新任务”>找到“C:\WINDOWS\system32\Restore\rstrui.exe”,执行系统还原。将系统还原至安装之前即可。

  6. 请问,我是用第二种方法,不知道为什么,下个没完后就按STOP,然后这个DOWNLOAD ALL按扭就是不浮起来,没法点 .就是软件刚打开的那个样子,看得到字,是虚的,没法点.这是我那个方面操作错误么?请指点

  7. 谷歌书也不好下了,上午捣了几下,书没下下来,下午上去说我可能是机器要求的,要验证,验证后原来的分类,没了(音乐)类,估计给屏蔽了

  8. 长河推荐的www.isheu.com不是蛮好的么,不用注册,也不收费,楼上的可以试试,我下了很多。。。感谢长河,呵呵

  9. 我这怎么下不了啊,楼主帮帮忙,点击DOWNLOAD之后,书是不是自动保存到某个地方啊,我点了之后怎么就没反应啊?

  10. @xinyin 是自动检索完成之后(可以看到相应页面的缩略图),才“另存”到其他位置的。据说最近一段时间不太好使,去看看有没有最新版本升级吧。

  11. 感谢您老的无私奉献,俺省下了近100美刀的书钱。顺便rrdw一下,您老订阅的rss资料站什么的能受累说说都是哪些吗?俺也想体验一下碰到好书的感觉。谢谢!

  12. 楼主,我用第二种方法,但是google book downloader无法下载啊
    我登陆之后还会说
    This project is not yet published

    If you are a coordinator or developer on this project, please sign in to access the project.
    然后再登录也不管用了,怎么办啊楼主?

  13. 我用firefox下载,只能下载png格式啊,有办法下载别的格式吗?那个软件现在确定不能用啦吗?如果能用的话发给我吧。。。

  14. 居然是同一个专业的,哈哈,但是方向不一样,道路的实在是太辛苦了,呵呵
    最近在读秀上看书,哇好累的啊,只能在线看。郁闷死了,所有讨教一下这个教程是不是也适合在读秀上用呢,还是有其他的途径,谢谢啦

  15. 我这几天正好在折腾这个,最困难的是下载只能部分预览的书,那2种方法我都在用,2种方法下载的页面综合后,也只能新添20页左右。我试过频繁拨号换ip,每次开始下载前清理cookie,换域名,比如com.tw、com.HK、co.sg,效果不大,搞不清楚google的防盗版机制到底是怎么样的。禁用cookies连网站都打不开,允许cookies,然后每次清理,会不会适得其反?google会不会无法判断你上次能看的页面?另外如果用迅雷下,禁用多线程也不可以吗?我昨天晚上好像用4条多线程下了的,今天不行了,老是只能下第一页,改为单线程,并且只能同时进行一个任务都不行。如果有什么新的发现,盼赐教,我这里找了些相关资料,可以共享。

  16. 我用的是Google Book Downloader0.7版,本来这个软件已经被迫停止开发,可能作者在偷偷摸摸开发吧,软件主页http://www.googlebookdownloader.codeplex.com/已经下载不到了,这个软件我不知道他的direct channel、p2pchannel、proxy channel有什么用,貌似后面2个不起作用,内置的一些代理好像也没用,都是bad。

Leave a Reply

Your email address will not be published. Required fields are marked *