本文章僅供學術研究使用,出發點也是因為學術需要才進行本教學文

抓取圖書時務必注意圖書的授權使用範圍以及版權宣告!

文章轉載

1
所以找了下載器,然後透過PDF OCR做辨識,就可以很快速地將GOOGLE圖書變成可以供複製的PDF檔案

 

廢話不多說,概念很簡單,那怎麼做呢?

 

1.首先你需要GOOGLE圖書的下載器:http://www.gbooksdownloader.com/

 

2

2.然後複製你要抓的圖書網址

3

3.安裝好剛剛抓的Downloader,開啟之後把剛剛複製的網址貼過來,下方的設定基本上不要動,如果你需要很清楚的版本,自行調整resolution,但也代表抓取的時間會變長。

4

 

4.之後就開始download啦!

 

4

5.接著請去抓具有OCR功能的PDF READER(https://www.tracker-software.com/product/pdf-xchange-viewer/download?fileid=446)

6

6.剛剛下載好的PDF請用該XCHANGE VIEWER開啟,發現在記號1的位置,選取模式沒辦法選取任何的文字,因為抓下來其實是一塊一塊的圖片…所以要做OCR,請點選記號2的OCR按鈕

7

7.OCR選項,可以選擇你要辨識哪一個PAGE跟精準度調整,建議挑你要辨識的那幾頁就好,否則會等地有點久

8

 

8.依照你電腦的效能決定這有多快

9

 

9.辨識完之後,再點選剛剛步驟6中記號1的選取工具,發現可以選取並且複製了!,不過可以看到有些地方怪怪的…,不過妳可以調整下載的檔案清晰度以及OCR辨識精準度來改善這些問題

10

10.最後…會發現有些頁數有問題,這其實是GOOGLE要限制流量的把戲…如果你這次抓的PDF少了你要的頁數,就可能要請你再次嘗試,因為我試了兩次相同文件,就有一些第一次抓不到的頁面第二次有抓到…所以這個問題目前是這樣解

11

創作者介紹
創作者 桑摩 的頭像
桑摩

HHT' .com ||

桑摩 發表在 痞客邦 留言(0) 人氣()