目錄

大家好,我是布萊克。各位一定多少都有拿過「不能選取內文也不能進行編輯」的PDF文件,往往這個時候都只能摸摸鼻子放棄編輯文件的想法。不過現在科技進步,市面上已有眾多的文字辨識(Optical Character Recognition, OCR)軟體,今天布萊克要來跟大家介紹一款自己開發的文字辨識平台,以下為文字辨識平台的基本資訊。



自製線上文字辨識平台


服務網址:https://tool.aidaidme.com/ocr
使用限制:
免費使用,不限辨識篇幅長度。感謝使用布萊克提供的服務。
請分享網址給更多人知道。
辨識語言:
繁體中文、簡體中文、英文
輸出格式:
Word 檔 (.docx)、RTF 檔 (.rtf)、純文字檔 (.txt)

簡單4步驟,辨識文件超簡單!

點擊連結之後,請在畫面下方選擇檔案內的語言(步驟1),欲先判讀檔案內的語言可以大幅增加辨識後的成功率,如檔案內有複數以上語言,請直接點擊即可。接著選擇輸出的格式(步驟2),如果單純想要文字內容,請直接點擊 TXT 純文字格式。若是希望格式能夠盡可能保持一致,請選擇 Word 或是 RTF 格式(跨平台格式)。隨後就可以上傳圖片或是 PDF 檔案了(步驟3),請依照提示方框注意檔案大小限制。瀏覽完檔案後就可以點擊上傳按鈕了(步驟4),等待一小段辨識的時間就會自動下載檔案了。

補充:RTF 格式是由微軟公司開發的跨平台文件格式。大多數的文書處理軟體都能讀取和儲存RTF文件。(引用自維基百科)

正確率大比拚

如同布萊克前面所述,市面上已有眾多 OCR 平台可以選擇,因此布萊克尋找比較有名的 OCR 線上平台當作實驗對象,列在下方。現在布萊克要將同樣的測試圖檔上傳至這些平台上,並且比較其正確率情況。

以下布萊克將分別輸出成「TXT 檔」與「Word 檔」,準確率的判讀將透過線上文字比對工具進行比較,如下圖所示,只要越少紅綠差異就表示正確率越高

內文包含「繁體中文」及「英文」的文章辨識

本次測試案例的文章採用 TVBS 的新聞,為公平起見皆刪除內含插圖的部分,僅保留文字而已。調整辨識語言為「繁體中文」及「英文」,並且輸出為「TXT 檔」。誠華OCR設定參數如下:

下表為經過測試的結果,雖然布萊克自製線上文字辨識平台單就準確率來說並不高,但各位不妨進去下面的「比對報告」,應該不難發現其實差異都很少,不知準確率計算方式為何,因此布萊克還是對於自製的服務感到有信心的。而準確率最高的雖為誠華 OCR 平台,但布萊克使用時卻發現上傳檔案與辨識檔案過程都極慢,明顯與其他 3 個 OCR 平台差異甚大。

比對結果

布萊克 OCR:查看比對報告
Online OCR:查看比對報告
誠華 OCR:查看比對報告
LightPDF:查看比對報告

內文僅「英文」的文章辨識

本次測試案例的文章採用 CNN 的國際新聞,為公平起見皆刪除內含插圖的部分,僅保留文字而已。調整辨識語言為「英文」,並且輸出為「Word 檔」。誠華OCR設定參數如下:

下表為經過測試的結果,雖然布萊克自製線上文字辨識平台在這次測試中並沒有取得最高準確率,但與第 1 位最高辨識準確率的 Online OCR 相比,差異算是很少的。而在上一輪的繁體中文文章測試中,Online OCR 準確率算是稍差的。由於這次的英文文章又更長了,布萊克使用誠華 OCR 平台時,上傳檔案與辨識檔案過程依舊都極慢。LightPDF 在本次設定前提下,在未使用付費會員情況下並不支援輸出成 Word 格式。

比對結果

布萊克 OCR:查看比對報告
Online OCR:查看比對報告
誠華 OCR:查看比對報告
LightPDF:無測試結果

結論

從上面兩次的測試結果得知,雖然布萊克自製線上文字辨識平台還有許多改善的空間,但與其他 3 個 OCR 平台相比絕對是限制較少的平台了。當然未來布萊克也會新增辨識的語言與輸出格式,提供更多辨識檔案的場景。如果各位對於功能上有什麼疑慮或是找到 Bug,歡迎跟布萊克說一聲,謝謝。以上就是今天分享的內容了,如果對於這類的分享文章感興趣的,歡迎留言告訴布萊克,也歡迎分享給更多人知道喔!

最後修改日期: 2020-06-04

作者

留言

免費開放使用!自製線上文字辨識平台報乎你知,請問pdf檔上傳後,只有顯示success,但沒有看到辨識成功的檔案 (docx)?

    作者

    您好,感謝您回報這個問題!剛才測試後確實有錯,現在已經修復了!請您有空再試看看,選擇檔案後幫我按下白色的上傳按鈕,等待一下應該就會看到檔案了。

您好,pdf檔上傳後,按下上傳後,出現以下文字。 請啟用有效的帳號,可能發生原因為:未設定啟用帳號、頁數少於5頁、已超過過期時間。

撰寫回覆或留言

發佈留言必須填寫的電子郵件地址不會公開。