Hướng dẫn Giới thiệu OCR với Google Drive.

Nga Hoang · 19/9/20

Một trong những bước căn bản để làm một ebook là chuyển đổi hình ảnh scan sang text. Đó là OCR : Optical Character Recognition.

Giới thiệu với các bạn một cách OCR tiện dụng và miễn phí với chất lượng cao hơn ABBYY 15. Đó là Google Drive.

1. Mở trình Google Drive : Vui lòng đăng nhập hoặc đăng ký để xem link

2. Bấm vào setting để chọn Convert Uploads –> Convert uploaded files to Google Docs editor format.

3. Chọn New để upload file .

4. Right click file vừa upload để open with Google Docs

5. Edit lại format một chút là đẹp như mơ và ít lỗi chính tả.

So sánh:

File scan gốc:

File được OCR với Google Drive

Có 2 lỗi chính tả.

So sánh với file được OCR với ABBYY 15

có tới 6 lỗi.

Chúc các bạn thử nghiệm thành công.

PS. Cách này không áp dụng cho sách có hình ảnh, biểu đồ v.v...

welcom1985 · 19/9/20

tôi cũng test ocr bằng google được một thời gian, xin có một số nhận xét sau:
- về khả năng ocr thì cũng ko hơn abbyy là mấy.
- số lượng trang ocr 1 lần (bằng pdf, khoảng 50 trang đổ lại) thì còn được, cỡ > 50 trang trở lên, đôi khi đơ máy ( nhiều khi không nhận đc kết quả luôn), chả hiểu do máy tính hay do mạng .
- nhưng đặc biệt với một số trang có loại chất liệu giấy kiểu cổ cổ, ố vàng, thì tôi thấy abbyy lại cho chất lượng kém hơn google drive, chả hiểu tại sao

Nga Hoang · 19/9/20

welcom1985 nói: ↑

- nhưng đặc biệt với một số trang có loại chất liệu giấy kiểu cổ cổ, ố vàng, thì tôi thấy abbyy lại cho chất lượng kém hơn google drive, chả hiểu tại sao
Click to expand...

Đúng như bạn nói, Google Drive nhận dạng những bản scan sách cũ, in bằng bản kẽm (lúc chưa có font chữ) tốt hơn ABBYY.

Numeron · 20/9/20

Theo Vui lòng đăng nhập hoặc đăng ký để xem link
thì kích thước file bị giới hạn ở mức 2mb nên khi khi kích thước file lớn hơn chắc google không thực thi.

iamtnl · 21/9/20

mình có script chạy trên Google Drive API cho phép chạy tự động OCR theo từng file, nên ko quan tâm giới hạn 2MB. hôm nào rảnh sẽ hoàn thiện và up tut cho mọi người. bác nào dân dev có thể tìm hiểu Drive API và viết script, khá đơn giản.

anh này đặc điểm là OCR xong có soát lỗi chính tả và ngữ nghĩa, nên nhìn chung sẽ tạo cảm giác chính xác hơn các engine khác. tuy nhiên nhược điểm là đôi khi bịa ra hẳn 1 từ mới không ăn nhập vs nội dung. ví dụ trong 1 quyển sách mình chạy OCR có cụm từ "tắm trứng" thì anh Google trả về toàn là "tắm trắng".

dù sao thì cũng khá ổn, thích hợp với các quyển thuần text và ít format.

jun276 · 21/9/20

Mình có thử Google và vFlat. 2 cái này không giữ được in nghiêng, đậm, đôi khi bịa ra hẳn 1 từ mới. Thỉnh thoảng chữ từ dòng này nhảy sang dòng kia. Với 1 file scan đẹp sách mới dùng ABBYY chính xác hơn. Sách cũ, mờ 2 cái kia ngon hơn.

Ảnh chụp bằng Scanner Pro:

Ảnh chụp bằng vFlat:

OCR (Scanner Pro dùng ABBYY, vFlat dùng luôn vFlat):

khiconmtv · 21/9/20

Mọi người đọc cái này để hiểu thêm vì sao Google nó nhận dạng quang học tốt như vậy.

Tới năm 2009, Google quyết định mua lại Captcha nhằm tận dụng lượng người dùng Internet khổng lồ để số hóa kho sách Google Books của mình. Chữ lúc này cũng phải uốn éo hơn, khó đọc hơn, để chống lại những phần mềm nhận diện ký tự viết đang phát triển.

Chính những nhà phát triển Captcha cũng thừa nhận hệ thống này là một công cụ tuyệt vời để đào tạo AI, bất kỳ hình thức kiểm tra truy cập nào đều chỉ là tạm thời. Đối với các nhà nghiên cứu của Google, khả năng giải hàng tỷ câu đố Captcha chỉ là khởi đầu cho tương lai máy móc sẽ vượt qua con người. Năm 2014, Google đã đưa ra một thuật toán máy học thi đấu với con người trong cuộc thi đọc mã Captcha. Trong khi máy tính đọc đúng 99,8% số lần thử, ngồi trước dòng chữ bị biến tướng méo xẹo, con người chỉ đúng được 33%.

lazyboyvn · 26/10/20

iamtnl nói: ↑

mình có script chạy trên Google Drive API cho phép chạy tự động OCR theo từng file, nên ko quan tâm giới hạn 2MB. hôm nào rảnh sẽ hoàn thiện và up tut cho mọi người. bác nào dân dev có thể tìm hiểu Drive API và viết script, khá đơn giản.

anh này đặc điểm là OCR xong có soát lỗi chính tả và ngữ nghĩa, nên nhìn chung sẽ tạo cảm giác chính xác hơn các engine khác. tuy nhiên nhược điểm là đôi khi bịa ra hẳn 1 từ mới không ăn nhập vs nội dung. ví dụ trong 1 quyển sách mình chạy OCR có cụm từ "tắm trứng" thì anh Google trả về toàn là "tắm trắng".

dù sao thì cũng khá ổn, thích hợp với các quyển thuần text và ít format.
Click to expand...

Bác đã hoàn thiện script chưa ạ

Numeron · 31/12/21

Mình đã viết script
Vui lòng đăng nhập hoặc đăng ký để xem link

Cao Đức Hiếu · 23/3/22

Numeron nói: ↑

Mình đã viết script
Vui lòng đăng nhập hoặc đăng ký để xem link
Click to expand...

Có cách nào dùng script này cho file lớn hơn nữa không bác?

tran ngoc anh · 24/3/22

Cao Đức Hiếu nói: ↑

Có cách nào dùng script này cho file lớn hơn nữa không bác?
Click to expand...

Vẫn dùng Google để OCR nhưng có thể OCR nhiều đoạn PDF, nhiều trang hình ảnh cùng một lúc. Thao tác với công cụ hệ thống cmd.

Vui lòng đăng nhập hoặc đăng ký để xem link

Đăng nhập

Mời tham gia cuộc thi "CHIA SẺ KỶ NIỆM ĐÁNG NHỚ" nhân dịp TVE-4U 10 tuổi

Hướng dẫn chuyển đổi các định dạng eBook

Hướng dẫn xử lý lỗi không 'download - viết bài - xem link' được trên diễn đàn

Hướng dẫn Giới thiệu OCR với Google Drive.

Nga Hoang Lớp 12

welcom1985 Lớp 3

Nga Hoang Lớp 12

Numeron Lớp 5

iamtnl Lớp 4

jun276 Lớp 4

khiconmtv Cử nhân

lazyboyvn Mầm non

Numeron Lớp 5

Cao Đức Hiếu Lớp 2

tran ngoc anh Cử nhân

Chia sẻ trang này