Hướng dẫn Giới thiệu OCR với Google Drive.

Thảo luận trong 'Hướng dẫn chung' bắt đầu bởi Nga Hoang, 19/9/20.

  1. Nga Hoang

    Nga Hoang Lớp 7

    Một trong những bước căn bản để làm một ebook là chuyển đổi hình ảnh scan sang text. Đó là OCR : Optical Character Recognition.

    Giới thiệu với các bạn một cách OCR tiện dụng và miễn phí với chất lượng cao hơn ABBYY 15. Đó là Google Drive.

    1. Mở trình Google Drive : Vui lòng đăng nhập hoặc đăng ký để xem link

    2. Bấm vào setting để chọn Convert Uploads –> Convert uploaded files to Google Docs editor format.
    upload_2020-9-18_20-53-8.png

    upload_2020-9-18_20-54-2.png

    3. Chọn New để upload file .

    4. Right click file vừa upload để open with Google Docs

    5. Edit lại format một chút là đẹp như mơ và ít lỗi chính tả.

    So sánh:

    File scan gốc:
    upload_2020-9-18_20-55-26.png
    File được OCR với Google Drive
    upload_2020-9-18_20-56-27.png
    Có 2 lỗi chính tả.


    So sánh với file được OCR với ABBYY 15
    upload_2020-9-18_20-58-35.png
    có tới 6 lỗi.

    Chúc các bạn thử nghiệm thành công.


    PS. Cách này không áp dụng cho sách có hình ảnh, biểu đồ v.v...
     
    Chỉnh sửa cuối: 19/9/20
    baothoa, vqsvietnam, nhat1395 and 5 others like this.
  2. welcom1985

    welcom1985 Mầm non

    tôi cũng test ocr bằng google được một thời gian, xin có một số nhận xét sau:
    - về khả năng ocr thì cũng ko hơn abbyy là mấy.
    - số lượng trang ocr 1 lần (bằng pdf, khoảng 50 trang đổ lại) thì còn được, cỡ > 50 trang trở lên, đôi khi đơ máy ( nhiều khi không nhận đc kết quả luôn), chả hiểu do máy tính hay do mạng .
    - nhưng đặc biệt với một số trang có loại chất liệu giấy kiểu cổ cổ, ố vàng, thì tôi thấy abbyy lại cho chất lượng kém hơn google drive, chả hiểu tại sao :))
     
    Nga Hoang, TĐT and Đoàn Trọng like this.
  3. Nga Hoang

    Nga Hoang Lớp 7

    Đúng như bạn nói, Google Drive nhận dạng những bản scan sách cũ, in bằng bản kẽm (lúc chưa có font chữ) tốt hơn ABBYY.
     
    welcom1985 thích bài này.
  4. Numeron

    Numeron Lớp 2

    Theo Vui lòng đăng nhập hoặc đăng ký để xem link
    thì kích thước file bị giới hạn ở mức 2mb nên khi khi kích thước file lớn hơn chắc google không thực thi.
     
  5. iamtnl

    iamtnl Lớp 2

    mình có script chạy trên Google Drive API cho phép chạy tự động OCR theo từng file, nên ko quan tâm giới hạn 2MB. hôm nào rảnh sẽ hoàn thiện và up tut cho mọi người. bác nào dân dev có thể tìm hiểu Drive API và viết script, khá đơn giản.

    anh này đặc điểm là OCR xong có soát lỗi chính tả và ngữ nghĩa, nên nhìn chung sẽ tạo cảm giác chính xác hơn các engine khác. tuy nhiên nhược điểm là đôi khi bịa ra hẳn 1 từ mới không ăn nhập vs nội dung. ví dụ trong 1 quyển sách mình chạy OCR có cụm từ "tắm trứng" thì anh Google trả về toàn là "tắm trắng".

    dù sao thì cũng khá ổn, thích hợp với các quyển thuần text và ít format.
     
  6. jun276

    jun276 Lớp 2

    Mình có thử Google và vFlat. 2 cái này không giữ được in nghiêng, đậm, đôi khi bịa ra hẳn 1 từ mới. Thỉnh thoảng chữ từ dòng này nhảy sang dòng kia. Với 1 file scan đẹp sách mới dùng ABBYY chính xác hơn. Sách cũ, mờ 2 cái kia ngon hơn.

    Ảnh chụp bằng Scanner Pro:
    [​IMG]
    Ảnh chụp bằng vFlat:
    [​IMG]
    OCR (Scanner Pro dùng ABBYY, vFlat dùng luôn vFlat):
    [​IMG]
     
    Nga Hoang thích bài này.
  7. khiconmtv

    khiconmtv Cử nhân

    Mọi người đọc cái này để hiểu thêm vì sao Google nó nhận dạng quang học tốt như vậy.
    :D


    Tới năm 2009, Google quyết định mua lại Captcha nhằm tận dụng lượng người dùng Internet khổng lồ để số hóa kho sách Google Books của mình. Chữ lúc này cũng phải uốn éo hơn, khó đọc hơn, để chống lại những phần mềm nhận diện ký tự viết đang phát triển.

    Chính những nhà phát triển Captcha cũng thừa nhận hệ thống này là một công cụ tuyệt vời để đào tạo AI, bất kỳ hình thức kiểm tra truy cập nào đều chỉ là tạm thời. Đối với các nhà nghiên cứu của Google, khả năng giải hàng tỷ câu đố Captcha chỉ là khởi đầu cho tương lai máy móc sẽ vượt qua con người. Năm 2014, Google đã đưa ra một thuật toán máy học thi đấu với con người trong cuộc thi đọc mã Captcha. Trong khi máy tính đọc đúng 99,8% số lần thử, ngồi trước dòng chữ bị biến tướng méo xẹo, con người chỉ đúng được 33%.
     
    Niigata and Nga Hoang like this.
  8. lazyboyvn

    lazyboyvn Mầm non

    Bác đã hoàn thiện script chưa ạ
     

Chia sẻ trang này