Hỏi đáp Chỉnh sửa sách scan

Thảo luận trong 'Hỏi đáp - Góp ý' bắt đầu bởi bamagachu, 14/11/20.

  1. bamagachu

    bamagachu Mầm non

    Tôi chuyển sách scan PDF thành văn bản nhưng file gốc có nhiều chỗ như bị "ghẻ" nên phần mềm ABBYY nhận diện sai rất nhiều. Ai có kinh nghiệm xin chỉ giúp có cách nào chỉnh sửa hàng loạt các trang để không phải làm thủ công không ạ. Chân thành cảm ơn!

    [​IMG]
     
  2. iamtnl

    iamtnl Lớp 2

    bác quăng file em xử lý giúp xem
     
    bamagachu thích bài này.
  3. bamagachu

    bamagachu Mầm non

    Cảm ơn bạn, vì số lượng khá nhiều nên không thể nhờ làm giúp mà chỉ có thể nhờ chỉ giúp giải pháp thôi. Đây là một số trang trong cuốn sách mình đang dự định chuyển qua Word Vui lòng đăng nhập hoặc đăng ký để xem link
    Hiện tại mình đang tìm hiểu cách xóa "ghẻ" hàng loạt bằng photoshop. Chưa thực hiện nên không biết có được không.
     
  4. Dr. No

    Dr. No Không Không Thấy Thành viên BQT

    Với font chữ này thì rất khó để OCR ra kết quả có độ chính xác cao. :)
     

    Các file đính kèm:

    bamagachu thích bài này.
  5. iamtnl

    iamtnl Lớp 2

    Đây là file đã được denoise. Công cụ sử dụng là noisecleaner với tham số -m 1 -n 50.

    Vui lòng đăng nhập hoặc đăng ký để xem link
     

    Các file đính kèm:

    Chỉnh sửa cuối: 17/11/20
  6. iamtnl

    iamtnl Lớp 2

    Đây là file ocr sử dụng Google Drive engine. Kết quả nhìn chung là chấp nhận được đối với ảnh gốc chất lượng thấp như thế này. Dù sao soát và sửa lại cũng sẽ nhanh hơn là gõ lại từ đầu :D
     

    Các file đính kèm:

    Chỉnh sửa cuối: 17/11/20
    bamagachu thích bài này.
  7. jun276

    jun276 Lớp 2

    Ảnh chất lượng kém và sách cũ thì dùng Google, vFlat nhận chữ sẽ tốt hơn ABBYY.
     
    bamagachu thích bài này.
  8. V/C

    V/C Mầm non

    Sách cũ mà chụp thì nó ra text tốt hơn scan nhiều.
     
    bamagachu thích bài này.
  9. bamagachu

    bamagachu Mầm non

    Cảm ơn các bạn đã giúp. Làm việc một mình vừa đọc vừa gõ văn bản quả thật rất mệt, chuyện đọc nhầm và gõ nhầm xảy ra thường xuyên.
     
  10. Dr. No

    Dr. No Không Không Thấy Thành viên BQT

    Phía trên kia tôi OCR bằng Camscanner đấy: import file pdf, rồi ocr từng trang, rồi copy từng trang sang google docs. Nhược điểm của Camscanner là bị lỗi xuống dòng không đúng chỗ.
     
    bamagachu thích bài này.
  11. machine

    machine Lớp 4

    Bạn có thể cho link nào có sẵn phần mềm mà người không biết lập trình dùng được không?
    Cảm ơn bạn.
     
    bamagachu thích bài này.
  12. welcom1985

    welcom1985 Mầm non

    tôi xin đóng góp 1 phần mềm :irfanview . Ngoài việc hỗ trợ xem hình ảnh, chương trình còn có hỗ trợ "xử lý hàng loạt", đối với hình, pdf ...
    Các chức năng chính của xử lý hàng loạt: crop hình, chỉnh màu, đổi tên, giảm noise, ...v.v.. chi tiết vào file/batch convert..../advanced
     
    bamagachu thích bài này.
  13. dhq

    dhq Mầm non

    Lúc scan bác chọn chế độ xám (Grayscale) thay vì Black and White coi, sau đó là để nguyên cái đó đóng file pdf, file sau scan nhìn dễ chịu hơn rất nhiều. Mình hay dùng cách này khi scan sách.
     
    bamagachu thích bài này.
  14. bamagachu

    bamagachu Mầm non

    Sách pdf mình tải trên mạng, muốn chuyển thành file word để đọc trên điện thoại và thuận tiện cho việc biên soạn tài liệu. Vấn đề là file gốc xấu quá và ABBYY lại kén sách, mấy ứng dụng trên đt thì mình thao tác không quen. Thử qua một số phần mềm khác thì thấy easy screen ocr cũng tạm ổn. Thằng này cũng dùng Google Drive engine.
     
    welcom1985 thích bài này.

Chia sẻ trang này