Hướng dẫn PC Công cụ OCR đơn giản trực quan

Thảo luận trong 'Hướng dẫn chung' bắt đầu bởi t6n123, 23/8/22.

  1. machine

    machine Lớp 12

    Xóa mấy cái thừa thãi đấy đi chứ giữ làm chi :p (ABBYY thì nó tự xóa Header&Footer và số trang luôn rồi).
    Nếu dùng vFlat thì tạo luôn file pdf đã tẩy trắng nền và làm phẳng trang sách (ví dụ đặt tên là A.pdf) sau đó chuyển file A.pdf qua cho ABBYY nó OCR xong mình export nó thành file B.pdf là dạng searchable pdf.
    Trong khi soát lỗi chính tả, có đoạn nào cần đối chiếu với bản gốc thì search trong file B.pdf, vừa nhanh vừa khỏe :D
    Nếu đoạn nội dung mình cần đối chiếu mà không search trong file B.pdf không thấy thì mình tìm những nội dung quanh quanh đó.
    Tóm lại: nên tạo file searchable pdf bằng ABBYY để thuận tiện đối chiếu nội dung với bản gốc trong khi soát lỗi chính tả.
     
    Chỉnh sửa cuối: 26/8/22
  2. vinaguy

    vinaguy Lớp 11

    U là trời... Các bác giàu kinh nghiệm quá cơ... Nào giờ em tội nghiệp, cứ soát lỗi chính tả là em chằm hăm đọc từng chữ, từng chữ một, sai đâu sửa đó. Nếu chỗ nào luận không ra là em vào xem bản pdf, vậy rồi. Đúng là làm khâu nào cũng cần phải có công nghệ khâu đó.
     
  3. tran ngoc anh

    tran ngoc anh Cử nhân

    Quen tay thôi bác. Em lâu lâu vẫn phải vào chính mấy TUT em viết để xem lại, bẵng đi một thời gian là quên :D mấy câu lệnh mà không có lưu note hay file text gì đó là coi như xong. Chỉ có nước lên trang chủ tìm lại user manual.

    Mấy cái function của calibre editor mỗi khi cài lại phần mềm hay windows là mất tiêu, lại phải tìm tài liệu để xào lại. Nguồn tham khảo tốt là TuT của cụ inno14 và trang chủ calibre ^^

    Kinh nghiệm đôi khi chính là những lần “quên” như thế. Và kinh nghiệm là hãy nhanh tay viết tut lại những tips yêu thích, để lỡ có quên còn có chỗ mà kiếm, như cụ inno14 từng chia sẻ :D
     
    machine thích bài này.
  4. machine

    machine Lớp 12

    Tui nghĩ là không nên làm như này (trừ khi muốn làm true pdf) vì nó không có tính kế thừa. Ở quyển sách này gặp 1 lỗi chính tả → sửa lỗi, sang quyển sách khác gặp đúng lỗi chính tả đó → lại mất công sửa lỗi. Nếu thêm lỗi chính tả đó vào "dữ liệu" của Text Crawler thì lần sau mình không phải sửa lỗi chính tả đó nữa.

    Sau khi OCR bằng ABBYY tui thường soát chính tả theo trình tự như sau:
    1. Chạy Text Crawler
    2. Đóng gói sơ bộ thành file epub và soát chính tả trong Sigil
    3. Chuyển file epub vừa soát chính tả ra Word (bằng Calibre), upload lên Google Drive rồi soát chính tả bằng Google Docs.
    Sau bước 3, số lỗi chính tả còn sót lại không nhiều: khoảng 0.15% ÷ 0.25%

    Vì OCR bằng ABBYY không bị "nhảy chữ" như vFlat nên sau khi soát chính tả bằng Google Docs là đóng gói ebook được luôn.

    Trong khi đọc ebook, nếu gặp lỗi chính tả thì highlight, sau khi đọc hết ebook (hoặc đọc được 50%) thì xuất toàn bộ highlight ra 1 file text, copy file text này vào máy tính để sửa lỗi chính tả trên file ebook.

    Trên máy đọc sách, bôi đen 1 cụm từ là nó tự động highlight.
    Trên Moon Reader thiết lập một chút thì bôi đen cụm từ nó cũng tự động highlight.

    Đúng là mỗi người soát chính tả một kiểu, không ai giống ai :D
     
    Lan Giao thích bài này.
  5. tran ngoc anh

    tran ngoc anh Cử nhân

    Phương pháp A. Finereader có nhược điểm là các thay thế hàng loạt chạy lâu hơn các trình xử lý text như Calibre Editor, Text Crawler; vì trong Finereader mỗi trang cứ như một file riêng vậy, xem trong thư mục dự án mà Finereader lưu thì mỗi trang lưu riêng một thư mục, xử lý lâu là đúng. Nhưng vẫn thay thế hàng loạt được.
    Tính kế thừa mà bạn nói, ở trường hợp của Finereader thì vẫn có, đó là bước huấn luyện Finereader đọc tốt hơn, nhưng vẫn sẽ lâu hơn Text Crawler, đây cũng là điểm yếu.
    Một điểm yếu chí mạng nữa là Finereader chỉ dùng được cho PC và Laptop Windows, các thiết bị khác hoặc các hệ điều hành khác Windows thì không dùng được.
    Trên macOS cũng có Finereader mà chỉ để làm màu thôi, OCR xong là chỉ có thể xuất text luôn chứ không chỉnh được, mà tính năng này là điểm mạnh duy nhất của Finereader, như thế thì không hơn gì tesseract cả, độ chính xác thì thua xa Vflat và Google Drive ở những tài liệu hơi mờ cũ một chút.
     
    machine thích bài này.
  6. nguyenhoangtq

    nguyenhoangtq Lớp 1

    Ui là trời, tui ở bên soát lỗi chính tả, trên PC mở file Word và mở file PDF xem qua liếc lại muốn lòi con mắt (mới cận 3,5), đọc bài này mới biết mình tụt lại đàng sau quá xa...
     

Chia sẻ trang này