Tâm lý ẢO ẢNH TRẮNG (NGUYỄN THỊ NGỌC TÚ) - MỘT TÁC PHẨM NHIỀU TRANH CÃI

Thảo luận trong 'Tủ sách Văn học trong nước' bắt đầu bởi Cái lệ, 24/3/23.

Moderators: Bọ Cạp
  1. machine

    machine Sinh viên năm II

    Gửi thím bản Word OCR từ vFlat, chưa soát bằng Google Docs.
    Thím tham khảo xem, lỗi chính tả không nhiều đâu.
    Soát thêm bằng Google Docs rồi soát bằng Sigil chắc sẽ chỉ còn khoảng 150-250 lỗi chính tả.
     

    Các file đính kèm:

    thohnb thích bài này.
  2. thohnb

    thohnb Lớp 2

    Thanks thím :D, ngon quá , để em làm lại epub phát. :D
     
  3. tran ngoc anh

    tran ngoc anh Cử nhân

    Có cách nào bắt chatGPT OCR xem có ngon hơn các không cụ hiện giờ không ta :D
     
  4. thohnb

    thohnb Lớp 2

    Cái app Vflat công nhận hay thật :D, scan từ pdf qua ít lỗi hẳn bác @machine:D
     
    machine thích bài này.
  5. sucsongmoi

    sucsongmoi Lớp 10

    Bên tinh tế có bài viết đấy.
    Bạn nào có đăng ký chat.openai.com thì check với Link Reader xem sao. Tham khảo bài viết trang tekzone. :D
     
    Chỉnh sửa cuối: 30/9/23
    machine and tran ngoc anh like this.
  6. machine

    machine Sinh viên năm II

    Thí chủ có link không :D
     
  7. sucsongmoi

    sucsongmoi Lớp 10

    machine and tran ngoc anh like this.
  8. machine

    machine Sinh viên năm II

    Sau khi OCR từ vFlat, làm thêm mấy thao tác nữa cho nhanh:
    1. Xóa số trang trong Word
    Find what:
    (\<)p(\>)([1-9])([0-9])([0-9])(\<)(\/)p(\>)
    (\<)p(\>)([1-9])([0-9])(\<)(\/)p(\>)
    (\<)p(\>)([1-9])(\<)(\/)p(\>)
    Replace with: để trống
    đánh dấu vào Wildcard

    2. Xóa header footer trong Word: tương tự trên
    3. Xóa dòng trống trong Word:
    Find: ^p^p
    Repalce: ^p
    Bấm đến khi nào còn 0 hoặc 1

    4. Gom các đoạn văn/câu văn bị ngắt (trong Sigil)
    Find: Copy cả 2 dòng dưới paste vào Sigil
    ([^.>?₀”:)!*✽…])</p>
    <p>([a-zđàáạảãâầấậẩẫăằắặẳẵêềếệểễèéẹẻẽòóọỏõùúụủũìíịỉĩôồốộổỗưừứựửữơờớợởỡ])
    Replace:
    \1 \2
    Mode: Regex
     
    Chỉnh sửa cuối: 30/9/23
    nnjuu and Anan Két like this.
  9. machine

    machine Sinh viên năm II

    VFlat OCR khá ngon rồi, nếu ChatGPT mở API thì chắc mấy bạn dev sẽ tạo phần mềm hoặc Extension soát lỗi chính tả tự động :D
     
  10. sucsongmoi

    sucsongmoi Lớp 10

    Lúc trước thấy Vflat có chức năng 'cắt' cho hàng loạt hình, hoặc vào abbyy cắt để loại bỏ số trang, footnote ... trước khi chạy OCR.
     
    machine thích bài này.
  11. machine

    machine Sinh viên năm II

    Để lần sau thử xem sao :D
     
    Chỉnh sửa cuối: 30/9/23
  12. Xin cảm ơn rất nhiều, nhờ bạn tôi cũng đã tải được rồi.
     
  13. machine

    machine Sinh viên năm II

    Soát lỗi: thohnb & machine.
    Chắc vẫn còn sót nhiều lỗi chính tả, hội thoại.
    P/S: với những quyển nhiều câu hội thoại dạng gạch đầu dòng "-" như này, vFlat nhận dạng thiếu rất nhiều dấu "-" hoặc chuyển dấu "-" về cuối câu. Tính ra cũng gần 1000 lỗi :p
    Update: sửa thêm lỗi chính tả.
     

    Các file đính kèm:

    Chỉnh sửa cuối: 14/10/23
    TheGhost, Nandha, chjrjdo and 17 others like this.
  14. machine

    machine Sinh viên năm II

    Nhân tiện
     

    Các file đính kèm:

    TheGhost, Nandha, chjrjdo and 15 others like this.
  15. KienPham

    KienPham Mầm non

    Tuyệt vời, Tks bạn.
     
Moderators: Bọ Cạp

Chia sẻ trang này