Tâm lý ẢO ẢNH TRẮNG (NGUYỄN THỊ NGỌC TÚ) - MỘT TÁC PHẨM NHIỀU TRANH CÃI

Thảo luận trong 'Tủ sách Văn học trong nước' bắt đầu bởi Cái lệ, 24/3/23.

Moderators: Bọ Cạp
  1. machine

    machine Sinh viên năm I

    Gửi thím bản Word OCR từ vFlat, chưa soát bằng Google Docs.
    Thím tham khảo xem, lỗi chính tả không nhiều đâu.
    Soát thêm bằng Google Docs rồi soát bằng Sigil chắc sẽ chỉ còn khoảng 150-250 lỗi chính tả.
     

    Các file đính kèm:

    thohnb thích bài này.
  2. thohnb

    thohnb Lớp 2

    Thanks thím :D, ngon quá , để em làm lại epub phát. :D
     
  3. tran ngoc anh

    tran ngoc anh Cử nhân

    Có cách nào bắt chatGPT OCR xem có ngon hơn các không cụ hiện giờ không ta :D
     
  4. thohnb

    thohnb Lớp 2

    Cái app Vflat công nhận hay thật :D, scan từ pdf qua ít lỗi hẳn bác @machine:D
     
    machine thích bài này.
  5. sucsongmoi

    sucsongmoi Lớp 8

    Bên tinh tế có bài viết đấy.
    Bạn nào có đăng ký chat.openai.com thì check với Link Reader xem sao. Tham khảo bài viết trang tekzone. :D
     
    Chỉnh sửa cuối: 30/9/23
    machine and tran ngoc anh like this.
  6. machine

    machine Sinh viên năm I

    Thí chủ có link không :D
     
  7. sucsongmoi

    sucsongmoi Lớp 8

    machine and tran ngoc anh like this.
  8. machine

    machine Sinh viên năm I

    Sau khi OCR từ vFlat, làm thêm mấy thao tác nữa cho nhanh:
    1. Xóa số trang trong Word
    Find what:
    (\<)p(\>)([1-9])([0-9])([0-9])(\<)(\/)p(\>)
    (\<)p(\>)([1-9])([0-9])(\<)(\/)p(\>)
    (\<)p(\>)([1-9])(\<)(\/)p(\>)
    Replace with: để trống
    đánh dấu vào Wildcard

    2. Xóa header footer trong Word: tương tự trên
    3. Xóa dòng trống trong Word:
    Find: ^p^p
    Repalce: ^p
    Bấm đến khi nào còn 0 hoặc 1

    4. Gom các đoạn văn/câu văn bị ngắt (trong Sigil)
    Find: Copy cả 2 dòng dưới paste vào Sigil
    ([^.>?₀”:)!*✽…])</p>
    <p>([a-zđàáạảãâầấậẩẫăằắặẳẵêềếệểễèéẹẻẽòóọỏõùúụủũìíịỉĩôồốộổỗưừứựửữơờớợởỡ])
    Replace:
    \1 \2
    Mode: Regex
     
    Chỉnh sửa cuối: 30/9/23
    nnjuu and Anan Két like this.
  9. machine

    machine Sinh viên năm I

    VFlat OCR khá ngon rồi, nếu ChatGPT mở API thì chắc mấy bạn dev sẽ tạo phần mềm hoặc Extension soát lỗi chính tả tự động :D
     
  10. sucsongmoi

    sucsongmoi Lớp 8

    Lúc trước thấy Vflat có chức năng 'cắt' cho hàng loạt hình, hoặc vào abbyy cắt để loại bỏ số trang, footnote ... trước khi chạy OCR.
     
    machine thích bài này.
  11. machine

    machine Sinh viên năm I

    Để lần sau thử xem sao :D
     
    Chỉnh sửa cuối: 30/9/23
  12. Xin cảm ơn rất nhiều, nhờ bạn tôi cũng đã tải được rồi.
     
  13. machine

    machine Sinh viên năm I

    Soát lỗi: thohnb & machine.
    Chắc vẫn còn sót nhiều lỗi chính tả, hội thoại.
    P/S: với những quyển nhiều câu hội thoại dạng gạch đầu dòng "-" như này, vFlat nhận dạng thiếu rất nhiều dấu "-" hoặc chuyển dấu "-" về cuối câu. Tính ra cũng gần 1000 lỗi :p
    Update: sửa thêm lỗi chính tả.
     

    Các file đính kèm:

    Chỉnh sửa cuối: 14/10/23
  14. machine

    machine Sinh viên năm I

    Nhân tiện
     

    Các file đính kèm:

  15. KienPham

    KienPham Mầm non

    Tuyệt vời, Tks bạn.
     
Moderators: Bọ Cạp

Chia sẻ trang này