Hướng dẫn Soát lỗi chính tả với phần mềm hỗ trợ

Thảo luận trong 'Hướng dẫn chung' bắt đầu bởi machine, 6/1/23.

  1. YurbleVn

    YurbleVn Lớp 2

    Của mình vẫn còn, chỉ bị vấn đề là nó không hỗ trợ unicode:
    SigilChinhTa.png

    Nhưng mình thích cái Chính tả bên Calibre hơn..., hiển thị tổng số, rồi có đề nghị sửa nhiều chữ...
    CalibreChinhTa.png
     
    vinaguy and tran ngoc anh like this.
  2. machine

    machine Sinh viên năm I

    Bạn đang dùng Default dict, bạn đổi sang Vietnamese dict xem sao :D Ngay bên dưới nút Add To Dictionary: đó.

    Cái này giống bản Sigil 0.9.13
    02.jpg
     
  3. YurbleVn

    YurbleVn Lớp 2

    Mã Python Script chưa giải quyết được vấn đề này. "ở phổi" vẫn bị đổi thành "ở phối". Mình đang hỏi thử người viết mã xem họ có chịu giúp sửa không.

    Còn cái mã Sigil của mình đã loại bỏ khả năng ngày rồi. Nó chỉ search những chữ bắt đầu hoặc kết thúc bằng khoảng trống, dấu câu.
    \b <-- mã này là báo cho Regex đó đó...
     
    Chỉnh sửa cuối: 10/2/25
    vinaguy and machine like this.
  4. vinaguy

    vinaguy Lớp 11

    Em lặn lội đọc hết tất cả những thứ mà bác @machine@YurbleVn viết mà em choáng toàn tập luôn. Hiểu không nổi, thấy nó cứ rối tươm rối mù ra luôn các bác ạ :):):)
    Đến cái chỗ này thì em thấy nó dài quá trời dài, em có cái đề xuất ngu ngu dưới đây xem có được không các bác?
    Em muốn sửa:
    (\.|\s|\?|\*|,|\!|"|“|”|'|-)(Từ01|Từ02|Từ03...|Từ0N)(\.|\s|\?|\*|,|\!|"|“|”|'|-)
    thành
    ([^a-zA-Z0-9])(Từ01|Từ02|Từ03...|Từ0N)([^a-zA-Z0-9])
    Còn những thứ khác thì em chưa thử gì cả, mới dừng lại ở mức "tiếp thu kiến thức" thôi... nên không biết nó "chạy chọt" như thế nào nữa.
    Cơ mà theo quan điểm cá nhân... Em sợ replace cả lần 1 phát như thế này quá... Em chỉ muốn nó liệt kê cho em như Cali rồi em cứ bấm next next dạo qua và sửa thôi... chứ em không đủ can đảm bấm Replace all các bác ạ :):):)
     
    machine thích bài này.
  5. YurbleVn

    YurbleVn Lớp 2

    Mã trên cũ rồi. Mình đã sửa mã thành
    \b(Từ01|Từ02|Từ03...|Từ0N)\b

    ([^a-zA-Z0-9]) <-- cái này bạn không nên xài cho tiếng Việt. Nó sẽ không loại những chữ Đ,Ă,Ắ...., nên mã cũ mình mới kì công liệt kê ra..., chưa tìm ra mã cho tập kí tự tiếng Việt...
     
    Chỉnh sửa cuối: 10/2/25
    vinaguy and machine like this.
  6. sucsongmoi

    sucsongmoi Lớp 8

    Đã từng bị vì replace all, bài học rút ra là save trước khi nhấn nút replace all. ~X(
     
    vinaguy and machine like this.
  7. YurbleVn

    YurbleVn Lớp 2

    Bạn Machine làm một bài rất kỳ công, để convert từ pdf sang ebook. Trong đó, bạn muốn dùng phần mềm convert để giữ được những chữ in nghiên trong sách gốc. Nhưng làm vậy, thì số lượng từ sai rất nhiều.

    Và vì đó, bạn đã kì công xây dựng một bộ từ điển những chữ sai hơn 18465 chữ sai và chữ đúng tương ứng mà bạn đó đã kiểm tra. Mình lập lại, 18K chữ...

    Bên cạnh đó, bạn cũng tập hợp 2000 chữ có thể đúng, có thể sai ("gợi lên" "gọi lên") và bạn làm tay từng tí một vì bạn không rành lập trình.

    Mình chỉ giúp bạn:
    1. Dùng notepad++ và script để tự động thay đổi 18K chữ đó, rút ngắn thời gian và công sức của bạn.
    2. Kiểm chính tả 2k cái có thể sai hoặc đúng trên Sigil, không cần làm thủ công qua lại.
     
    vinaguy and machine like this.
  8. welcom1985

    welcom1985 Lớp 3

    thấy mọi người bàn luận xôm quá, nay tôi góp ý thêm về việc đổi chữ cho file có in nghiêng, in đậm, gạch đít trong file word (sau khi ocr) ... thực ra textcrawler vẫn có thể chuyển được, cách làm như sau:
    - Mở file word chứa văn bản, save as lại thành "web page" (ko phải web page filtered)
    - Sau khi có file web page, ta dùng notepad++ mở file webpage này, vào mục encoding chọn "convert to utf-16 le bom", theo như kinh nghiệm của tôi làm như vậy thì khi search và replace bằng textcrawler sẽ ko bị lỗi hiển thị sai tiếng việt.
    - Dùng textcrawler để search and replace file webpage đó (khi chọn file thì ta chọn đuôi file "all file" *.*) khi đó ta mới thấy file webpage, là sơ suất của tôi khi nói textcrawler chỉ chơi txt, nhưng tôi nhớ có đính chính lại rồi :)) )
    - Xong rồi ta mở cái file webpage đó bằng một trình duyệt nào đó , chrome chẳng hạn. Copy nội dung văn bản, xong dán vào một file word nào đó (khi paste nội dung thì nhớ chọn paste - "keep source fomartting"
    Thiết nghĩ với cách này thì chúng ta sẽ tiết kiệm được một ít thời gian và công sức khi chèn cách tag định dạng nội dung.
     
    vinaguy and machine like this.
  9. YurbleVn

    YurbleVn Lớp 2

    @machine

    Về cái dấu chấm "." trong từ điển. Mình sửa mã mới. Bây giờ bạn có thể gỡ bỏ hết tất cả những dấu câu, hoặc khoảng cách trong file dict.txt của bạn.

    Mình tổng kết hết tất cả trong post này cho bạn dễ tham khảo:

    Thay bằng Notepad++ và Python Script:
    Thí dụ file dict.txt chứa từ điển sau:
    ở phổ->ở phố

    Và nội dung cần kiểm để thay chữ là:
    Nếu ở phổ nhiều thì sẽ bị đau ở phổi. .ở phổ.

    1.Mã MassReplacing_Code.txt sẽ đổi nội dung trên thành:
    Nếu ở phố nhiều thì sẽ bị đau ở phối. .ở phố.
    (giải thích: thay bất cứ thứ gì giống trong từ điển)

    2.Mã MassReplacing_WordBoundary_Code.txt sẽ đổi nội dung trên thành:
    Nếu ở phố nhiều thì sẽ bị đau ở phổi. .ở phố.
    (giải thích: chỉ thay cho những cụm từ bắt đầu và kết thúc bằng khoảng cách hoặc dấu câu)
    Thay bằng Sigil:
    Mã chổ Find: \b(Từ01|Từ02|...\Từ0N)\b
    (giải thích: chỉ tìm những cụm từ bắt đầu và kết thúc bằng khoảng cách hoặc dấu câu)
     

    Các file đính kèm:

    Chỉnh sửa cuối: 12/2/25
    vinaguy and machine like this.
  10. machine

    machine Sinh viên năm I

    Cảm ơn bạn nhiều nha :rose:
     
  11. machine

    machine Sinh viên năm I

    Thêm thẻ i, b, u trong Word cũng mất 2-3 phút thôi mà bạn :D
    Vì vFlat không xuất ra định dạng in nghiêng, cực chẳng đã mới phải tạo bộ dữ liệu riêng và dùng công cụ/script thay thế hàng loạt.
    Xin nhắc lại là cái này phù hợp nhất khi OCR bằng Abbyy và áp dụng cho các cuốn sách nhiều chữ (> 200 nghìn từ) và nhiều cụm từ in nghiêng (> 1000 cụm từ) ví dụ như bộ sách Lịch sử Việt Nam 15 tập của Viện Sử học #:-S
     
    vinaguy thích bài này.
  12. vinaguy

    vinaguy Lớp 11

    Giờ đọc lại cái này thì mình đã "thông minh" ra rồi... hiểu được các bác muốn thảo luận gì rồi... :):):)
    Thanks heaps!!!
    Em chưa hiểu được là bác muốn replace all hay là muốn Replace như thế nào luôn bác ạ. Bác nói dùm lại em với. Chứ thường thì em thấy trong sách in nó ưa nghiêng đâu thì nó nghiêng (và mình phải nghiêng theo thôi) nên mình đâu có xây dựng quy luật được để replace all đâu bác nhỉ? Thực sự em chưa hiểu được ý bác ở chỗ này.
     
    machine thích bài này.
  13. machine

    machine Sinh viên năm I

    Ý em là nếu file Word có chữ in nghiêng, in đậm thì dùng mấy câu lệnh thay thế để thêm thẻ i, b chỉ mất 2-3 phút là xong, không cần chuyển qua "save as lại thành "web page"" nữa.
     
    vinaguy and sucsongmoi like this.
  14. YurbleVn

    YurbleVn Lớp 2

    Thật ra, dùng search thay thẻ <i>, <b> sẽ tốt hơn save as. Save as sẽ đẻ ra một loạt mã rác, càng rối hơn...
     
    vinaguy and machine like this.
  15. vinaguy

    vinaguy Lớp 11

    Hiện tại em vẫn làm theo kiểu này của bác trong Cali. Do em chưa biết mục tiêu của bác @machine nên em chưa biết phải triển khai như thế nào. Chứ với em thì thường lúc em OCR xong và lướt qua file txt để kéo trang thì em chia đôi màn hình máy vi tính, 1 nửa là file scan, 1 nửa là file txt và đã xử luôn cả đậm, nghiêng, gạch đít, tab giữa, tab phải, chú thích, tiêu đề, hình ảnh... ngay lúc này rồi, nên lúc bứng vào notepad++ là em chỉ uýnh gắn tag <p> 1 phát nữa là bứng thẳng sang Cali luôn thôi (Em gắn tag <p> trong notepad++ thay vì làm trong word là vì gắn trong word dễ gặp lỗi sau này sửa mệt, tốc độ nhanh như nhau)
     
    machine thích bài này.
  16. machine

    machine Sinh viên năm I

    Ủa :-O mục tiêu là thay thế hàng loạt lỗi chính tả khi OCR bằng Abbyy mà :-":-" Bàn luận cả mấy trang rùi mà :-@
    Thay file scanned pdf bằng searchable pdf sẽ thuận tiện hơn đó bác, tìm kiếm dễ hơn, tạo bằng vFlat luôn.
    Từ rất lâu rồi em không soát lỗi chính tả thủ công trên máy tính, mất thời gian lắm mà tỷ lệ bỏ sót lỗi chính tả cũng cao. Trên máy tính em chỉ thay thế lỗi chính tả hàng loạt và soát lỗi (bán tự động) bằng Sigil và bằng Goodle Docs sau đó đóng gói luôn và vừa đọc ebook (trên điện thoại hoặc máy đọc sách) vừa soát lỗi luôn. Gặp lỗi chính tả thì highlight sau đó đọc xong (hoặc đọc 30-50-70%) thì export highlight thành dạng text và sửa lỗi chính tả tiếp. Giống như bác imnubie làm ở đây:
    Vui lòng đăng nhập hoặc đăng ký để xem link
    Ai quen kiểu nào thì làm kiểu đó :D Em đánh giá Word xử lý văn bản tốt nhất nên em sẽ làm mọi thứ có thể trong Word, sau đó copy vào Sigil chỉ làm thêm 1 vài thao tác thôi.
    Ví dụ ban đầu em có file Word như vầy:

    File Word đã được định dạng heading, định dạng chữ nghiêng, chữ đậm, đánh dấu chữ canh lề phải (rr), câu thơ (tt), chú thích (\).
    Sau đó thêm hàng loạt thẻ p, i, b rồi xóa <p> ở vị trí cuối cùng của hàng cuối và thêm <p> vào đầu văn bản; thêm hàng loạt ký hiệu đánh dấu heading h1, h2, h3... (dùng mấy câu lệnh thay thế hàng loạt) thì nó sẽ như vầy:

    Đến đây copy rồi paste vào Sigl dùng mấy câu lệnh thay thế regex là đóng gói xong ebook :D
    Gặp lỗi thì bấm phím F7 rùi em tự sửa vì thấy cũng đơn giản :P
     
    Chỉnh sửa cuối: 13/2/25
    vinaguy and sucsongmoi like this.
  17. vinaguy

    vinaguy Lớp 11

    Chúng ta chưa hiểu ý nhau rồi bác :) Soát chính tả hàng loạt thì em hiểu rồi, cơ mà gắn tag <i>, <b> ... các thứ đó... Làm sao mà gắn hàng loạt được ý (kiểu gì thì bác cũng phải đánh dấu, đúng không?). Em chỉ thắc mắc chỗ này thôi... Có thể quy trình làm epub của chúng ta có chút khác biệt nhau rồi... nên lắm lúc ông nói gà bà nói vịt í... :) Bác đếm bước cách làm của bác dùm em tí thì em sẽ hiểu được nè :):):)
    Cách của em:
    1) Có bản scan, crop header, footer của file scan này (đỡ nhọc công xóa bọn này sau khi OCR);
    2) Đưa scan này vào vFlat;
    3) Có text (Em chưa làm searchable bằng vFlat - Ca này em phải vọc);
    4) Mở song song 2 bản (scan (bản gốc, chưa crop) và text) trên cùng 1 màn mình chia trên dưới, lăn chuột trên file scan để tìm các chỗ: 1) cần kéo trang ở file text; 2) nghiêng, đậm, đít (3 thứ này em làm luôn trong word), 3) tiêu đề (những thứ này em viết thêm h1, h2...), 4) giữa, phải, hình ảnh (trước tab giữa, phải... em đánh dấu bằng 1 ký tự lạ - ví dụ (^) chẳng hạn, chỗ có hình thì em ghi "Hình + số trang của hình đó trong file scan";
    5) Replace all các chỗ nghiêng đậm đít đã làm ở trên bằng <b>...</b>, <i>...</i>... (xử lý ngay trong word);
    6) Copy tất cả từ word, dán vào notepad++ để gắn tag <p> (Trong word làm được bác nhé, nhưng trong word gắn không chính xác nên sau này phải sửa mất công lắm, gần như đuối toàn tập bác nhé);
    7) Copy all từ notepad++ và dán sang Cali;
    8) Replace all h1, h2, ký tự lạ các kiểu...
    9) Làm css và liên kết với file html;
    10) Chẻ trang html và làm mục lục;
    11) Làm chú thích.
    12) Xuất hình và xén hình từ file Scan, import tất cả hình này vào Cali;
    13) Chèn hình vào html bằng cách: Replace all <p>Hình + số trang của hình đó trong file scan</p> bằng link hình lúc nãy mới import vào;
    14) Soát chính tả Tự động - Bán tự động - bằng tay (Ngay trên Cali). Em thấy soát ở đây em hoàn toàn chấp nhận được...;
    15) DONE.
    P/S: Nếu cần file word, em sẽ export epub thành word ngay khi đã hoàn thành sách, và em được 1 file word sạch sẽ hoàn chỉnh (có cả hình ảnh và chú thích luôn)...
    Trên đây là quy trình của em... Bác cho em biết quy trình của bác để em biết được chúng ta bắt đầu rẽ hướng khác nhau từ đâu để còn định hình bác nhé. :):):)
     
    machine thích bài này.
  18. sucsongmoi

    sucsongmoi Lớp 8

    Sau khi ocr xong xuất ra pdf là searchable được. :D
     
    machine thích bài này.
  19. machine

    machine Sinh viên năm I

    Chuẩn rùi :D
    Em đã nói rõ ở trang trước là em OCR bằng Abbyy để tận dụng khả năng nhận dạng chữ nghiêng chữ đậm của nó cho 1 số quyển sách đặc thù.
    Bác lại cứ nghĩ đến vFlat :-@
     
  20. machine

    machine Sinh viên năm I

    Đúng nè ;))
    Nếu bấm Create PDF trước khi Create TXT thì thường chỉ được file scanned pdf thôi.
    Thank you :rose:
     

Chia sẻ trang này