Hướng dẫn Soát lỗi chính tả với phần mềm hỗ trợ

YurbleVn · 9/2/25

machine nói: ↑

Khác nhau đó bạn.
Bản 0.9.13 có tính năng chỉ liệt kê và hiển thị các cụm từ lỗi chính tả theo từ điển Vietnamese.dic và không hiển thị các cụm từ đúng chính tả (Bỏ chọn Show All Words).
Click to expand...

Của mình vẫn còn, chỉ bị vấn đề là nó không hỗ trợ unicode:

Nhưng mình thích cái Chính tả bên Calibre hơn..., hiển thị tổng số, rồi có đề nghị sửa nhiều chữ...

machine · 9/2/25

YurbleVn nói: ↑

Của mình vẫn còn, chỉ bị vấn đề là nó không hỗ trợ unicode:
View attachment 101925
Click to expand...

Bạn đang dùng Default dict, bạn đổi sang Vietnamese dict xem sao Ngay bên dưới nút Add To Dictionary: đó.

YurbleVn nói: ↑

Nhưng mình thích cái Chính tả bên Calibre hơn..., hiện thỉ tổng số, rồi có đề nghị sửa nhiều chữ...
View attachment 101926
Click to expand...

Cái này giống bản Sigil 0.9.13

YurbleVn · 10/2/25

machine nói: ↑

Ví dụ có cụm từ " ở phổ" nếu có dấu chấm dấu phẩy hoặc dấu cách thì nó là " ở phổ." " ở phổ," " ở phổ "
--> có thể thay thế thành " ở phố." " ở phố," " ở phố " (xác suất đúng 90%)
Nếu không có dấu chấm dấu phẩy hoặc dấu cách mà gặp cụm từ " ở phổ" thành bằng " ở phố" thì rất dễ thay sai, ví dụ như " ở phổi" --> " ở phối"
Click to expand...

Mã Python Script chưa giải quyết được vấn đề này. "ở phổi" vẫn bị đổi thành "ở phối". Mình đang hỏi thử người viết mã xem họ có chịu giúp sửa không.

Còn cái mã Sigil của mình đã loại bỏ khả năng ngày rồi. Nó chỉ search những chữ bắt đầu hoặc kết thúc bằng khoảng trống, dấu câu.
\b <-- mã này là báo cho Regex đó đó...

vinaguy · 10/2/25

Em lặn lội đọc hết tất cả những thứ mà bác @machine và @YurbleVn viết mà em choáng toàn tập luôn. Hiểu không nổi, thấy nó cứ rối tươm rối mù ra luôn các bác ạ

YurbleVn nói: ↑

(\.|\s|\?|\*|,|\!|"|“|”|'|-)(Từ01|Từ02|Từ03...|Từ0N)(\.|\s|\?|\*|,|\!|"|“|”|'|-)
Click to expand...

Đến cái chỗ này thì em thấy nó dài quá trời dài, em có cái đề xuất ngu ngu dưới đây xem có được không các bác?
Em muốn sửa:
(\.|\s|\?|\*|,|\!|"|“|”|'|-)(Từ01|Từ02|Từ03...|Từ0N)(\.|\s|\?|\*|,|\!|"|“|”|'|-)
thành
([^a-zA-Z0-9])(Từ01|Từ02|Từ03...|Từ0N)([^a-zA-Z0-9])
Còn những thứ khác thì em chưa thử gì cả, mới dừng lại ở mức "tiếp thu kiến thức" thôi... nên không biết nó "chạy chọt" như thế nào nữa.
Cơ mà theo quan điểm cá nhân... Em sợ replace cả lần 1 phát như thế này quá... Em chỉ muốn nó liệt kê cho em như Cali rồi em cứ bấm next next dạo qua và sửa thôi... chứ em không đủ can đảm bấm Replace all các bác ạ

YurbleVn · 10/2/25

vinaguy nói: ↑

Em muốn sửa:
(\.|\s|\?|\*|,|\!|"|“|”|'|-)(Từ01|Từ02|Từ03...|Từ0N)(\.|\s|\?|\*|,|\!|"|“|”|'|-)
thành
([^a-zA-Z0-9])(Từ01|Từ02|Từ03...|Từ0N)([^a-zA-Z0-9])
Click to expand...

Mã trên cũ rồi. Mình đã sửa mã thành
\b(Từ01|Từ02|Từ03...|Từ0N)\b

([^a-zA-Z0-9]) <-- cái này bạn không nên xài cho tiếng Việt. Nó sẽ không loại những chữ Đ,Ă,Ắ...., nên mã cũ mình mới kì công liệt kê ra..., chưa tìm ra mã cho tập kí tự tiếng Việt...

sucsongmoi · 10/2/25

vinaguy nói: ↑

Em sợ replace cả lần 1 phát như thế này quá...
Click to expand...

Đã từng bị vì replace all, bài học rút ra là save trước khi nhấn nút replace all.

YurbleVn · 10/2/25

vinaguy nói: ↑

Em lặn lội đọc hết tất cả những thứ mà bác Vui lòng đăng nhập hoặc đăng ký để xem link và Vui lòng đăng nhập hoặc đăng ký để xem link viết mà em choáng toàn tập luôn. Hiểu không nổi, thấy nó cứ rối tươm rối mù ra luôn các bác ạ
Click to expand...

Bạn Machine làm một bài rất kỳ công, để convert từ pdf sang ebook. Trong đó, bạn muốn dùng phần mềm convert để giữ được những chữ in nghiên trong sách gốc. Nhưng làm vậy, thì số lượng từ sai rất nhiều.

Và vì đó, bạn đã kì công xây dựng một bộ từ điển những chữ sai hơn 18465 chữ sai và chữ đúng tương ứng mà bạn đó đã kiểm tra. Mình lập lại, 18K chữ...

Bên cạnh đó, bạn cũng tập hợp 2000 chữ có thể đúng, có thể sai ("gợi lên" "gọi lên") và bạn làm tay từng tí một vì bạn không rành lập trình.

Mình chỉ giúp bạn:
1. Dùng notepad++ và script để tự động thay đổi 18K chữ đó, rút ngắn thời gian và công sức của bạn.
2. Kiểm chính tả 2k cái có thể sai hoặc đúng trên Sigil, không cần làm thủ công qua lại.

welcom1985 · 11/2/25

thấy mọi người bàn luận xôm quá, nay tôi góp ý thêm về việc đổi chữ cho file có in nghiêng, in đậm, gạch đít trong file word (sau khi ocr) ... thực ra textcrawler vẫn có thể chuyển được, cách làm như sau:
- Mở file word chứa văn bản, save as lại thành "web page" (ko phải web page filtered)
- Sau khi có file web page, ta dùng notepad++ mở file webpage này, vào mục encoding chọn "convert to utf-16 le bom", theo như kinh nghiệm của tôi làm như vậy thì khi search và replace bằng textcrawler sẽ ko bị lỗi hiển thị sai tiếng việt.
- Dùng textcrawler để search and replace file webpage đó (khi chọn file thì ta chọn đuôi file "all file" *.*) khi đó ta mới thấy file webpage, là sơ suất của tôi khi nói textcrawler chỉ chơi txt, nhưng tôi nhớ có đính chính lại rồi )
- Xong rồi ta mở cái file webpage đó bằng một trình duyệt nào đó , chrome chẳng hạn. Copy nội dung văn bản, xong dán vào một file word nào đó (khi paste nội dung thì nhớ chọn paste - "keep source fomartting"
Thiết nghĩ với cách này thì chúng ta sẽ tiết kiệm được một ít thời gian và công sức khi chèn cách tag định dạng nội dung.

YurbleVn · 12/2/25

@machine

Về cái dấu chấm "." trong từ điển. Mình sửa mã mới. Bây giờ bạn có thể gỡ bỏ hết tất cả những dấu câu, hoặc khoảng cách trong file dict.txt của bạn.

Mình tổng kết hết tất cả trong post này cho bạn dễ tham khảo:

Thay bằng Notepad++ và Python Script:

Thí dụ file dict.txt chứa từ điển sau:
ở phổ->ở phố

Và nội dung cần kiểm để thay chữ là:
Nếu ở phổ nhiều thì sẽ bị đau ở phổi. .ở phổ.

1.Mã MassReplacing_Code.txt sẽ đổi nội dung trên thành:
Nếu ở phố nhiều thì sẽ bị đau ở phối. .ở phố.
(giải thích: thay bất cứ thứ gì giống trong từ điển)

2.Mã MassReplacing_WordBoundary_Code.txt sẽ đổi nội dung trên thành:
Nếu ở phố nhiều thì sẽ bị đau ở phổi. .ở phố.
(giải thích: chỉ thay cho những cụm từ bắt đầu và kết thúc bằng khoảng cách hoặc dấu câu)

Thay bằng Sigil:

Mã chổ Find: \b(Từ01|Từ02|...\Từ0N)\b
(giải thích: chỉ tìm những cụm từ bắt đầu và kết thúc bằng khoảng cách hoặc dấu câu)

machine · 11/2/25

YurbleVn nói: ↑

Về cái dấu chấm "." trong từ điển. Mình sửa mã mới. Bây giờ bạn có thể gỡ bỏ hết tất cả những dấu câu, hoặc khoảng cách trong file dict.txt của bạn.
Click to expand...

Cảm ơn bạn nhiều nha

machine · 11/2/25

welcom1985 nói: ↑

thấy mọi người bàn luận xôm quá, nay tôi góp ý thêm về việc đổi chữ cho file có in nghiêng, in đậm, gạch đít trong file word (sau khi ocr) ... thực ra textcrawler vẫn có thể chuyển được, cách làm như sau:
...
...
Thiết nghĩ với cách này thì chúng ta sẽ tiết kiệm được một ít thời gian và công sức khi chèn cách tag định dạng nội dung.
Click to expand...

Thêm thẻ i, b, u trong Word cũng mất 2-3 phút thôi mà bạn
Vì vFlat không xuất ra định dạng in nghiêng, cực chẳng đã mới phải tạo bộ dữ liệu riêng và dùng công cụ/script thay thế hàng loạt.
Xin nhắc lại là cái này phù hợp nhất khi OCR bằng Abbyy và áp dụng cho các cuốn sách nhiều chữ (> 200 nghìn từ) và nhiều cụm từ in nghiêng (> 1000 cụm từ) ví dụ như bộ sách Lịch sử Việt Nam 15 tập của Viện Sử học

vinaguy · 12/2/25

YurbleVn nói: ↑

Mình tổng kết hết tất cả trong post này cho bạn dễ tham khảo:
Click to expand...

Giờ đọc lại cái này thì mình đã "thông minh" ra rồi... hiểu được các bác muốn thảo luận gì rồi...
Thanks heaps!!!

machine nói: ↑

Thêm thẻ i, b, u trong Word
Click to expand...

Em chưa hiểu được là bác muốn replace all hay là muốn Replace như thế nào luôn bác ạ. Bác nói dùm lại em với. Chứ thường thì em thấy trong sách in nó ưa nghiêng đâu thì nó nghiêng (và mình phải nghiêng theo thôi) nên mình đâu có xây dựng quy luật được để replace all đâu bác nhỉ? Thực sự em chưa hiểu được ý bác ở chỗ này.

machine · 12/2/25

vinaguy nói: ↑

Em chưa hiểu được là bác muốn replace all hay là muốn Replace như thế nào luôn bác ạ. Bác nói dùm lại em với. Chứ thường thì em thấy trong sách in nó ưa nghiêng đâu thì nó nghiêng (và mình phải nghiêng theo thôi) nên mình đâu có xây dựng quy luật được để replace all đâu bác nhỉ? Thực sự em chưa hiểu được ý bác ở chỗ này.
Click to expand...

Ý em là nếu file Word có chữ in nghiêng, in đậm thì dùng mấy câu lệnh thay thế để thêm thẻ i, b chỉ mất 2-3 phút là xong, không cần chuyển qua "save as lại thành "web page"" nữa.

YurbleVn · 12/2/25

machine nói: ↑

Ý em là nếu file Word có chữ in nghiêng, in đậm thì dùng mấy câu lệnh thay thế để thêm thẻ i, b chỉ mất 2-3 phút là xong, không cần chuyển qua "save as lại thành "web page"" nữa.
Click to expand...

Thật ra, dùng search thay thẻ , sẽ tốt hơn save as. Save as sẽ đẻ ra một loạt mã rác, càng rối hơn...

vinaguy · 13/2/25

YurbleVn nói: ↑

Thật ra, dùng search thay thẻ , sẽ tốt hơn save as.
Click to expand...

Hiện tại em vẫn làm theo kiểu này của bác trong Cali. Do em chưa biết mục tiêu của bác @machine nên em chưa biết phải triển khai như thế nào. Chứ với em thì thường lúc em OCR xong và lướt qua file txt để kéo trang thì em chia đôi màn hình máy vi tính, 1 nửa là file scan, 1 nửa là file txt và đã xử luôn cả đậm, nghiêng, gạch đít, tab giữa, tab phải, chú thích, tiêu đề, hình ảnh... ngay lúc này rồi, nên lúc bứng vào notepad++ là em chỉ uýnh gắn tag 1 phát nữa là bứng thẳng sang Cali luôn thôi (Em gắn tag trong notepad++ thay vì làm trong word là vì gắn trong word dễ gặp lỗi sau này sửa mệt, tốc độ nhanh như nhau)

machine · 13/2/25

vinaguy nói: ↑

Hiện tại em vẫn làm theo kiểu này của bác trong Cali. Do em chưa biết mục tiêu của bác @machine nên em chưa biết phải triển khai như thế nào.
Click to expand...

Ủa mục tiêu là thay thế hàng loạt lỗi chính tả khi OCR bằng Abbyy mà Bàn luận cả mấy trang rùi mà

vinaguy nói: ↑

Chứ với em thì thường lúc em OCR xong và lướt qua file txt để kéo trang thì em chia đôi màn hình máy vi tính, 1 nửa là file scan, 1 nửa là file txt
Click to expand...

Thay file scanned pdf bằng searchable pdf sẽ thuận tiện hơn đó bác, tìm kiếm dễ hơn, tạo bằng vFlat luôn.
Từ rất lâu rồi em không soát lỗi chính tả thủ công trên máy tính, mất thời gian lắm mà tỷ lệ bỏ sót lỗi chính tả cũng cao. Trên máy tính em chỉ thay thế lỗi chính tả hàng loạt và soát lỗi (bán tự động) bằng Sigil và bằng Goodle Docs sau đó đóng gói luôn và vừa đọc ebook (trên điện thoại hoặc máy đọc sách) vừa soát lỗi luôn. Gặp lỗi chính tả thì highlight sau đó đọc xong (hoặc đọc 30-50-70%) thì export highlight thành dạng text và sửa lỗi chính tả tiếp. Giống như bác imnubie làm ở đây:
Vui lòng đăng nhập hoặc đăng ký để xem link

vinaguy nói: ↑

và đã xử luôn cả đậm, nghiêng, gạch đít, tab giữa, tab phải, chú thích, tiêu đề, hình ảnh... ngay lúc này rồi, nên lúc bứng vào notepad++ là em chỉ uýnh gắn tag 1 phát nữa là bứng thẳng sang Cali luôn thôi (Em gắn tag trong notepad++ thay vì làm trong word là vì gắn trong word dễ gặp lỗi sau này sửa mệt, tốc độ nhanh như nhau)
Click to expand...

Ai quen kiểu nào thì làm kiểu đó Em đánh giá Word xử lý văn bản tốt nhất nên em sẽ làm mọi thứ có thể trong Word, sau đó copy vào Sigil chỉ làm thêm 1 vài thao tác thôi.
Ví dụ ban đầu em có file Word như vầy:

File Word đã được định dạng heading, định dạng chữ nghiêng, chữ đậm, đánh dấu chữ canh lề phải (rr), câu thơ (tt), chú thích (\).
Sau đó thêm hàng loạt thẻ p, i, b rồi xóa ở vị trí cuối cùng của hàng cuối và thêm vào đầu văn bản; thêm hàng loạt ký hiệu đánh dấu heading h1, h2, h3... (dùng mấy câu lệnh thay thế hàng loạt) thì nó sẽ như vầy:

Đến đây copy rồi paste vào Sigl dùng mấy câu lệnh thay thế regex là đóng gói xong ebook

vinaguy nói: ↑

(Em gắn tag trong notepad++ thay vì làm trong word là vì gắn trong word dễ gặp lỗi sau này sửa mệt, tốc độ nhanh như nhau)
Click to expand...

Gặp lỗi thì bấm phím F7 rùi em tự sửa vì thấy cũng đơn giản

vinaguy · 14/2/25

machine nói: ↑

Ủa mục tiêu là thay thế hàng loạt lỗi chính tả khi OCR bằng Abbyy mà Bàn luận cả mấy trang rùi mà
Click to expand...

Chúng ta chưa hiểu ý nhau rồi bác Soát chính tả hàng loạt thì em hiểu rồi, cơ mà gắn tag , ... các thứ đó... Làm sao mà gắn hàng loạt được ý (kiểu gì thì bác cũng phải đánh dấu, đúng không?). Em chỉ thắc mắc chỗ này thôi... Có thể quy trình làm epub của chúng ta có chút khác biệt nhau rồi... nên lắm lúc ông nói gà bà nói vịt í... Bác đếm bước cách làm của bác dùm em tí thì em sẽ hiểu được nè
Cách của em:
1) Có bản scan, crop header, footer của file scan này (đỡ nhọc công xóa bọn này sau khi OCR);
2) Đưa scan này vào vFlat;
3) Có text (Em chưa làm searchable bằng vFlat - Ca này em phải vọc);
4) Mở song song 2 bản (scan (bản gốc, chưa crop) và text) trên cùng 1 màn mình chia trên dưới, lăn chuột trên file scan để tìm các chỗ: 1) cần kéo trang ở file text; 2) nghiêng, đậm, đít (3 thứ này em làm luôn trong word), 3) tiêu đề (những thứ này em viết thêm h1, h2...), 4) giữa, phải, hình ảnh (trước tab giữa, phải... em đánh dấu bằng 1 ký tự lạ - ví dụ (^) chẳng hạn, chỗ có hình thì em ghi "Hình + số trang của hình đó trong file scan";
5) Replace all các chỗ nghiêng đậm đít đã làm ở trên bằng ..., ...... (xử lý ngay trong word);
6) Copy tất cả từ word, dán vào notepad++ để gắn tag (Trong word làm được bác nhé, nhưng trong word gắn không chính xác nên sau này phải sửa mất công lắm, gần như đuối toàn tập bác nhé);
7) Copy all từ notepad++ và dán sang Cali;
8) Replace all h1, h2, ký tự lạ các kiểu...
9) Làm css và liên kết với file html;
10) Chẻ trang html và làm mục lục;
11) Làm chú thích.
12) Xuất hình và xén hình từ file Scan, import tất cả hình này vào Cali;
13) Chèn hình vào html bằng cách: Replace all Hình + số trang của hình đó trong file scan bằng link hình lúc nãy mới import vào;
14) Soát chính tả Tự động - Bán tự động - bằng tay (Ngay trên Cali). Em thấy soát ở đây em hoàn toàn chấp nhận được...;
15) DONE.
P/S: Nếu cần file word, em sẽ export epub thành word ngay khi đã hoàn thành sách, và em được 1 file word sạch sẽ hoàn chỉnh (có cả hình ảnh và chú thích luôn)...
Trên đây là quy trình của em... Bác cho em biết quy trình của bác để em biết được chúng ta bắt đầu rẽ hướng khác nhau từ đâu để còn định hình bác nhé.

sucsongmoi · 14/2/25

vinaguy nói: ↑

3) ... (Em chưa làm searchable bằng vFlat - Ca này em phải vọc);
Click to expand...

Sau khi ocr xong xuất ra pdf là searchable được.

machine · 14/2/25

vinaguy nói: ↑

Chúng ta chưa hiểu ý nhau rồi bác
Click to expand...

Chuẩn rùi
Em đã nói rõ ở trang trước là em OCR bằng Abbyy để tận dụng khả năng nhận dạng chữ nghiêng chữ đậm của nó cho 1 số quyển sách đặc thù.
Bác lại cứ nghĩ đến vFlat

machine · 14/2/25

sucsongmoi nói: ↑

Sau khi ocr xong xuất ra pdf là searchable được.
Click to expand...

Đúng nè
Nếu bấm Create PDF trước khi Create TXT thì thường chỉ được file scanned pdf thôi.
Thank you

Đăng nhập

Hướng dẫn Soát lỗi chính tả với phần mềm hỗ trợ

YurbleVn Lớp 2

machine Sinh viên năm I

YurbleVn Lớp 2

vinaguy Lớp 12

YurbleVn Lớp 2

sucsongmoi Lớp 9

YurbleVn Lớp 2

welcom1985 Lớp 3

YurbleVn Lớp 2

Các file đính kèm:

MassReplacing_Code.txt

MassReplacing_WordBoundary_Code.txt

machine Sinh viên năm I

machine Sinh viên năm I

vinaguy Lớp 12

machine Sinh viên năm I

YurbleVn Lớp 2

vinaguy Lớp 12

machine Sinh viên năm I

vinaguy Lớp 12

sucsongmoi Lớp 9

machine Sinh viên năm I

machine Sinh viên năm I

Chia sẻ trang này