Hướng dẫn Soát lỗi chính tả với phần mềm hỗ trợ

Thảo luận trong 'Hướng dẫn chung' bắt đầu bởi machine, 6/1/23.

  1. YurbleVn

    YurbleVn Lớp 2

    khi chạy xong, nó sẽ tự động tắt file X.txt đi và sẽ hiện lên cái cửa sổ này nè:

    Guide End.png

    Nhưng nếu bạn còn lưu file A.txt, B.txt nào khác trong folder đó, thì nó sẽ chạy tiếp cho đến hết luôn. Nên mình mới kêu bạn đừng lưu trong folder Script, lưu chổ khác để kiểm soát được cái mình cần chạy...
     
    Chỉnh sửa cuối: 8/2/25
    vinaguy and machine like this.
  2. machine

    machine Sinh viên năm I

    Chạy được rồi đó bạn :D
    Cảm ơn bạn nhiều nha :x
    Công đức vô lượng :rose:
     
  3. YurbleVn

    YurbleVn Lớp 2

    Bạn thử luôn cái kiểm tra chính tả từ khả nghi/nhiều nghĩa mình hướng dẫn chưa?
     
    Chỉnh sửa cuối: 8/2/25
    machine thích bài này.
  4. machine

    machine Sinh viên năm I

    Mai mình thử nha.
    Cảm ơn bạn nha.
     
  5. machine

    machine Sinh viên năm I

    Cái này làm được rồi nè :D Cảm ơn bạn :rose:

    Bạn dùng bản Sigil version nào vậy? để mình cài cho giống.
    Mình đang dùng bản 0.9.13 trong Menu search không có tính năng Filter Replacement...
    File chứa các cụm từ nghi ngờ của mình ở bên dưới, hơn 2700 cụm từ.
     

    Các file đính kèm:

    vinaguy and sucsongmoi like this.
  6. YurbleVn

    YurbleVn Lớp 2

    Mình dùng bản mới nhất, mới cài hôm qua để test cho bạn. Chứ thường mình dùng Calibre..., tiếc là Calibre ko có tính năng tương đương...
     
    machine thích bài này.
  7. machine

    machine Sinh viên năm I

    Mình chạy được rồi. Cảm ơn bạn nhiều nha.
    Tiếc là bản Sigil mới không liệt kê được lỗi chính tả tiếng Việt.
    Ví dụ từ chổnggì là lỗi chính tả mà nó lại báo là No.
    Mình dùng từ điển chính tả Vietnamese.dic trong file rar đính kèm
     

    Các file đính kèm:

    vinaguy thích bài này.
  8. machine

    machine Sinh viên năm I

    Thay vì dùng [Chính Tả] để đánh dấu thì nếu thay bằng các cụm từ đúng sẽ rất tuyệt.
    Tức là bảng Excel có 1 cột là các cụm từ "nghi ngờ", 1 cột là các cụm từ có thể thay thế.
    Sau khi chạy Filter Replacement rồi căn cứ vào ngữ cảnh được liệt kê mình chọn các chỗ muốn thay thì sẽ rất tuyệt luôn.
     

    Các file đính kèm:

  9. YurbleVn

    YurbleVn Lớp 2

    Không làm được 1 từ thành nhiều từ để chọn.
    Nếu làm kết hợp 2 bước thì đổi 1 từ sai sang 1 từ đúng được thôi:

    Bước 1. Làm như cách mình bằng Sigil. Nhưng thay chổ Replace thành
    \1\2[ĐỔI]\3

    Bước 2. Bạn làm cái DictCumTuDaNghia.txt theo cấu trúc:
    Từ Cũ 1[ĐỔI]->Từ mới 1
    Từ cũ 2[ĐỔI]->Từ mới 2

    (Nhớ để ý không có khoảng cách nghe. Nếu có khoảng cách thì phải sửa câu lệnh ở trên có khoảng cách trước chữ [ĐỔI] tương ứng)

    Sau đó, lấy file chạy xong từ bước 1, qua làm bước 2... bằng Notepad++ và Script. Vậy là xong

    Nhưng cái file dict bạn phải chính xác lắm mới đc.
     
    Chỉnh sửa cuối: 9/2/25
    vinaguy and machine like this.
  10. machine

    machine Sinh viên năm I

    Đến bước liệt kê các cụm từ nghi ngờ thì số lượng không còn nhiều nữa (khoảng một vài trăm cụm từ) nên mình thấy cách bên dưới như bạn hướng dẫn là đơn giản mà vẫn đủ tốt:
    Cảm ơn bạn nhiều nha :rose:
    Vậy là mình có thể làm mấy quyển sách có vài nghìn cụm từ in nghiêng rồi, tiết kiệm được khá nhiều thời gian :D
     
  11. YurbleVn

    YurbleVn Lớp 2

    Bạn xem lại, mình dùng Sigil version 2.4.2 vẫn kiểm được chính tả từ "chổnggì" như bên dưới:
    upload_2025-2-9_16-0-21.png
     
  12. YurbleVn

    YurbleVn Lớp 2

    Mình có kiểm cái file ASK của bạn, nó có khá nhiều dấu. Bạn cẩn thận khi tạo mã search Regex, những kí tự sau đây đều phải được bắt đầu bằng dấu "\", nếu không mã regex sẽ hiểu nó theo kiểu khác

    ^ . [ ] $ ( ) * + ? | \
     
    Chỉnh sửa cuối: 9/2/25
    machine thích bài này.
  13. YurbleVn

    YurbleVn Lớp 2

    Mình đã đổi mã, cho nó đơn giản hơn:
    Mã cũ:
    Find: (\.|\s|\?|\*|,|\!|"|“|”|'|-)(Từ01|Từ02|Từ03...|Từ0N)(\.|\s|\?|\*|,|\!|"|“|”|'|-)
    Replace: \1\2[Chính Tả]\3

    Mã mới:

    Find: \b(Từ01|Từ02|Từ03...|Từ0N)\b
    Replace: \1[Chính Tả]
     
    Chỉnh sửa cuối: 9/2/25
    vinaguy and machine like this.
  14. tran ngoc anh

    tran ngoc anh Cử nhân

    Notepad++ chạy script này trên file .md thì còn gì bằng nữa :D
     
    machine thích bài này.
  15. machine

    machine Sinh viên năm I

    Chỗ này mình xử lý được rồi :D
    Vì đã gắn được [Chính Tả] vào cuối một số cụm từ nghi ngờ và xác định chính xác là nó cần thay thế nên là ở bước tiếp theo mình dùng từ điển Dict2.txt tạo từ bảng Excel Ask.xlsx bằng cách thêm cụm từ [Chính Tả] vào cuối mỗi từ (mỗi ô) ở cột A.
    Mở Notepad++ chạy script MassReplacing_Code với Dict2.txt là thay thế được 1 loạt cụm từ nghi ngờ.
    Cụ thể: chỉ những cụm từ đã được xác định là cần thay thế ở bước nghi ngờ (Filter Replacement) mới được gắn đuôi [Chính Tả] và Dict2.txt chỉ tìm các cụm từ có đuôi [Chính Tả]
    Mình đính kèm 2 file bên dưới để minh họa.
     

    Các file đính kèm:

    vinaguy thích bài này.
  16. machine

    machine Sinh viên năm I

    Cảm ơn bạn.
    Cái này mình sơ suất, chắc phải loại toàn bộ dấu chấm "." và dấu phẩy "," ra khỏi Ask.xlsx
    Làm lại file Dict.xlsx là được: đoạn đầu thay dấu chấm"." bằng "_." và dấu phẩy "," bằng "_," xong đến cuối vẫn giữ nguyên không đổi nữa, khi chạy xong Dict2 mới đổi lại "_." thành dấu chấm "." và "_," thành dấu phẩy "," (_ tượng trưng cho dấu cách - khoảng trắng).
     
    vinaguy thích bài này.
  17. YurbleVn

    YurbleVn Lớp 2

    Thay dấu "." bằng "_." không có ý nghĩa với Regex. Regex vẫn hiểu dấu "." trong câu lệnh là "bất kỳ kí tự nào". Nếu bạn vẫn muốn tìm cụm từ "ABC.", thì nó phải lưu thế này "ABC\." trong file search. Nếu không, regex sẽ tìm ABCx trong đó, x có thể là bất kì ký tự nào.

    Tương tự cho các kí tự mình liệt kê ở trên. Còn dấu "," không bị hạn chế.
    Bạn gặp vấn đề gì mà phải có dấu "." "<i>" "<" trong file ASK?
     
    Chỉnh sửa cuối: 9/2/25
    vinaguy thích bài này.
  18. machine

    machine Sinh viên năm I

    Khác nhau đó bạn.
    Bản 0.9.13 có tính năng chỉ liệt kê và hiển thị các cụm từ lỗi chính tả theo từ điển Vietnamese.dic và không hiển thị các cụm từ đúng chính tả (Bỏ chọn Show All Words).
    --> sửa chính tả hoặc bổ sung dữ liệu cho Bộ dữ liệu chính tả của mình rất thuận tiện.
    Các version mới hơn như 1.2.x, 1.5.x, 1.9.x và 2.2.x đều bị lỗi ở tính năng liệt kê các cụm từ sai chính tả.
    Cụ thể như video dưới đây.
     
    Chỉnh sửa cuối: 9/2/25
    vinaguy thích bài này.
  19. machine

    machine Sinh viên năm I

    Ví dụ có cụm từ " ở phổ" nếu có dấu chấm dấu phẩy hoặc dấu cách thì nó là " ở phổ." " ở phổ," " ở phổ "
    --> có thể thay thế thành " ở phố." " ở phố," " ở phố " (xác suất đúng 90%)
    Nếu không có dấu chấm dấu phẩy hoặc dấu cách mà gặp cụm từ " ở phổ" thành bằng " ở phố" thì rất dễ thay sai, ví dụ như " ở phổi" --> " ở phối"
     
    vinaguy thích bài này.
  20. machine

    machine Sinh viên năm I

    Vậy là mình đã biết cách thay thế hàng loạt bằng PythonScript kết hợp Sigil.
    Cảm ơn bạn @YurbleVn nhiều nha. Bạn đã hướng dẫn rất nhiệt tình.
    Công đức vô lượng :rose:
     
    vinaguy thích bài này.

Chia sẻ trang này