Hướng dẫn Soát lỗi chính tả với phần mềm hỗ trợ

Thảo luận trong 'Hướng dẫn chung' bắt đầu bởi machine, 6/1/23.

  1. tran ngoc anh

    tran ngoc anh Cử nhân

    Mình cũng hay dùng Notepad++. Nếu có script thay hàng loạt như này thì quá tốt rồi.
     
    machine thích bài này.
  2. machine

    machine Sinh viên năm I

    Cảm ơn bạn nhiều @};-@};-
    Vấn đề là mình có file Word (gọi là X.docx đi) khoảng 100-200 nghìn từ có định dạng in nghiêng, in đậm và có nhiều cụm từ sai lỗi chính tả.
    Có file Excel (gọi là Y.xlsx đi) có 2 cột, một cột chứa cụm từ lỗi (cột A), một cột chứa cụm từ đúng (cột B). Tổng cộng mỗi cột có khoảng 18 nghìn cụm từ.
    Mình cần phần mềm đọc lần lượt từng ô trong cột A so sánh xem có cụm từ nào trong file X.docx giống vậy thì thay bằng cụm từ tương ứng trong cột B.
    Hiện nay mình chưa tìm thấy phần mềm nào thích hợp để làm việc này nên mới phải xử lý lòng vòng qua TextCrawler.
    Ngoài ra thì mình không thạo về lập trình :"> có phần mềm nào có sẵn thì mình sử dụng thôi :D
     
  3. machine

    machine Sinh viên năm I

    Cái này dường như là thích hợp.
    Ví dụ mình có file dict.txt (đính kèm bên dưới) chứa hơn 13 nghìn cụm từ, cụm từ đúng và cụm từ sai nằm trên cùng 1 dòng và cách nhau bởi dấu tab.
    sau đó mình có file X.docx hoặc X.txt (khoảng 200 nghìn từ) là văn bản cần thay thế hàng loạt cụm từ.
    Bạn có thể hướng dẫn chi tiết cho trường hợp này được không?
     

    Các file đính kèm:

    tran ngoc anh thích bài này.
  4. YurbleVn

    YurbleVn Lớp 2

    Bạn gửi luôn một file X.docx của bạn qua đây, mình sẽ thử rồi hướng dẫn lại...

    Gửi luôn mình file dict mà theo dạng excel của bạn..., mình thử bằng Sigil luôn
     
    Chỉnh sửa cuối: 7/2/25
  5. YurbleVn

    YurbleVn Lớp 2

    Script này mình cũng tìm trên mạng thôi. Thật ra, nếu dùng Emeditor thì đơn giản hơn. Nhưng phải dùng phần mềm bẻ khóa, không thì phải mua phần mềm. nên mình cũng ngại.
     
    machine thích bài này.
  6. machine

    machine Sinh viên năm I

    Tối mình gửi nha. Cảm ơn bạn.
     
  7. machine

    machine Sinh viên năm I

    Đây bạn.
    File Excel trong file rar.
    file X.docx có khoảng 230 nghìn từ và có khoảng 2200 cụm từ in nghiêng trong đó.
    File X.txt tạo từ file X.docx và thêm thẻ p, i.
    Nếu bạn dùng Sigil thì mình tạo sẵn file X.epub để bạn dùng được luôn.
     

    Các file đính kèm:

    • X.docx
      Kích thước:
      993.4 KB
      Đọc:
      3
    • txt
      X.txt
      Kích thước:
      2.1 MB
      Đọc:
      7
    • rar
      Y.rar
      Kích thước:
      402.5 KB
      Đọc:
      4
    • X.epub
      Kích thước:
      429.6 KB
      Đọc:
      3
    Chỉnh sửa cuối: 7/2/25
    tran ngoc anh thích bài này.
  8. YurbleVn

    YurbleVn Lớp 2

    Hướng dẫn sử dụng Notepad++

    1. Cài Python Scipt:
    làm như trong hình. Chỉ thay vì vào chổ "Installed" thì vào chổ tab "Available". Không thì vào cái link nó ghi trong cái hình này để tải.
    Guide 0.png

    2. Cài Script:
    a. Tải cái file MassReplace_Code.txt bên dưới. Sau đó, đổi nó thành MassReplace_Code.py
    b. Thêm New script vào Python Script bằng cách chép nó vào
    C:\Program Files\Notepad++\plugins\PythonScript\scripts

    Sau đó, tắt Notepad++ và mở lại

    3.Lưu file Dict.txt mình đã sửa bên dưới (file định nghĩa những từ cần sửa) và file cần sửa (trong trường hợp này là file X.txt của bạn) vào cùng một folder. Có thể lưu nhiều file cần sửa vào chung folder này. Script sẽ chạy hết tất cả các file txt, html, log trong folder này. Script này chấp nhận cả sub folder nếu muốn. Nhưn chạy sẽ lâu thêm.

    4. Mở file Dict.txt
    và chạy mã như hình dưới
    Guide 1.png


    Sau đó cứ bấm ok 4 lần, hoặc chọn tùy theo cái bạn muốn script làm. Nó sẽ tự động mở file X.txt lên sửa. Đừng làm gì nó, cứ để nó chạy. Khi nào nó xong. nó sẽ hiện lên một cái cửa sổ "done". File X của bạn mình chạy 5 phút. Nếu có nhiều file hơn, thì sau khi sửa hết 1 file, nó sẽ chạy file khác sửa tiếp...
     

    Các file đính kèm:

    Chỉnh sửa cuối: 8/2/25
    vinaguy, tran ngoc anh and machine like this.
  9. YurbleVn

    YurbleVn Lớp 2

    Đây là file X.txt mình đã chỉnh theo cách trên, bạn xem được không. Vì bị hạn chế số file đính kèm, nên phải gửi thêm thread mới..
     

    Các file đính kèm:

    • txt
      X.txt
      Kích thước:
      2.1 MB
      Đọc:
      2
    vinaguy and machine like this.
  10. YurbleVn

    YurbleVn Lớp 2

    Mình cũng đã test 2 ý tưởng kia.

    Cách 2: Search theo Group Search trên Sigil. Chạy được nhưng quá chậm. 10' mà chưa xong. Nên thôi bỏ.

    Nhưng được cái là làm trực tiếp trên Sigil. Và cho phép bạn kiểm tra trước khi sửa. Nên phù hợp với việc kiểm tra và sửa trực tiếp những tư dễ sai: "gợi lên" vs "gọi lên"

    Cách 3: Đã test luôn cách QT Translate. Phần mềm này chạy nhanh khá nhanh. Kích thước file dic.txt bự hơn cũng không sao.

    Nhưng mình cần kiểm tra lại, vì bản thân QT có tự động convert một số ký tự (thí dụ “ ” thành " "). Để xem có chổ nào tắt đi không. Nên vẫn chưa tự tin khuyến nghị.

    Với lại, cách 1 chạy khá ổn và cho phép làm nhiều file, áp dụng cho nhiều trường hợp. Nên chắc không cần cách này.
     
    Chỉnh sửa cuối: 7/2/25
    vinaguy and machine like this.
  11. YurbleVn

    YurbleVn Lớp 2

    Về phần này, mình đề xuất bạn một cách làm khác, có thể dễ dàng hơn và đỡ công chuyển cửa sổ qua lại.

    Cách kiểm và đổi từng từ:
    Bạn đổi cái danh sách từ "Khả Nghi" của bạn theo cấu trúc sau:
    (\.|\s|\?|\*|,|\!|"|“|”|'|-)(Từ01|Từ02|Từ03...|Từ0N)(\.|\s|\?|\*|,|\!|"|“|”|'|-)

    Sau đó, dùng tính năng search Regex của Sigil. Cứ search từng cái và sửa...

    (\.|\s|\?|\*|,|\!|"|“|”|'|-) <- đoạn này ý nghĩa là chỉ lấy những từ bắt đầu và kết thúc bằng các dấu liệt kê trong đó (“ ”, *,。?!),hoặc khoảng cách (\s). Dấu gạch đứng | là dấu "hoặc", muốn thêm dấu nào khác vào thì cứ thêm dấu | vào trước...(trừ vài dấu đặc biệt phải thêm vào cần có dấu \ ở trước (như: . * ? ! )

    Cách kiểm trước một loạt rồi sau đó đổi những chổ cần đổi:
    Cũng dùng cái Regex search như ở trên. Nhưng ở phần Replace, bạn thay bằng mã: \1\2[Chính Tả]\3
    Cái này ý là, tìm ra để ý như cũ, thêm vào [Chính Tả] làm dấu trang.
    Xem hình để tham khảo:
    Search 0.png

    Nhưng đừng search và replace gì cả. Mà vào Search và xài tính năng "Filter Replacement" như hình bên dưới:
    Chinh Ta.png


    Sau đó, nó sẽ chạy tìm hết những chữ có trong danh sách của bạn và liệt kê ra. Mình dùng danh sách trong file excel "Dict 230103" của bạn và chạy trên cuốn truyện Đường Chuyên 5.8MBs thì tốn tầm 3-4 phút nó sẽ chạy ra cái bảng này
    Chinh Ta 2.png

    Dựa trên bảng này, Đầu tiên bạn bỏ chọn hết (ở trên cái gốc trái trên cùng select/un-select all). Tiện thể sửa luôn cái số "Context" ở gốc phải cửa sổ sang 50. Sau đó, bạn đọc và chọn chổ nào bạn muốn sửa...

    Khi chọn xong, bấm "Apply Changes"
    Sau đó, những chổ cần sửa sẽ được thêm chữ [Chính Tả], bạn cứ search và sửa....

    Mình cũng đính kèm mã search (SearchChinhTaCumTu.txt) mình đã đổi từ File Excel "Dict 230103" của bạn
     

    Các file đính kèm:

    Chỉnh sửa cuối: 9/2/25
    vinaguy, Lan Giao and machine like this.
  12. machine

    machine Sinh viên năm I

    Để mình thử xem sao. Cảm ơn bạn \:D/
     
  13. YurbleVn

    YurbleVn Lớp 2

    cho mình hỏi, từ điển nào có 175K từ vậy, cho mình xin link với
     
    Chỉnh sửa cuối: 8/2/25
  14. machine

    machine Sinh viên năm I

    Mình đặt tất cả các file ở C:\Download mà không chạy được.
    Không biết có sai sót chỗ nào không nữa.
     
  15. YurbleVn

    YurbleVn Lớp 2

    Lưu cái Massreplacement_code.py đó vào
    C:\Program Files\Notepad++\plugins\PythonScript\scripts
     
    Chỉnh sửa cuối: 8/2/25
    machine thích bài này.
  16. machine

    machine Sinh viên năm I

    Mình lưu hết vào C:\Download như video này vẫn không được.
    Mình dùng Win 10, Notepad++ 8.7.7
    Python Script cài cho Notepad++ là bản 2.0
     
    vinaguy thích bài này.
  17. YurbleVn

    YurbleVn Lớp 2

    Bạn chép file MassReplace_code.py vào chổ này, rồi tắt NotePad++ mở lại thử:

    C:\Program Files\Notepad++\plugins\PythonScript\scripts
     
    machine thích bài này.
  18. machine

    machine Sinh viên năm I

    Mình làm như trên, đã có Massreplacing_Code trong Menu Script như không thay thế được từ nào.
    Mình làm như video này:
     
  19. YurbleVn

    YurbleVn Lớp 2

    Bạn làm ngược rồi: Bạn mở file Dict.txt rồi chạy script, chứ đừng mở X.txt

    Nguyên tắt hoạt động của nó là: dựa vào định nghĩa trong file file đang mở (Dict.txt), thay đổi cho tất cả những file X.txt, X.html, X.log lưu trong cùng folder đó...

    Và bạn không cần lưu file Dict.txt và X.txt vào trong folder Script của App đâu. Lưu ở chổ khác đi bạn, để tránh rối.
     
    Chỉnh sửa cuối: 8/2/25
    vinaguy and machine like this.
  20. machine

    machine Sinh viên năm I

    Cảm ơn bạn. Mình thấy chạy rồi đó. Thấy thay được mấy từ rồi mà không biết khi nào nó chạy xong. Khi chạy xong có dấu hiệu hay thông báo gì không bạn?
     
    vinaguy thích bài này.

Chia sẻ trang này