1. Click vào đây để xem chi tiết

Hướng dẫn Soát lỗi chính tả với phần mềm hỗ trợ

Thảo luận trong 'Hướng dẫn chung' bắt đầu bởi machine, 6/1/23.

  1. tran ngoc anh

    tran ngoc anh Cử nhân

    Với txt thì dùng regex \n cho những dấu xuống dòng y như ^p của word vậy. Cụ thể hơn nữa đầu dòng là \n, cuối dòng là \r giống như <p> và </p> vậy. Dùng nhiều txt nên ưu tiên regex và cài Notepad++ đi cụ.
     
    vinaguy and machine like this.
  2. Narga

    Narga Lớp 5

    Bạn thử tìm hiểu hunspell xem sao, từ điển của nó hỗ trợ đến 175000 từ đó bạn.
    Mà Sigil có plugin dùng hunspell luôn thì phải, nên có thể check luôn file epub mà không cần phải mất công chuyển sang txt. Mình thì đọc rồi check nên chưa tìm hiểu nhiều về công cụ này.
     
    Chỉnh sửa cuối: 7/1/23
    vinaguy and machine like this.
  3. tran ngoc anh

    tran ngoc anh Cử nhân

    Cụ người máy thử dùng Pandoc đi, docx-html, rồi sửa đuôi html thành txt thì Text Crawler cũng xử lý được thôi. Pandoc còn giữ được các tag sub, sup, u cũng như chuyển ngọt luôn chú thích
     
    vinaguy and machine like this.
  4. machine

    machine Sinh viên năm I

    Mình tìm hiểu sơ sơ thì hunspell liệt kê lỗi chính tả thôi chứ nó không thể thay thế hàng loạt cụm từ theo danh sách (do người dùng tạo ra) giống như Text Cralwer. Cảm ơn bạn.
     
    vinaguy and Narga like this.
  5. machine

    machine Sinh viên năm I

    Vấn đề không phải là word hay pandoc, vì từ word mất 2-3 phút là cũng thêm hàng loạt thẻ được rồi.
    Vấn đề là đang cần có phần mềm đọc được hơn 16.000 cụm từ ở bên trái, thay thế bằng hơn 16.000 cụm từ ở bên phải (đúng sai tính sau).
    Bản Text Crawler hiện tại chỉ chạy tốt với 800-1000 từ một lần thôi, nên hiện nay đang phải chạy Text Crawler tận 20 lần cho mỗi quyển sách :p
    Thôi đành chờ sau này Abbyy tốt lên, Text Crawler tốt hơn, Google Docs tốt hơn vậy :D
     
    vinaguy thích bài này.
  6. tran ngoc anh

    tran ngoc anh Cử nhân

    Dùng Pandoc để lượt bớt đoạn mã hóa mà, mình đã nói gì đến đoạn chính tả đâu? Pandoc xử trong 3s, bạn mã hóa tận 3 phút, ai cũng sẽ biết 3s nhanh gấp 60 lần 3 phút đấy.
     
    vinaguy and machine like this.
  7. vinaguy

    vinaguy Lớp 11

    Chu choa mọa ưi... Sáng giờ em bấm "lai" mỏi tay luôn...
    Gặp đúng các chiên gia soát chính tả đây rồi... Gì thì gì... hôm sau em được hưởng lợi rồi... Cứ gặp ca khó là ném cho 2 bác @machine@tran ngoc anh... Đỡ biết bao nhiêu.
    Còn phần trên để em ngâm cú từ từ, đọc qua cứ thấy ầm ầm như nước chảy đầu vịt í.
     
    machine thích bài này.
  8. machine

    machine Sinh viên năm I

    Soát xong bằng Text Crawler với Sigil là cũng giảm được một vài nghìn lỗi chính tả rồi, còn sót khoảng vài trăm lỗi chính tả thôi (<500), sau đấy thì phụ thuộc vào Google Docs.
    Mà Google Docs cố tình bỏ sót chính tả hay sao ấy (chắc tại dùng miễn phí). Ví dụ có lần trong file đó có 6 từ "bổn tắm" (từ đúng là "bồn tắm") nó sửa có 4 từ thôi, còn 2 từ nó bỏ sót. Nhiều khi Google Docs soát lỗi xong rồi down về máy xong upload tiếp nó lại soát được thêm một số (hơn 10) lỗi nữa :D
     
  9. Narga

    Narga Lớp 5

    Có thể do trình duyệt hoặc do mạng, bạn thử với một trình duyệt riêng và chỉ mở 1 tab có Google Docs thôi, khả năng xử lí văn bản nó mượt và nhanh hơn hẳn.
     
    machine thích bài này.
  10. guramsergienko

    guramsergienko Mầm non

    Ngoài lề chút là từ text bình thường trên Word mình muốn bôi đen tất cả các chữ ở giữa 2 dấu ngoặc vuông (bao gồm dấu ngoặc), kiểu như vầy
    Không biết bạn có idea gì cho vụ này không ta?
     
  11. vinaguy

    vinaguy Lớp 11

    Nếu bác muốn dùng chức năng Find and Replace trong word để chọn tất cả các ký tự trong dấu ngoặc vuông ([]) và in đậm đoạn chọn này, bác có thể làm theo các bước sau:
    • Nhấn phím Ctrl + H trên bàn phím hoặc nhấp vào nút Find and Replace (H) trên thanh công cụ.
    • Trong hộp thoại Find and Replace, nhập [.*?] vào ô Find what (Tìm gì).
    • Nhấn nút More (Thêm) để mở rộng các tùy chọn.
    • Chọn ô Use wildcards (Sử dụng ký tự đại diện).
    • Nhấn nút Format (Định dạng) và chọn Font (Phông chữ).
    • Trong hộp thoại Font, chọn ô Bold (In đậm) và nhấn OK.
    • Nhập & vào ô Replace with (Thay bằng).
    • Nhấn nút Replace All (Thay thế tất cả). Bác sẽ thấy tất cả các ký tự trong dấu ngoặc vuông được in đậm.
     
    guramsergienko thích bài này.
  12. guramsergienko

    guramsergienko Mầm non

    Mình làm theo thì nó chỉ tìm các dấu chấm được im đậm rồi thay dấu chấm này thành dấu &, không biết có nhầm bước nào không ta
    upload_2023-5-31_11-28-58.png
     
    Chỉnh sửa cuối: 31/5/23
    machine thích bài này.
  13. vinaguy

    vinaguy Lớp 11

    Để lát em chách lại rồi trả lời bác nghen
     
    guramsergienko thích bài này.
  14. machine

    machine Sinh viên năm I

    Wildcard trong Word "yếu" lắm, không "mạnh" như regex trong Sigil/Calibre. Mấy yêu cầu như của bạn mình thường làm trong Sigil vì đằng nào cũng mất công đóng gói ebook.
     
    guramsergienko and tran ngoc anh like this.
  15. vinaguy

    vinaguy Lớp 11

    Làm ở trong Calibre hoặc là Sigil thì dễ òm rồi. Còn làm trong word thì em mò nãy giờ, và đi tìm thêm thông tin thì lại có một số ý kiến cho rằng các version word khác nhau có thể biểu thức FIND sẽ khác nhau. Thế có chán không cơ chứ. Vẫn chưa tìm được cách gỡ rối vụ này luôn. Em đang tìm cách làm bác nhé. Hoặc không bác cứ để trong dấu ngoặc vuông như vậy đi [bla bla bla] và lúc chuyển sang làm epub thì chúng ta replace hàng loạt sau.
    Đề bài đặt ra lại là làm trên word bác ơi... Thế mới căng nè. Em thử lại trên word 365 mới nhất của em nó cũng báo lỗi luôn í. :(
     
    machine and guramsergienko like this.
  16. Anan Két

    Anan Két Lớp 8

    Bạn thử nhập như sau nhé:
    wildcard.png
    Bạn tham khảo 2 bài dưới đây nhé, chúc bạn thành công: :D
    Vui lòng đăng nhập hoặc đăng ký để xem link
    Vui lòng đăng nhập hoặc đăng ký để xem link
     
    STTGK1999, gachi00, machine and 3 others like this.
  17. vinaguy

    vinaguy Lớp 11

    OK được rồi nè Sếp Két. upload_2023-5-31_14-19-9.png

    Nếu bác muốn dùng chức năng Find and Replace trong word để chọn tất cả các ký tự trong dấu ngoặc vuông ([]) và in đậm đoạn chọn này, bác có thể làm theo các bước sau:
    • Nhấn phím Ctrl + H trên bàn phím hoặc nhấp vào nút Find and Replace (H) trên thanh công cụ.
    • Trong hộp thoại Find and Replace, nhập (\[*\]) vào ô Find what (Tìm gì).
    • Nhấn nút More (Thêm) để mở rộng các tùy chọn.
    • Chọn ô Use wildcards (Sử dụng ký tự đại diện).
    • Đặt con trỏ vào ô Replace with
    • Nhấn nút Format (Định dạng) và chọn Font (Phông chữ).
    • Trong hộp thoại Font, chọn ô Bold (In đậm) và nhấn OK.
    • Nhấn nút Replace All (Thay thế tất cả). Bác sẽ thấy tất cả các ký tự trong dấu ngoặc vuông được in đậm.
     
  18. guramsergienko

    guramsergienko Mầm non

    Cám ơn mọi người, mình đã làm được cute_smiley26
     
    Anan Két thích bài này.
  19. machine

    machine Sinh viên năm I

    Công đức vô lượng :rose::D
     
    Anan Két thích bài này.
  20. YurbleVn

    YurbleVn Lớp 2

    Cái đoạn Crawl Text gì đó, thấy tác giả viết nhiều công đoạn quá, không biết 3 ý tưởng dưới đây của mình có làm giảm được bước nào của bạn không.

    1. Dùng NotePad++ và Python script (cài mã trong file đính kèm vào Python Plugin trên Notepad++): cái mã này sẽ thay một loạt chữ bằng một loạt chữ tương ứng khác đã được định trước.

    Đầu tiên, bạn tạo một file *.txt theo cấu trúc
    cũ1->mới1
    cũ2->mới2

    Sau đó lưu vào một folder nào đó. Nhớ đặt tên cái file định nghĩa này tránh chữ test 1, 2..... Giờ tạm gọi là "MassReplaceDict.txt"

    Sau đó copy những file *.txt, *.html nào cần đổi vào luôn cái folder đó.

    Sau đó, mở cái file MassReplaceDict.txt. Rồi vào Python PlugIn chạy Script bên dưới. Nó sẽ đổi tất cả chữ mà bạn đã định ra trong MassReplaceDict.txt đó cho tất cả file *.txt, *.html có lưu trong cùng folder.

    (phần mềm Emeditor cũng có tính năng này, khỏi cần viết script, nhưng khó tìm được phần mềm Crack mà an toàn, không thì phải trả phí)

    2. Dùng tính năng search và replace theo group trên Sigil. Cái này dựa trên tính năng của Sigil khi bạn mở "Save Search", nó cho bạn Group các search lại và Search một lần cả Group đó.

    Cái này phải tốn công tạo một cái file .ini để đổi những chữ bạn đã tạo ra thành search của Sigil. Ở dưới là cấu trúc file .ini mà mình tạo với 2 trường. (Chữ "Chính Tả" là tên của Group)

    Sau đó, bạn import cái file *.ini này vào cái search và search theo kiểu group. Mình chưa thử Sigil, xem nó chịu được bao nhiều cái search. Nhưng chắc cũng mạnh.

    [search_entries]
    1\Name=Chính Tả/Lâm Sàng
    1\Find=lầm sàng
    1\Replace=lâm sàng
    1\Controls=NL WR DN AH
    2\Name=Chính Tả/Tương Đổi
    2\Find=tương đổi
    2\Replace=tương đối
    2\Controls=NL WR DN AH
    size=2

    3. Dùng phần mềm QT convert chuyên dùng để convert tiếng trung sang tiếng Việt. Nhưng thay gì đổi tiếng Trung, bạn thay cái file Vietphrase bằng cái danh sách của bạn. Cái QT này mình chạy lọc 1 file 300K chữ trên nền dữ liệu 32MB chữ cần thay thế, tốn chừng 1 - 2 phút.

    Hy vọng có thể giúp
     

    Các file đính kèm:

    Chỉnh sửa cuối: 8/2/25
    gift4you, SCCBAV, machine and 2 others like this.

Chia sẻ trang này