Tuyển tập Những tác phẩm phản gián của Liên Xô

Thảo luận trong 'Tủ sách Văn học nước ngoài' bắt đầu bởi viettran_ru, 20/5/14.

  1. HissPop

    HissPop Mầm non

    Mình gởi file ocr đã được làm sạch 1 phần và file pdf Vui lòng đăng nhập hoặc đăng ký để xem link và đính kèm.

    Bạn nào đứng giúp dự án, để mọi người cùng check nhé.

    Cám ơn mọi người đã quan tâm.
     

    Các file đính kèm:

    onitrongnhan and sadec2 like this.
  2. SCCBAV

    SCCBAV Lớp 5

    upload_2024-8-7_10-16-2.png

    Rồi mà chúng ta có bản từ vựng phổ biến chung và đồng nhất chưa nạ, thì mới cùng check được phải hơm
     
  3. HissPop

    HissPop Mầm non

    @SCCBAV
    bạn giúp luôn bản từ vựng đó đi.

    btw, bản pdf em thấy nxb thường để dấu << >> thay cho dấu “”.
     
  4. SCCBAV

    SCCBAV Lớp 5

    Khả năng về từ phiên âm của mình bằng Mo, nên không biết là sẽ dùng từ Neman hay Nêman đâu nạ. Pác phải nhờ ai có chuyên môn cao ấy.

    Trước mình có công cụ để tìm từ khóa key word offline mà mất rồi lại hem nhớ tên, bản online tìm được ít từ quá. Bác nào biết phần mềm nào giới thiệu để thống kê key word đi ạ


    upload_2024-8-7_17-9-36.png
     
    Chỉnh sửa cuối: 7/8/24
  5. HissPop

    HissPop Mầm non

    Em mới vỡ lòng trong việc rà soát này, bác @SCCBAV ơi.

    Thôi thì bác nào có kinh nghiệm, vào cầm trịch giúp ợ
     
  6. HissPop

    HissPop Mầm non

    Nhờ bác Người máy chạy vài đường soát lỗi chính tả giúp :), em lượn lờ 4R thấy nhiều bài tút của bác khai sáng cho em được điều về làm sách ebook ghê.
     
    machine thích bài này.
  7. machine

    machine Sinh viên năm I

    Dạo này mình bận, không làm ebook nữa (chỉ post ebok cũ đã làm cách đây 1-2 năm :P), mình chia sẻ cách mình làm ebook như bên dưới, hi vọng giúp ích phần nào đó cho bạn.
    Nếu ocr bằng Abbyy thì mình chạy thêm Text Crawler với bộ dữ liệu tự xây dựng và không cần định dạng in đậm, in nghiêng nữa. Cho dù Abby kém hơn vFlat, vẫn nên ocr bằng Abbyy để tạo file searchable pdf, sẽ thuận tiện cho việc soát lỗi chính tả sau này, chỗ nào cần đối chiếu lại thì copy nội dung, paste vào file searchable pdf và search.
    Bạn ocr bằng vFlat thì phải, tiếp theo soát lỗi bằng Google Docs thôi (và định dạng in đậm, in nghiêng nếu có/muốn).

    file Word khoảng 200.000 từ, trên dưới 676 trang nên sẽ chia làm 4 phần tương ứng với 4 file, mỗi file khoảng 50.000 từ - 169 trang. Cách chia file Word này thành 4 phần:
    B1: tạo 4 Heading cách đều nhau. Chi tiết xem video này:

    Mình nhầm lẫn số trang khi tạo P3, P4 mà làm biếng sửa lại :">:P

    B2: Xóa bớt Heading để tạo file P1.docx chi tiết xem video này

    tương tự cho file P2, P3, P4

    Sau khi chia file Word thành 4 phần thì upload toàn bộ lên Google Drive, mở bằng Google Docs và dùng Google Docssoát chính tả lần lượt cho từng file cho file P1, P2, P3, P4.docx Chi tiết soát lỗi chính tả cho P1.docx xem video bên dưới:


    Sau khi soát chính tả bằng Google Docs cho cả 4 file thì ghép lại thành 1 file Word và có thể đóng gói thành ebook. Đọc ebook bằng điện thoại hoặc máy đọc sách, gặp cụm từ nghi ngờ là lỗi chính tả thì highlight/note, đọc được 1/3 hoặc 1/2 hoặc đọc xong toàn bộ thì export toàn bộ highlight/note thành file txt và dựa vào đó sửa lỗi chính tả cho file ebook.
    Soát lỗi bằng điện thoại hoặc máy đọc sách sẽ ít bị sót lỗi chính tả hơn so với đọc trên màn hình máy tính.
     
    Chỉnh sửa cuối: 14/8/24
    oldman20, HissPop and sucsongmoi like this.
  8. Nga Hoang

    Nga Hoang Lớp 12

    Đã đọc hết và vẫn không biết làm, nên tôi sửa lỗi chính tả theo lối thủ công truyền thống nghĩa là đọc đến đâu sửa đến đấy. Đồng thời thay hết phiên âm tên riêng tiếng Việt qua tiếng Anh dựa theo bản dịch tiếng Anh: The Moment of Truth.
    Sau đó sẽ gửi lên đây và nhờ các bạn tút lại cho đẹp. Tôi biết cái hố lần này mình đào muốn lấp sẽ mất rất nhiều thời gian. Nhưng lỡ đào rồi thì biết làm sao.
     
    Chỉnh sửa cuối: 14/8/24
    HissPop, Yomost and sucsongmoi like this.
  9. Yomost

    Yomost Mầm non

    Bác cho em xin bản tiếng Anh với ạ.
     
  10. machine

    machine Sinh viên năm I

    Soát lỗi bằng Google Docs giúp giảm một số lỗi chính tả thôi, vẫn còn sót rất nhiều nhưng cũng xứng đáng vì chỉ mất công click chuột là chính. Em sẽ hỏi/hướng dẫn lại lần lượt từng bước xem bác chưa hiểu ở chỗ nào để hướng dẫn rõ thêm, tại cái này dễ (đóng gói ebook thì khó hơn chút :P).
    Đầu tiên, bác đã tạo được 4 Heading 1 cách đều nhau như video bên dưới chưa?

    Nếu chưa thì có phải là do không tìm thấy nút Heading 1 trong file Word mà bác đang dùng?
    Trong video trên chỉ lưu ý là chuyển đến trang nào thì bấm tổ hợp phím Ctrl G và nhập số trang.
    Số trang và số từ: mở file Word và nhìn vào góc dưới bên trái, chỗ khoanh đỏ như ảnh dưới
    a.jpg
     
    HissPop and sucsongmoi like this.
  11. HissPop

    HissPop Mầm non

    @Nga Hoang @machine @
    file ocr đã được AI hỗ trợ nên lỗi chính tả rất ít, có chăng chỉ “nhặt” bằng “cơm” là những lỗi quá thuần Việt như “lẩn quất” ( bản scan là “lẩn quẩn” )

    Thêm nữa, mợ AI này lanh quá nên đôi khi tổng hợp các trang rà soát chính tả, hắn cũng “sáng tác” 1 kịch bản khác rất hấp dẫn so với bản gốc … nên cũng phải chỉnh sửa lại bằng “cơm” luôn mới được .

    Ngoài ra là các câu hội thoại thiếu gạch đầu dòng “-“. Cái này em cũng chỉnh thủ công thôi. Bác @machine có kinh nghiệm về vấn đề này chỉ giáo cho em vài chiêu nhé.
     
    machine thích bài này.
  12. machine

    machine Sinh viên năm I

    Sai lệch nội dung bản gốc thì nguy hiểm gấp nhiều lần so với sai chính tả.
    Mình cũng làm thủ công thôi, chưa biết cách nào khác.
     
    HissPop and sucsongmoi like this.
  13. HissPop

    HissPop Mầm non

    vâng em biết vậy, cái này không nhiều, soát nhanh được.

    Em cũng dùng textcrawler để soát, nhưng số lượt “bắt lỗi” rất ít, đôi khi thay đổi luôn cụm phiên âm tiếng Việt của tên riêng, hoặc chuyển chữ hoa thành chữ thường dù trong từ điện e đã phân biệt …
     
    machine thích bài này.
  14. HissPop

    HissPop Mầm non

    [QUOTE="SCCBAV”]

    Rồi mà chúng ta có bản từ vựng phổ biến chung và đồng nhất chưa nạ, thì mới cùng check được phải hơm[/QUOTE]

    Giờ em mới hiểu ý của bác. Dùng textcrawler để chuẩn hoá.
     
    Chỉnh sửa cuối: 15/8/24
  15. machine

    machine Sinh viên năm I

    Bộ dữ liệu mình post ở topic Text Crawler là để tăng độ chính xác sau khi ocr bằng Abby. Nếu ocr bằng vFlat hoặc Google Docs thì sử dụng không hiệu quả, cần tích lũy và xây dựng bộ dữ liệu khác (khi soát lỗi chính tả thì lưu các cụm từ lỗi lại, lâu dần sẽ có bộ dữ liệu đủ lớn cho Text Crawler phục vụ vFlat nhưng dường như không hiệu quả lắm vì vFlat cải tiến lỗi chính tả tiếng Việt liên tục, không như Abbyy cập nhật lỗi chính tả tiếng Việt rất chậm).

    Khi dùng Text Crawler cần lưu ý mỗi cụm từ thường phải có dấu cách ở cuối hoặc dấu phẩy dấu chấm ở cuối, nếu không sẽ dễ bị lẫn sang các cụm từ khác.
    Ví dụ: có cụm từ cần thay thế:
    Ân Độ --> Ấn Độ
    (ví dụ này mình đã viết 1 lần rồi)
    nếu bên dưới có cụm từ "quân đội" --> Text Crawler sẽ thay thế thành "quẤn Đội"
    --> ở cuối cụm từ phải có dấu cách hoặc dấu chấm, dấu phẩy
    a.jpg
    (để minh họa, _ tượng trưng cho dấu cách)

    Cái này mình cũng viết 1 lần rồi. Chữ hoa hay chữ thường là do cụm từ thay thế bên tay phải, cụm từ lỗi chính tả bên tay trái không phân biệt chữ hoa chữ thường.
     
    HissPop thích bài này.
  16. HissPop

    HissPop Mầm non

    @machine

    Em có 1 thẻ như sau

    <p>-&nbsp; - Xin tuân lệnh. - Alêkhin nói.</p>

    ( có nhiều khoảng trắng giữa 2 “-“ đầu tiên từ trái qua )

    và muốn chỉnh sửa thành:
    <p>- Xin tuân lệnh. - Alêkhin nói.</p>

    Mình dùng code regex như thế nào bác nhỉ.
     
  17. vinaguy

    vinaguy Lớp 11

    Thì bác bôi đen từ <p>.... (cho tới hết chỗ bác cần bỏ). Nhấn tiếp Ctrl+F rồi ở ô Replace bác để <p> rồi bấm replace all
    Chấm hết
     
  18. vinaguy

    vinaguy Lớp 11

    Nó viết lại kịch bản mới luôn... Em xài rồi, bị nó viết lại rồi, nên em chẳng dám dùng nữa :)
     
    machine thích bài này.
  19. machine

    machine Sinh viên năm I

    Không cần dùng Regex.
    [Cách loại bỏ khoảng trắng trong file epub]
    B1: thay &nbsp bằng 1 dấu cách
    Find: &nbsp
    Replace: (1 dấu cách)
    B2: thay 2 dấu cách bằng 1 dấu cách
    (thay thế nhiều lần đến khi hết)
    B3: thay <p> và 1 dấu cách bằng <p>
    B4: thay 1 dấu cách và </p> bằng </p>
    B5: cuối cùng: thay <p>- - bằng <p>-
     
    HissPop and sucsongmoi like this.
  20. HissPop

    HissPop Mầm non

    vì số khoảng trắng không giống nhau khi nằm giữa 2 dấu “-“ nên nếu vậy phải làm thủ công từng dòng một rồi. Lâu lắm bác ạ.

    Em nghĩ dùng regex mới nhanh được.
     

Chia sẻ trang này