PC [gdoc, html] Dùng Google Doc tạo html sạch để làm epub

Thảo luận trong 'Hướng dẫn chung' bắt đầu bởi tran ngoc anh, 14/9/21.

  1. vinaguy

    vinaguy Lớp 11

    Đâu có... theo như lệnh của bác @RGBCD thì nó không thay như vậy. Hay bác @RGBCD thấy dài vứt bớt? :)
     
  2. RGBCD

    RGBCD Lớp 3

    Tôi sửa lệnh của cô giáo mà. Lệnh đó chỉ xóa mỗi class, id, lang... Rồi vẫn xóa span và div như bình thường. Cho bông hoa. Rồi mới xóa thẻ trắng. Cuối cùng xóa br, hr là xong.
     
  3. tran ngoc anh

    tran ngoc anh Cử nhân

    Ok cụ :D vậy phải rep 5 lần theo các class đó cụ nhỉ.

    Em thấy các cụ regex tốc độ quá, em cũng làm trước đây nhưng không dám tin tưởng vào regex xóa rác kiểu này, thôi thì đổi thừa calibre vậy ^^ em dùng regex nhiều lắm chứ nhưng xóa rác với file thô em không dám làm nữa :D

    Em từng gặp thẻ span chồng thẻ span rồi, span nghiêng chồng span đậm, chồng lên span sup, thậm chí chồng hàng đống span chỉ quy định size nhỏ hơn một chút, màu chữ rồi gạch chân chẳng hạn, khi mà span chồng chéo so le vào nhau, do </span> đều giống nhau nên đôi khi câu lệnh sẽ tìm thấy đúng cái span mở, nhưng lệch cái </span> đóng.

    Ví dụ có 4 cái /span đóng kề nhau thì regex sẽ chọn tìm tới /span nào rồi dừng lại?

    Regex thay thế thủ công với trường hợp hàng đóng bùi nhùi thẻ span như thế này tiềm ẩn rủi ro lớn, và em quyết định không dám dùng nó nữa :D
     
  4. vinaguy

    vinaguy Lớp 11

    Em trông qua rùi... lệnh bác nguy hiểm hơn lệnh cô giáo nhiều bác ưi. Bác thêm gì vào cũng được nhưng giữ lấy cái đít của cô giáo :)
     
  5. RGBCD

    RGBCD Lớp 3

    Tôi làm như thế này dùng cả cách cũ nữa.

    Cập nhật lại ở dưới.
     
    Chỉnh sửa cuối: 18/9/21
  6. vinaguy

    vinaguy Lớp 11

    Đừng lo lắng quá Cô giáo. Cali nó khôn. Cô giáo khai thứ gì là nó xiến thứ đó. Không sao đâu. Mạnh dạn làm...
    Sau khi search xong thì Cô giáo có thể viết 1 lệnh cho cả cái đống <sụp> đó được cô giáo ạ
     
  7. vinaguy

    vinaguy Lớp 11

    Dòng lệnh xóa class, id, lang của bác nguy hiểm bác ạ. Rớt hàng đấy. Em xem cho bác rồi. Bác muốn đỡ nguy hiểm thì bác dùng dòng lệnh này sau cùng... sau khi không còn định dạng nào chưa sửa nữa
     
  8. RGBCD

    RGBCD Lớp 3

    Vì thẻ trắng còn có trường hợp có br ở giữa nên cũng phải xét đến. Chạy có 4, 5 lệnh thôi mà, toàn repl all nên không mất thời gian đâu.
     
  9. RGBCD

    RGBCD Lớp 3

    Id chỉ cần giữ ở thẻ a thôi, hay eb cũ nó toàn để ở thẻ a. Tôi bỏ thẻ a ra vì muốn tận dụng link cũ. Chứ làm mới lại thì có thể xóa luôn. Có chỉ số chú thích rồi thì làm lại quá dễ mà.

    Đã chạy ở Tây du ký, một file kinh điển về rác, rồi mới dám khẳng định mà. Rút kinh nghiệm lúc nãy phát biểu bừa khi chưa test. :P
     
  10. vinaguy

    vinaguy Lớp 11

    Bác kiểm tra lại cái đuôi của cô giáo. Bác bỏ mất phần đuôi rồi
     
  11. RGBCD

    RGBCD Lớp 3

    Cái đuôi là dùng khi xóa thẻ trắng. Tôi tách lệnh của cô giáo ra làm 2 lệnh mà. Một cái xóa class, id... Một cái xóa thẻ trắng (chỉ bỏ mỗi thẻ a).

    À, quên, tôi sẽ để a lại vào lệnh đó, vì đúng là cũng có thẻ a trắng. Chỉ có lệnh xóa class, id... mới phải bỏ thẻ a.
     
    Chỉnh sửa cuối: 17/9/21
  12. tran ngoc anh

    tran ngoc anh Cử nhân

    Hoi, regex của em cụ cũng thấy, dư xài để xóa rác nhưng em không thích dùng cho nó. Để phải truy tìm class nào quy định nghiêng, đậm để mà thay, sup hay <u> nữa,, cụ có giữ <u> không? rất là nhức đầu, em thà dùng pandoc, việc gì giao phó được cho máy, cho app thì cứ giao phó, pandoc nó còn còn nhận dạng mọi thẻ khác nữa chứ không chỉ như chúng ta chỉ chú ý vào đôi ba thẻ.
     
  13. RGBCD

    RGBCD Lớp 3

    Thực ra chỉ cần giữ mỗi i. Hầu như b là cho thẻ h. :P
     
  14. tran ngoc anh

    tran ngoc anh Cử nhân

    Cụ RGB đừng xóa class sót, rất dễ xóa nhầm, mà hãy xóa các property không cần thiết của css ấy, rồi bấm cục tẩy thì calibre sẽ xóa các class không được quy định trong css. Chớ mình tự xóa class thì làm sao biết class nào vô dụng, class nào đang còn quy định cho định dạng nào đó, ví dụ class đó quy định in nghiêng, mà in nghiêng chưa chuyển thì sao?
    upload_2021-9-17_19-2-52.png

    Nút cục gom cũng sẽ xóa các css quy định in nghiêng nếu ở trong html các class in nghiêng đã bị thay thành <i>.. nói chung là nó xóa tất, miễn anh nào không có liên kết với anh khác là nó xóa, chuẩn hơn mình dùng lệnh xóa. Chỉ nên dùng lệnh "thay" thôi.
     
    RGBCD thích bài này.
  15. tran ngoc anh

    tran ngoc anh Cử nhân

    Mất đậm như chơi :D tùy loại tài liệu, như loại này in đậm rải rác trong nội dung đấy chứ, cuốn này như đã nói là level 1 :D cuốn khác xấu mà muốn ói luôn ấy ^ ^
     
    RGBCD thích bài này.
  16. RGBCD

    RGBCD Lớp 3

    Cũng như thẻ i, có thể tìm và thay không sót từ css. cho nên có thể không mất. Thông thường ebook không có nhiều kiểu định dạng cho i và b nên khả năng để xảy ra sửa sót là nhỏ. Ngàn năm mới gặp file export từ pdf một lần. Mà export ra word rồi convert sang epub thì sao nhỉ? :D

    Hôm nay vào kho Calibre chạy thử vài file để rút kinh nghiêm gặp trường hợp thẻ <br/> nằm giữa đám text của thẻ p, do đó với thẻ này nên thận trọng, không nên xóa tùy tiện, cho nên cập nhật lại cách làm ghi trong file word.

    P.S File có br nằm giữa text thẻ p là file về thánh địa Mỹ sơn, nên đính luôn lên.
     

    Các file đính kèm:

    tran ngoc anh thích bài này.
  17. RGBCD

    RGBCD Lớp 3

    Chộp thử một ebook bất kỳ trong calibre để thử tiếp, trúng eb này
    Vui lòng đăng nhập hoặc đăng ký để xem link
    Lại đúng eb có rất nhiều thẻ br ở trong thẻ p.

    Làm lại toàn bộ ebook cho nghiêm chỉnh hơn thì thời gian xóa code vẫn chỉ 1 vài phút. Thời gian cấu trúc lại ebook mới nhiều, do mỗi cấp heading của file gốc đều có đủ loại cấu trúc rất khác nhau. Phải chạy rất nhiều lệnh, xuất tạm mục lục, kiểm tra mục lục, lại tìm tiếp những cái còn sót. Lại xuất lại mục lục.... ba bốn lần mới xong.

    Tóm lại, về vấn đề có code sạch quá ổn rồi. Trước khi có topic này nó đã tốt rồi, có topic này nữa thì thành quá sức tốt. :)

    Nếu học trò mà được phép chấm điểm cô giáo thì cô tna phải được 12/10. :D
     
  18. vinaguy

    vinaguy Lớp 11

    Trời. Không cần xuất mục lục. Mục lục nó nằm ngay bên cạnh bác ơi. Bác kéo và thả nó ra bên cạnh, tha hồ mà dùng. Còn cái vụ h1, h2 thì phải kiểm tra kỹ và đồng nhất nó từ từ bác ạ. Rắc rối, nhưng không sao. Em viết lệnh replace sẵn (được lưu trong Save Searches), nên cứ thế nó quất vèo vèo.
    MUCLUC.jpg
     
  19. vinaguy

    vinaguy Lớp 11

    Đây là báo cáo gì à bác? Thấy cách trình bày giống cái báo cáo, lỗi chính tả dễ sợ, câu đứt dãy giữa đường kinh khủng luôn bác ơi
     
  20. RGBCD

    RGBCD Lớp 3

    Chắc là bài báo hay báo cáo gì đó. Nó là dữ liệu cũ của tve, tôi add tất vào calibre. Thực ra cũng chưa đọc kỹ, thấy cái tiêu đề hay hay thì chọn thôi. :D
     

Chia sẻ trang này