PC [gdoc, html] Dùng Google Doc tạo html sạch để làm epub

Thảo luận trong 'Hướng dẫn chung' bắt đầu bởi tran ngoc anh, 14/9/21.

  1. tran ngoc anh

    tran ngoc anh Cử nhân

    Lúc trước thì vậy chứ bây giờ sao lại bỏ ra một tiếng để dọn rác, trong khi gdoc vèo vèo trong vài phút, pandoc cũng chỉ lâu hơn một chút vì thêm bước mã hóa nghiêng đậm... :D

    À cụ @vinaguy có hứng thú thử thách không ^^ em đưa cụ cái file xem rác nó khủng khiếp thế nào, luyện tay vậy hehe
     
    vinaguy thích bài này.
  2. Nga Hoang

    Nga Hoang Lớp 11

    Cảm ơn các mợ các cụ.
    Sửa lỗi chính tả xong cuốn Ngôi nhà sặc sỡ - John Grisham, tôi sẽ ... làm thí làm đại thử. :D
     
  3. baothoa

    baothoa Lớp 7

    Cũng khá là sạch, và cũng cần dọn dẹp file word cho tốt, khi đó thì nó imprort gần như hoàn chỉnh.
    2021-09-16_08h16_44.png
     
    vinaguy and tran ngoc anh like this.
  4. vinaguy

    vinaguy Lớp 11

    Em cũng làm giống bác nhưng em không xóa trong css mà cứ sạch xong em thay cả css mới luôn, chứ css convert thì không dùng được đâu.
     
  5. vinaguy

    vinaguy Lớp 11

    Convert sang epub trước rồi sửa sau cũng được bác ạ. Cả làm cả sửa đi. Không có gì ghê gớm đâu bác. Code sạch dễ sửa chính tả lắm. Đặc biệt sửa bằng từ điển trước cho nhanh đã. Rồi sau đó sửa bằng đọc chi tiết.
     
  6. tran ngoc anh

    tran ngoc anh Cử nhân

    Cụ Nga thử "hơm nào" quất cái md đi cụ. Trước em sửa html bằng điện thoại cực vô cùng. Docx thì sửa thông qua gdoc cũng khá cồng kềnh.

    Md được dùng rất rộng rãi để viết thô, tài liệu hướng dẫn sử dụng phần mềm md, viết luận, viết báo, bản thảo sách cũng md nốt. Do được hỗ trợ tốt nên chuyển về định dạng đích rất dễ.
     
    Nga Hoang and vinaguy like this.
  7. RGBCD

    RGBCD Lớp 3

    Kiểm tra css để biết những class nào định dạng i, b một cách chắc chắn. Còn xóa hết css để xóa toàn bộ class. Còn sau này thay css mới là điều tất nhiên.
     
    vinaguy thích bài này.
  8. vinaguy

    vinaguy Lớp 11

    1 tiếng là được cuốn sách sạch đẹp (qua 9 bước của em) đó bác. Chớ dọn rác thì một tẹo là xong.

    Bác cho em cái file "thử thách" xem thế nào bác?
     
    tran ngoc anh thích bài này.
  9. Nga Hoang

    Nga Hoang Lớp 11

    Theo lời cụ @vinaguy, tôi làm thử thì kết quả tệ hơn trước, vừa không có cover, footnote không chạy, vừa nhảy xuống hàng tùy tiện, gạch đầu hàng bị thay bằng dấu chấm.
    Tôi up load để các mợ các cụ xem hộ. :(
     
    Chỉnh sửa cuối: 16/9/21
    tran ngoc anh thích bài này.
  10. tran ngoc anh

    tran ngoc anh Cử nhân

    OK bác :D để em lựa lại cái file rồi up bác xem thử.
     
  11. vinaguy

    vinaguy Lớp 11

    Nghe bác báo cáo tình hình em thấy thảm thương quá cơ :). Để em mở máy tính và xem cái file của bác đã nghen. Em sẽ hướng dẫn bác cụ thể để sửa cuốn sách. Đừng quá lo lắng :)
    Bác cứ từ epub bác convert qua mobi, từ mobi bác convert qua aw3, từ aw3 sang prc rồi từ prc về lại epub là được một file mà có "đống rác của chúng ta ngùn ngụt bốc cao" liền đó bác :)
     
  12. tran ngoc anh

    tran ngoc anh Cử nhân

    Không cần đâu bác, loại này của em nhìn đủ rối mắt rồi. Nó có "bẫy chết editor" nhiều lắm :D
     
  13. RGBCD

    RGBCD Lớp 3

    Bạn hiểu lầm ý của Guy rồi. Ý bạn ấy là convert docx đầu tiên của bạn sang epub rồi sửa cơ, không áp dụng cách của tna.

    Tôi cũng thấy cách này có một số hạn chế. Nếu sửa 1 prc có rất nhiều hình minh họa giả sử có 200 hình minh họa, rất nhiều chú thích (giả sử có 1000 chú thích đang chạy tốt), thì cách của tna chắc sẽ mất thời gian hơn nhiều. Ví dụ như Vui lòng đăng nhập hoặc đăng ký để xem link, chắc cách xóa code rác nhanh hơn.
     
    vinaguy thích bài này.
  14. tran ngoc anh

    tran ngoc anh Cử nhân

    Vấn đề ảnh minh họa đơn giản hơn nhiều và phải loại nó ra trước, đầu tiên là đổi tên thành số, chỗ tag <img> đánh dấu lại. Sau đó thì tẩy khuẩn sát trùng chán chê rồi từ vị trí đánh dấu đó mà regex gắn tag img lại thôi. Có funtion để chạy img trong thread css và saved search mà.

    Footnote lại càng không cần thiết phải giữ cái có sẵn, vì nó thường không theo quy cách epub3 và id rất lung tung, class đồ nữa, chỉ có tẩy sạch rồi từ vị trí của nó chạy 2 function của anh Inno14, mất mấy chục giây chạy function chẳng phải hàng sẽ xịn hơn là cố gắng giữ form cũ của footnote để rồi tự hạn chế mình không được dùng các cách tẩy giun hay sau.

    Không có phương pháp hoàn hảo, chỉ có cách vận dụng sáng tạo khi sử dụng mới tiệm cận sự hoàn hảo thôi.
     
    Chỉnh sửa cuối: 16/9/21
    vinaguy thích bài này.
  15. vinaguy

    vinaguy Lớp 11

    Em đã mở file của bác @Nga Hoang rồi nha. Nào, chúng ta mở ra xem nào:
    Em có nhận xét là file word của bác ban đâu (trước khi convert là file chưa được hoàn chỉnh lắm về mặt định dạng - Em không bàn chính tả nhé, cái này để sau - Định dạng bác phải cho nó hoàn chỉnh tí thì mới dễ sửa sau này. Chú thích của bác ở file word cũng chưa đầy đủ bác ạ. Chỗ có bình giải chú thích, chỗ thì có đánh dấu chú thích nhưng lại không có bình giải.
    Nào... Chúng ta bắt đầu gỡ rối nhé:
    1. Bác mở file của bác lên bằng Calibre và nhắp vào Tool, rồi chọn cái bông hoa (Beautify All Files) - Mục đích để Cali nó tự tuốt lại file cho dễ nhìn.
    2. Kiểm tra lại file xem nào... Chúng ta sẽ thấy như sau:
    a) Các chương thì có dạng: <strong>1</strong>
    b) Các thẻ <p> hầu hết có dạng:
    <p>
    Vân vân và vân vân.
    </p>
    c) Các chữ có chú thích thì nó sẽ in nghiêng ở dạng <em>bla bla</em>. Nó sẽ được nối lên hàng trên nhé (vì hiện giờ nó bị xuống hàng)
    d) Ngay trước chú thích thì có dạng: <sup id="fnref6"></sup> (dạng này sẽ viết lên cao giống như viết số mũ đây). Nó sẽ không cần thiết ở đây nữa.
    e) Chú thích chỗ có chỗ không (như em đã nói ở trên) Cái này thì bác phải bổ sung đầy đủ ở word bác nhé.
    f) Các câu thoại thì có dạng:
    <li>Vân vân và vân vân.

    </li>
    g) Một số chỗ không theo qui luật gì cả (do file word của bác chưa được trau chuốt trước khi convert nhé)
    Vậy là chúng ta đã qua bước Phân tích file của bác. Em post lên và ăn cơm đã. Rồi các thread sau chúng ta sẽ gỡ rối
     
  16. vinaguy

    vinaguy Lớp 11

    Đ
    Đúng! Bác @Nga Hoang đã hiểu sai ý em.
    Về chú thích và hình ảnh thì @tran ngoc anh đã cho ý kiến rất chính xác. Cứ đánh dấu rồi để đó. Sau này chúng ta chạy 1 phát thì 5 giây là xong toàn bộ, không vất vả gì, chỉ yêu cầu là tất cả chú thích và hình ảnh phải đánh dấu kiểu gì để đồng nhất toàn bộ tài liệu thì sau này mới replace một phát ăn cả.
     
  17. RGBCD

    RGBCD Lớp 3

    Ví dụ file tây Du ký vừa rồi, tôi tìm trong css chỉ thấy có 2 css quy định i và b là italic và bold nên chỉ cần 2 lệnh chuyển:
    <span class="bold">(.*?)</span>
    <b>\1</b>

    <span class="italic">(.*?)</span>
    <i>\1</i>

    Rồi xóa sạch css đi xong bấm:

    Xoa1.jpg


    Xoa2.jpg

    Xem code thấy đi hết class:

    Xoa3.jpg

    Bây giờ xóa hết <span> và <div> đi:

    Xoa4.jpg

    Bấm Beautify All Files là gần như sạch code

    upload_2021-9-16_13-16-6.png

    Chỉ còn vài cái có id, lang, và vài loại thẻ trắng nữa thôi. Tìm và diệt nốt là xong.

    Tất cả mất độ 5 phút. Code sạch bong và các hình minh họa cũng như link còn y nguyên. :D

    Vui lòng đăng nhập hoặc đăng ký để xem link
     
    Chỉnh sửa cuối: 16/9/21
  18. RGBCD

    RGBCD Lớp 3

    Tại sao phải xóa ảnh nhỉ? Hay cần gì phải dùng lệnh gì đó đổi cấu trúc? Cứ để nguyên thì làm sao? Viết css phù hợp là đủ.

    Chú thích chưa đúng quy cách epub3 thì chèn thêm là ổn, cũng chỉ mất vài lệnh. :p

    Vì xóa code rác không mất thời gian nhiều cho nên việc gì phải đi đường vòng. 5 phút vẫn là bị hơi nhiều do là mắt mờ chân chậm, tay run, thận trọng quá nữa (chỗ xóa thẻ span và div có thể bớt đi 2 lệnh). Chứ trẻ khỏe như bạn Guy chắc chỉ 3 phút. :)
     
  19. RGBCD

    RGBCD Lớp 3

    File word của bạn Nga Hoang bị đánh xuống dòng gạch ngang tự động nên khi chạy nó sẽ ra thẻ li ol gì đó nên hiển thị thành dấu •, dùng lệnh sửa lại tốn thêm thời gian. Tất cả những chữ nghiêng bị tách thẻ hết (có lẽ đây là 1 hạn chế của phương pháp mới), sửa được nhưng sẽ lại tốn thêm thời gian nữa. Chỗ chú thích cũng lỗi, tuy nhiên thạo dùng lệnh vẫn sửa được nhanh chóng.

    Chốt lại, để sử dụng phương pháp của tna một cách hiệu quả cần có quy định cụ thể về định dạng file nguồn. :D

    Còn nói chung thì cần vận dụng sáng tạo thôi. Cứ cách nào nhanh nhất thì ta xài đại trà, sau khi đã thử hết các cách.
     
  20. tran ngoc anh

    tran ngoc anh Cử nhân

    Cụ đúng là quá tự tin với kỹ năng xoá rác của mình nên cụ nói thế, chứ em thì yếu nên mới chơi đường vòng, đánh dấu rồi build lại từ định dạng trắng.

    Cụ lại ngộ nhận một chỗ "tại sao phải dùng lệnh đổi cấu trúc". Xin thưa cụ là đánh dấu vị trí của ảnh hoặc fn mà thôi, việc này cần dùng regex thì việc cụ xoá rác bằng regex cũng y như thế về bản chất mà có khi cụ phải dùng nhiều đoạn regex hơn đánh dấu nữa.

    Nếu cụ tự tin là có thể hoàn toàn chỉ dùng regex mà không cần đánh dấu để tẩy giun thông qua định dạng trung gian. Kính mời cụ tham gia thử thách cùng mr vinaguy, xem cái file của em nhé, chiều chiều em up cái html cho mọi người chiêm ngưỡng :D
     

Chia sẻ trang này