PC [gdoc, html] Dùng Google Doc tạo html sạch để làm epub

Thảo luận trong 'Hướng dẫn chung' bắt đầu bởi tran ngoc anh, 14/9/21.

  1. vinaguy

    vinaguy Lớp 4

    Tiếp theo chúng ta sẽ xử lý đoạn giống như dưới đây (Làm một hồi rồi sách bác trông không giống như thứ tự em phân tích ở thread #35 nữa nhé). Nên giờ thấy đâu làm đó mà thôi.
    Xử lý cái chỗ mà trông giống như này:
    <p>Pappy, ông nội tôi, đang lo về giá nhân công. Năm ngoái, theo lời ông, cứ một trăm</p>

    <em>pao</em>


    <a href="#fn1" rel="footnote">1</a>

    Phải kéo chữ "pao" và con số 1 chú thích lên hàng trên.
    Tới đây thì mọi thứ bắt đầu rắc rối, vì sách word của bác chưa chuẩn, nên khi chuyển sang html nó lởm khởm và rắc rối thế này đây.
    Ô Find: <p>(.*?)</p>\s+<em>(.*?)</em>\s+<a href="(.*?)" rel="footnote">(.*?)</a>
    Vậy là chúng ta có 4 nhóm (.*?) cả thảy đếm từ trái qua. \s+ là chỗ xuống hàng bác nhé.
    Ô replace: <p>\1 \2<a href="\3" rel="footnote">\4</a>
    Chú ý giữa nhóm 1 và 2 (\1 \2) có một dấu cách bác nhé.
    Bấm Replace all
    Bác sẽ replace được 8 chỗ.
    Hình như dưới cùng là còn chưa hết file và còn bị sai dưới cùng phải không bác?
    Tóm lại file này là chỉ để dùng cho em bày cho bác thôi, nó không phải là cuốn sách thật nhé. Vì lỗi nhiều chỗ lắm do chưa định dạng trong word
     
  2. vinaguy

    vinaguy Lớp 4

    Những phần còn lại trong sách tới giờ này là do bản gốc bên word chưa được định dạng hoàn chỉnh và file word còn thiếu rất nhiều nên không thể replace all và đảm bảo không sai được nữa bác ạ. Coi như nãy giờ là em hướng dẫn bác cách chỉnh sửa với một epub như thế nào mà thôi, còn cuốn này muốn làm chỉnh chu thì trước hết từ word phải chỉn chu đã bác nhé.
    Còn làm cái bìa thì rất dễ thôi, bác có cái hình bìa thì cứ chèn vào như chèn hình bình thường. Thao tác như thế nào thì lúc bác cần em sẽ hướng dẫn cho bác cụ thể bác nhé.

    Giờ bác muốn thực hiện một epub hoàn chỉnh thì bác làm như sau dùm em:
    1. Bác chuẩn bị một cuốn sách ở word hoàn chỉnh... (đẹp đẽ)
    2. Bác mở Calibre lên và import cuốn word vào đó.
    3. Bác convert cuốn sách word mới import đó sang epub.
    4. Bác mở cuốn epub mới convert được bằng Calibre Editor thì em hướng dẫn cho bác sẽ hoàn hảo hơn (vì cuốn sách không bị lỗi chưa định dạng bác nhé)
     
    Chỉnh sửa cuối: 16/9/21
  3. RGBCD

    RGBCD Lớp 3

    Góp ý với bạn @vinaguy.

    Nếu bạn dùng file này để hướng dẫn bạn @Nga Hoang thì là trái với nguyên tắc "dục tốc bất đạt" đấy. Nên dùng nhiều file với cấu trúc có độ khó tăng dần, mức ban đầu phải đơn giản nhất. Mỗi lần chỉ 1 level, khi nào bạn @Nga Hoang thực sự đã hiểu rõ thì mới chuyển lên 1 level.

    Còn bạn @Nga Hoang, cũng đừng sốt ruột, cứ tiến chậm nhưng phải chắc. Cứ kiên trì thì chỉ cần 10 bậc là bạn sẽ làm được hầu hết các trường hợp. Điều quan trọng là phải thắc mắc khi chưa thực sự hiểu vấn đề gì đó.
     
    vinaguy thích bài này.
  4. vinaguy

    vinaguy Lớp 4

    Đúng rồi đó bác. Lúc đầu em tưởng đây là file word Bác @Nga Hoang đã thực hiện định dạng đầy đủ và cuốn sách hoàn chỉnh... được convert từ word sang, nhưng thực tế nó không phải, và nó cũng chưa hoàn thành ngay từ word, nên hướng dẫn gặp một số khó khăn trong việc viết câu lệnh đó bác.
    Em chỉ muốn hướng dẫn bác ấy nắm vững câu lệnh regex là làm được mọi thứ thôi mà. Nhưng xem chừng còn hơi vội vàng.
     
  5. RGBCD

    RGBCD Lớp 3

    Còn cụ thể cuốn này của bạn Nga Hoàng thì nên làm kiểu convert file word gốc sang epub rồi sứa thì hơn. Hoặc cấu trúc lại chú thích rồi chèn thẻ bằng cách khác, rõ ràng là nó không thích hợp với cách của tna ở topic này.
     
    vinaguy thích bài này.
  6. vinaguy

    vinaguy Lớp 4

    Em thấy cách làm epub nhanh nhất là convert từ word sang bằng Calibre, rồi sau đó vào dọn rác rẹt rẹt khoảng chục phút là xong, em biết nhiều cách, nhưng vẫn chọn cách convert bác ạ
     
  7. RGBCD

    RGBCD Lớp 3

    Quá nhiều câu lệnh với cấu trúc phức tạp trong ngày đầu tiên. :p

    Nên chăng bắt đầu từ một lệnh thật đơn giản. Chẳng hạn

    Đổi
    <p>Chương 1</p>
    .......
    <p>Chương 100</p>
    thành
    <h1>Chương 1</h1>
    .......
    <h1>Chương 100</h1>

    Khi nào bạn ấy hiểu thật chắc rồi thì mới sang chuyển cấu trúc khác.
     
  8. vinaguy

    vinaguy Lớp 4

    Ừ bác nhỉ... Chứ không làm bác ấy ngộ độc bác ấy vứt luôn không làm sách nữa thì chết nhỉ :)
     
  9. RGBCD

    RGBCD Lớp 3

    Từ word chèn thẻ cũng hay mà. Có vài cách ngoài cách mới nhất của bạn tna mà. Như dùng pandoc chẳng hạn, hoặc như inno14 đã hướng dẫn cũng hay.
     
  10. RGBCD

    RGBCD Lớp 3

    Với người mới làm quen thì nên dùng cách xóa code rác bằng từng lệnh để tập luyện cách dùng lệnh. Khi nào thành thạo lệnh rồi thì mới dùng cách khác để tiết kiệm sức.
     
  11. vinaguy

    vinaguy Lớp 4

    Em áp dụng các cách đó hết rồi, nhưng cuối cùng quay về với cách convert từ word sang epub, rồi dọn rác... Vì em đã soạn sẵn bộ công cụ dọn rác nên cứ theo thứ tự mở các lệnh đó ra là nó nhanh như chảo chớp, sau đó là dành thời gian sửa chính tả, trang trí sách, và tìm bìa... Bìa sách trước đây toàn vừa bé vừa mờ, mở trên tablet hay ipad nhìn khó chịu, nên toàn phải đi kiếm bìa mới, hoặc làm lại bìa (mấy thứ này mới mất nhiều thời gian)
     
  12. tran ngoc anh

    tran ngoc anh Cử nhân

    Cụ nào dí mỗi một cách sẽ tự hạn chế mình thôi, em giới thiệu một vài loại thuốc tẩy giun là vậy, đâu phải thuốc có tác dụng với mọi loại giun.

    Đây rồi các cụ: thử thách đầu tiên với level thấp nhất nhé, vì file này nhìn đỡ rối mắt nhất. Lưu ý là file này chỉ để test cách làm thôi nhé đừng làm thiệt, vì thành phẩm em đã làm xong rồi, làm thiệt lại mất thời gian và công sức. Chúc các cụ không quá mỏi tay và mỏi mắt :D
     

    Các file đính kèm:

  13. vinaguy

    vinaguy Lớp 4

    Để em thử với bác phát này xem sao. Đang vào tải mà nó gặp trục trặc gì gì á
     
  14. vinaguy

    vinaguy Lớp 4

    Bác @tran ngoc anh! Cái file html bác dùng font gì mà máy em nó không hiển thị vậy bác ưi... Và giờ là làm cuốn sách từ đầu làm đi phải không bác?
     
  15. tran ngoc anh

    tran ngoc anh Cử nhân

    Gợi ý các phần mềm đã dùng: briss (cắt đôi trang pdf và crop bỏ header) + acrobat (xuất html) + gotiengviet (TCVN3 -> Unicode) + calibre (epub -> docx) + office word (mã hóa) + pandoc (cmd, tẩy giun) + Notepad++ (soi chú thích, 3 hệ thống chú thích)
     
  16. tran ngoc anh

    tran ngoc anh Cử nhân

    Xem gợi ý và bắt đầu từ đầu nhé, có file PDF gốc luôn cho dễ xử, vẫn có thể bỏ qua html mà xử cái PDF gốc, mọi cách có thể chỉ sao ra text với nghiêng đậm đầy đủ và đủ hết <sup> <sub> để làm chú thích,... nói chung chuyển từ PDF text đó ra text ở dạng thuần html <i>, <b>, <sup>, <sub> ... là được ^ ^
     
  17. tran ngoc anh

    tran ngoc anh Cử nhân

    Gợi ý thêm là bộ saved search em để trong thread css và saved search là viết phần lớn cho ca này đó, mấy cái epub sách thông thường không cần mấy cái regex rối tinh rối mù đó :D
     
  18. vinaguy

    vinaguy Lớp 4

    Chày ưi... Máy em lâu lắm rồi không dùng TCVN3 nên giờ không có bộ font này... chớt iêm... Để đi tìm font đã.
    cute_smiley23
     
  19. tran ngoc anh

    tran ngoc anh Cử nhân

    Cài font cũng được mà nên chuyển mã về Unicode thì hơn, dùng gotiengviet như gợi ý á, hoặc bạn có sẵn phần mềm gõ nào trong máy? Unikey? EVkey?
     
  20. vinaguy

    vinaguy Lớp 4

    Hình như không phải TCVN3 hay sao á @tran ngoc anh. Install font, chọn font rồi mà vẫn cứ lỗi font tùm lum à
     

Chia sẻ trang này