PC [gdoc, html] Dùng Google Doc tạo html sạch để làm epub

Thảo luận trong 'Hướng dẫn chung' bắt đầu bởi tran ngoc anh, 14/9/21.

  1. tran ngoc anh

    tran ngoc anh Cử nhân

    Gdoc là công cụ đã quá quen thuộc với mọi người, chỉ sau bộ office thôi thì phải ^ ^

    Sau khi các bạn tải file docx vào tài khoản google drive của mình, tiến hành lưu nó thành định dạng gdoc rồi làm theo các ảnh bên dưới.

    [​IMG]

    [​IMG]

    [​IMG]

    [​IMG]

    [​IMG]

    Cập nhật: Quy trình dọn code rác trong epub do @vinaguy biên soạn thành file docx ở post Vui lòng đăng nhập hoặc đăng ký để xem link
     
    Chỉnh sửa cuối: 25/9/21
  2. vinaguy

    vinaguy Lớp 11

    Ca này hay nè Bác. Thanks
     
  3. Nga Hoang

    Nga Hoang Lớp 11

    Đã học và làm theo được từ đầu đến hết chỗ "+ copy về", rồi sau đó không biết "dán vô epub thôi" là làm như thế nào.
    Create epub mới với file được copy thì mất tiêu hình còn epub thì hiện y sì </li>, </p>, <em> v.v...
    Cô giáo thông cảm cho những kẻ mù IT như tôi mà hướng dẫn cái vụ "dán vô epub thôi" như thế nào.
    Thành thật cảm ơn.
     
  4. RGBCD

    RGBCD Lớp 3

    Xin hỏi bạn là bạn create epub mới bằng phần mềm gì và trước khi dán thì giao diện nó trông như thế nào? (Bạn phải chụp ảnh màn hình chứ) Thêm nữa, bạn cần code sạch để làm gì?
     
  5. Nga Hoang

    Nga Hoang Lớp 11

    Tôi create epub bằng Calibre ebook-edit.exe và trước khi dán thì hình như sau:
    upload_2021-9-14_17-29-23.png

    Tôi nghĩ (hay tưởng tượng là) nếu có code sạch thì sẽ có epub đẹp. Không biết là có đơn giản như thế không ạ?

    Còn tạo epub thường với Calibre thì tôi làm được, nhưng epub ra thì nhảy hàng, xuống hàng vô tội vạ, đầu dòng thụt vào lòi ra rất mất trật tự. Tự thấy xấu hổ không dám post lên Thư viện. Mà nhờ cô Mod Quỳnh và cô Cụp hoài thì kỳ quá. Nên đa phần sách tôi post lên đây đều là PDF scan.
     
    Chỉnh sửa cuối: 15/9/21
  6. RGBCD

    RGBCD Lớp 3

    Bạn phải chọn Create new empty book, dán vào epub ở chế độ code view. Dán nội dung copy được vào giữa thẻ body:
    <body>
    {dán vào đây}
    </body>

    Code sạch không phải ra epub đẹp ngay lập tức đâu. Mà nó chỉ là nguyên liệu để dễ làm ra epub đẹp hơn khi code không sạch.
     
    Nga Hoang thích bài này.
  7. Nga Hoang

    Nga Hoang Lớp 11

    Cám ơn bạn. Để tôi thử.
    Nhưng chắc sẽ phải đẹp hơn như thế này:

    upload_2021-9-14_18-0-24.png

    Ngôi nhà sặc sỡ - John Grisham. (Đang sửa lỗi chính tả).
     
  8. tran ngoc anh

    tran ngoc anh Cử nhân

    @Nga Hoang
    IMG_20210915_080021.jpg

    Chỗ mình đánh dấu, để có một epub trống, và trong epub trống lúc này mới có một html trống ở khung file browser. Bạn click đôi vào start.xhml hoặc start.html rồi dán vào giữa tag body nha.

    Chỗ bạn đánh dấu là import file text từ bên ngoài, có thể import txt như các bài TUT khác của mình, hoặc có thể import docx hay chính cái file html luôn.

    Để ca này sử dụng được tính năng import như mũi tên bạn đánh dấu. Thì bạn copy từ Google docs, về dán vô Notepad++ rồi lưu thành file có đuôi html. Sau đó từ calibre editor chọn đúng cái import đó rồi dẫn đến file html vừa lưu... tèn ten ten... Xong :D

    Vậy tổng kết "dán vào thôi" tuy ngắn nhưng cũng có 2 cách thực hiện như trình bày. Và cũng cần lưu ý Google docs tạo hơi dư thông tin một chút, các dòng kết quả đầu (khoảng 5, 6 dòng gì đó) là thông tin của plugin đó nó tạo tự động, không phải nội dung chính của sách của mình. Nên khi copy về dán xong bạn cắt bỏ nó đi, không cắt thì calibre cũng báo lỗi và kêu mình sửa lỗi suốt thôi ^ ^
     
    Nga Hoang thích bài này.
  9. RGBCD

    RGBCD Lớp 3

    Tưởng cô giáo đang livestream với học sinh? :P

    Bạn Nga Hoàng chắc chưa có khái niệm gì về html với css đâu.

    Nói đơn giản là code sạch giống cái cốt bánh kem ấy, nó đúng là cái bánh nhưng chưa đẹp. Để thành cái bánh sinh nhật đẹp thì cần trang trí thêm nữa. Việc trang trí cái "bánh" epub này cần hiểu về cấu trúc các thẻ của html, css để định dạng các cấu trúc đó và các lệnh để xây dựng lên các cấu trúc đó từ code sạch ban đầu.
     
    tran ngoc anh thích bài này.
  10. Nga Hoang

    Nga Hoang Lớp 11

    tèn ten ten... Xong.

    upload_2021-9-14_18-41-29.png

    Như thế này là mãn nguyện lắm rồi. Cảm ơn cô giáo.
     
    tran ngoc anh thích bài này.
  11. tran ngoc anh

    tran ngoc anh Cử nhân

    Bạn ấy cũng quan niệm đúng như vầy mà anh. Bước đầu với bạn ấy chỉ với html sạch thì giải quyết được vấn đề indent lồi lõm thì đã sạch rồi còn gì, sạch là vẻ đẹp nguyên sơ mà hehe
     
  12. vinaguy

    vinaguy Lớp 11

    Không sao bác. Chúng ta sẽ phối hợp với nhau. Em không giỏi nên em có thể học hỏi từ bác những thứ bác biết và ngược lại. Hiện tại em chưa biết khả năng epub của bác tới đâu... nên tốt nhất bác thử gửi cho em một file epub tự tay bác làm từ đầu (cuốn sách càng nhiều định dạng càng tốt). Em sẽ kiểm tra xem bác còn thiếu thứ gì trong đó... em sẽ cố gắng hướng dẫn và giải thích tới lúc nào bác hiểu và tự làm epub được thì thôi.
     
    tran ngoc anh and Nga Hoang like this.
  13. RGBCD

    RGBCD Lớp 3

    Ngày xưa không biết ai nói: "Nếu đưa text cho tôi, tôi sẽ bẩy tung.... à nhầm :P tôi sẽ làm ra epub đẹp". Vì thế bạn cứ đưa file word (dễ làm nhất với đa số) mà bạn đã sửa lỗi chính tả, định dạng đậm, nghiêng đàng hoàng lên thôi, thêm một yêu cầu nhờ bạn nào đó (nói bâng quơ cũng được) làm epub thì chắc sẽ có rất nhiều người tiếp sức bạn.

    Làm epub chuẩn, pro thì phải học hỏi rất mất công (nếu bạn thực sự muốn học và kiên trì thì sẽ học được thôi), nên học cũng được mà không cũng không sao, chỉ cần cung cấp text, như tôi nói, là quá tốt rồi.
     
    Nga Hoang thích bài này.
  14. RGBCD

    RGBCD Lớp 3

    Để tôi giải thích sơ sơ. Làm epub có 2 việc.
    1. Cấu trúc các thẻ p, h, span, li, div...

    Text sạch code ban đầu có thể chỉ có mỗi thẻ p. Có những thẻ mà bạn muốn nó là tiêu đề, vd:
    <p>Chương 1</p>
    <p>Gặp gỡ</p>
    Cần sửa là:
    <h1>Chương <span class="number_chap">1</span><br/>Gặp gỡ</p>
    Có những lệnh chuyển từ cấu trúc ban đầu sang cấu trúc mong muốn rất nhanh. Có bạn còn kiên trì sửa tay hết.

    2. Định dạng
    Có 3 cách
    - Vui lòng đăng nhập hoặc đăng ký để xem link
    Vd: <h1 style="....(ghi các thuộc tính)">....</h1>
    - Vui lòng đăng nhập hoặc đăng ký để xem link
    Trước thẻ body viết một thẻ style:
    <style>
    h1 {
    .... (Các thuộc tính của thẻ, mỗi dòng một thuộc tính)
    }
    </style>

    3. Vui lòng đăng nhập hoặc đăng ký để xem linknó là một file có đuôi .css ở mục Style trong cột bên trái.
    File css thường có cấu trúc giống thẻ style ở 2.

    Trong 3 cách, tốt nhất là dùng css vì tác động của nó tới toàn bộ file epub.

    Nếu bạn không thích cầu kỳ thì epub, ngoài thẻ body, chỉ cần 2 thẻ p và h1 là đủ. Tương ứng bạn chỉ cần định dạng 3 thẻ: body, p và h1.
     
    Nga Hoang thích bài này.
  15. baothoa

    baothoa Lớp 7

    Vụ này cũng hay đó
    Trước đây, tui chỉ biết xử trên sigil qua plugin DOCXimport.
    Giờ làm thêm được trên Calibre
    Xem như làm được cả 2 bên.
     
    tran ngoc anh thích bài này.
  16. tran ngoc anh

    tran ngoc anh Cử nhân

    DOCXimport này vào có ra html sạch luôn không bạn?
    Bên calibre cũng import được docx vào editor thành epub trực tiếp, thật ra không khác gì management nó convert từ docx qua epub, class calibre1, calibre2 búa xua hết trơn.
     
  17. tran ngoc anh

    tran ngoc anh Cử nhân

    Cụ @Nga Hoang đừng quan trọng vụ Ai Ti Ai Tiếc gì hết, cứ làm thí làm đại đi. Từ những cái đơn giản nhất như bấm convert thành epub, rồi tới đâu hay tới đó, nhích từng li một. Cụ xem em có ITi Itiếc gì đâu, ban đầu còn không biết prc là cái gì, cứ Google, rồi thực hành, tèn tèn thôi chứ nghĩ nó cao xa vời vợi làm chi. Cứ vọc thôi. Hệ điều hành em còn vọc, buổi đầu vọc cài hư win đem ra tiệm cài lại mấy bận luôn mà. Giờ thì tự cài Ubuntu luôn rồi :D
     
  18. vinaguy

    vinaguy Lớp 11

    Chô choa mọa ưi... bác cũng chọc ngoáy ghê há... may có anh thợ tiệm làm bà đỡ cho :)
     
  19. vinaguy

    vinaguy Lớp 11

    Em cũng quất qua nhiều cách làm sạch rồi nhưng cách convert này là nhanh nhất á bác. Cứ convert đã đời đi... rồi vô dùng cái regex của anh em mình replace mấy phát là code sạch tinh tươm. Convert bằng Calibre thì code sẽ luôn có chữ calibre cứ search tìm nó mà diệt hàng loạt.
    Kinh nghiệm sửa sách của em:
    B1: mở cuốn sách trên calibre
    B2: replace đậm và nghiêng. Thường code có dạng <b span=class calibre.......>bla bla bla</b> hoặc <i span=class calibre.......>bla bla bla</i> đưa về dạng sạch <b>bla bla bla</b>
    B3: replace tab giữa. Thường code có dạng <p span=class calibre.......>bla bla bla</p> hoặc <span=class calibre.......>bla bla bla</span>. Đưa về tab giữa dạng sạch sẽ.
    B4: replace sửa đoạn văn... thứ này lung tung lắm tùy sách... nhưng nhìn chung giống code bước 3 nhưng khác ở chỗ calibre1 hoặc vân vân. Trả về code sạch dạng <p>bla bla bla</p>
    B5: replace title... thứ này thì chả bao giờ đồng nhất nên replace hơi mệt đây. Khó mô tả ở đây mà phải lấy 1 cuốn sách ra làm ví dụ.
    B6: thay file css, nhập font chữ, link css cho html.
    B7: Soát lỗi chính tả bằng máy.
    B8: trang trí sách
    B9: chạy mục lục
    Done.
    Mỗi một cuốn mất khoảng 1 tiếng là đẹp đẽ.
     
    Nga Hoang thích bài này.
  20. RGBCD

    RGBCD Lớp 3

    Tìm trong css italic, bold xem nó định dạng bằng class nào, rồi thay hết thành thẻ i, b. Nhiều khi có mấy class cùng định dạng, xong class nào thì xóa class đó trong css. Thay hết thành i, b rồi thì xóa hết css luôn. Rồi thêm một lệnh (quên mất tên, mà không ngồi máy tính lúc này) trên Tools ấy, thì hết sạch class, xóa hết đầu thẻ <span>, có thể cả <div>, làm đẹp một cái là sạch </span>, </div> chỉ còn id, có thể cả lang, xóa nốt là sạch sẽ. Đây là nói convert prc, mobi cũ nhé. Từ word thì có quá nhiều cách hay, khỏi cần bàn.
     
    vinaguy and Nga Hoang like this.

Chia sẻ trang này