PC [gdoc, html] Dùng Google Doc tạo html sạch để làm epub

Thảo luận trong 'Hướng dẫn chung' bắt đầu bởi tran ngoc anh, 14/9/21.

  1. tran ngoc anh

    tran ngoc anh Cử nhân

    Nói chung là năm 2015, vừa tham gia tve4u đã gặp ngay thời đại của epub, tập tành regex xoá rác đồ, cảm thấy nhiều cuốn xoá hư mà tốn sức quá, sau 2016 là không bao giờ dám chơi với lửa nữa :D

    Mặc dù không phải đóng bao nhiêu epub cả nên nói ngán thì không đúng, nhưng nhìn những file nhiều rác đúng là không bao giờ dám đụng vô :D
     
  2. RGBCD

    RGBCD Lớp 3

    Note chỉ cần chèn thêm epub="notereft" ở phía trên, câu lệnh không cần trùm cả thẻ a.

    Còn dưới thì cũng vậy câu lệnh chỉ lấy vừa đủ, có thể dùng 2 lệnh lấy phần đầu và phần đuôi thẻ p để cấu trúc lệnh không phức tạp.

    Đưa file đó lên đi. :D
     
    tran ngoc anh thích bài này.
  3. tran ngoc anh

    tran ngoc anh Cử nhân

    Cụ ôn bài lại đi để khỏi bỡ ngỡ khi gặp loại mới :D
    Loại này là nguyên sơ, không có fn để mà e ngại không dám "đi đường vòng" :D ca này cụ mà regex được nghiêng đậm ngon lành khỏi cần dùng pandoc với đánh dấu thì sau này em khoẻ, cụ phải truyền lại công lực đó cho em, chứ giờ vẫn phải đánh dấu và pandoc, gdoc cũng méo mặt với ca này :D
     
  4. vinaguy

    vinaguy Lớp 4

    Bác @RGBCD làm giống em vẫn từng làm rồi á. Chỉ có điều em không làm bước Remove unused css mà thôi.
    Chúng ta tiếp tục nhé bác @Nga Hoang.
    Sửa mục a) Các chương thì có dạng: <strong>1</strong>
    Ô Find: <strong>(\d+)</strong>
    Ô Replace: <h2>\1</h2>
    Mode là Regex nha bác
    Bấm replace all
    Lúc này bác sẽ replace all được 7 chỗ và nó thiếu mất chương 6 và chương 8 do không cùng định dạng. Bác phải tìm và sửa lại 2 chương này.
    Giải thích: Ô Find: <strong>(\d+)</strong>: Nghĩa là tìm tất cả những chỗ có 1 con số bất kỳ (\d+) nằm giữa thẻ <strong></strong>. Đóng mở ngoặc là để tạo thành nhóm, và đây là nhóm số 1.
    Ô Replace: <h2>\1</h2>: Nghĩa là thay <strong> bằng <h2> sau đó lấy những gì có ở trong nhóm 1 phía trên bỏ vào vị trí \1, sau đó là </h2>.
    Vậy là sửa xong mục a.
    Bác thực hành luôn trên Calibre editor đi nhé.
     
    Chỉnh sửa cuối: 16/9/21
    tran ngoc anh thích bài này.
  5. RGBCD

    RGBCD Lớp 3

    Anh thì rất hay sửa file cũ cho nên quen xóa rác hơn khi sửa prc.

    Còn file mới làm từ word chắc chắn không dùng cách convert rồi xóa rác đâu, vì đã định dạng sẵn khi làm rồi, chú thích thì có thể dạng như inno14 hướng dẫn hoặc dạng ^[....] (vì thích đẩy chú thích về cuối chẳng hạn) chứ không làm chú thích bằng chức năng của word nữa.
     
    tran ngoc anh thích bài này.
  6. vinaguy

    vinaguy Lớp 4

    Tiếp theo sửa mục b) nhé bác @Nga Hoang
    b) Các thẻ <p> hầu hết có dạng:
    <p>
    Vân vân và vân vân.
    </p>
    Thao tác:
    Ô Find: <p>\s+(.*?)\s+</p>
    Ô Replace: <p>\1</p>
    Bấm Replace All
    Nó sẽ replace được 596 chỗ nhé bác
    Giải thích:
    Ô Find: <p>\s+(.*?)\s+</p> có nghĩa là: Tìm những đoạn có thẻ <p> rồi xuống hàng, rồi một đoạn văn bất kỳ (.*?), rồi tới xuống hàng rồi tới thẻ </p>
    Ô Replace: <p>\1</p> có nghĩa là: Chỗ tìm được ở ô Find phía trên được thay thế bằng: thẻ <p> rồi tới đoạn văn bất kỳ đó rồi tới thẻ </p>
    Thế là chúng ta đã làm được thêm gần hết các đoạn văn nhé bác.
    Bác thực hành luôn và tự rút kinh nghiệm cho bản thân nhé.
     
    tran ngoc anh thích bài này.
  7. RGBCD

    RGBCD Lớp 3

    Loại nguyên sơ thì đều là đi thẳng hết chứ. Loại đã thành định dạng thì sửa tiếp: đi thẳng hoặc chỉnh nó về nguyên sơ: vòng lại. Tùy theo đường nào nhanh, ít bước thì ta triển thôi. Hoàn toàn không mê tín cách nào.

    Còn tại sao anh hay làm ebook cũ? Vì muốn đọc cuốn đó thôi, trước khi đọc thì xào lại cho ngon. :D
     
    tran ngoc anh thích bài này.
  8. tran ngoc anh

    tran ngoc anh Cử nhân

    Mỗi người chọn một con đường. Cụ chọn xoá rác, em thì chọn mã hóa để có text thô, tinh nhất để buil style từ đầu.

    Có những file, như file chiều nay, nguồn là html, chắc cụ sẽ chọn xoá rác vì chỉ cần nhét vô epub rất nhanh.

    Cụ cứ nghiên cứu phương pháp để anh em tham khảo với nhau, việc trau dồi rất có thể sẽ nâng cấp chung phương pháp của mọi người lên.
     
  9. Nga Hoang

    Nga Hoang Lớp 7

    Đã làm như cụ chỉ dẫn, thấy số 1 to hơn trước ạ.

    upload_2021-9-16_0-46-50.png
     
    tran ngoc anh thích bài này.
  10. Nga Hoang

    Nga Hoang Lớp 7

    Mới xem qua Markdown, thấy có vẻ dễ viết hơn html.
     
    tran ngoc anh thích bài này.
  11. vinaguy

    vinaguy Lớp 4

    Tiếp theo nhé bác @Nga Hoang:
    Chúng ta xử lý bước:
    d) Ngay trước chú thích thì có dạng: <sup id="fnref6"></sup> (dạng này sẽ viết lên cao giống như viết số mũ đây). Nó sẽ không cần thiết ở đây nữa.
    Ở đây chúng ta không cần cái này nữa nên:
    Ô Find: <sup(.*?)></sup>
    Ô Replace: Để trống, không có gì hết nhé bác
    Bấm Replace all
    Lúc này bác sẽ replace được 19 chỗ
    Giải thích:
    Ô Find: <sup(.*?)></sup> có nghĩa là tìm tất cả mọi cái thẻ <sup></sup> hoặc <sup id="fnref..."></sup>
    Ô Replace để trống, có nghĩa là xóa bỏ những gì tìm thấy ở ô Find nhé bác
     
    tran ngoc anh thích bài này.
  12. vinaguy

    vinaguy Lớp 4

    Kệ nó bác ạ. Chúng ta làm chưa xong mà, nên chưa có trang trí gì. Em đang hướng dẫn bác tới lúc thành cuốn sách đẹp đẽ thì thôi
     
    Nga Hoang thích bài này.
  13. RGBCD

    RGBCD Lớp 3

    Đúng một nửa. Anh vẫn build với ebook mới mà. Chỉ xóa rác khi sửa ebook prc, epub cũ được làm từ hồi Napoleon bị mất trộm hết cúc áo, quần. :p Còn việc thích cấu trúc note cũ cũng có lý do: lỡ mua cái kindle (trong khi đôi khi vẫn thích đọc trên đt) nên muốn tạo azw3 bằng cách convert chứ không build để tiết kiệm sức. :D
     
  14. vinaguy

    vinaguy Lớp 4

    Bác @Nga Hoang cho em hỏi tí. Hình như dấu * trong sách không dùng để làm gì phải không bác? Em lướt qua thấy nó chẳng có tác dụng gì cả. Bác trả lời giúp em
     
  15. Nga Hoang

    Nga Hoang Lớp 7

    Dấu * vừa dùng để đánh dấu footnote, vừa dùng để phân cách một đoạn, có lẽ vì vậy mà Calibre không chạy footnote.

    Còn làm sao để bỏ đoạn này mà thay vào đó là cover ?

    upload_2021-9-16_1-7-0.png
     
    tran ngoc anh thích bài này.
  16. Nga Hoang

    Nga Hoang Lớp 7

    Ngẫm nghĩ lại tôi thấy cụ @vinaguy và cô giáo nói rất hợp lý. Sửa frame epub được định hình sạch sẽ trước rồi từ từ sửa lỗi chính tả trên editor sau là cách hay nhất.
     
  17. RGBCD

    RGBCD Lớp 3

    Sẽ dùng css để định dạng sau bạn à. Với css bạn thích to nhỏ, đậm nhạt, nghiêng, thẳng, hay màu sắc tùy ý.

    Ví dụ: css của thẻ h1 có thể như thế này

    h1 {
    text-align: center; {căn giữa, có thể là left, right hoặc justify: căn đều 2 lề}

    font-size: 1.5em; {cỡ chữ gấp rưỡi mặc định}

    text-indent: 0em; {không thụt đầu dòng}

    color: red; {có thể sửa thành green, blue, purple tùy ý, nếu bỏ dòng này thì màu sẽ là mặc định đen}

    font-style: italic; {nghiêng}

    font-weight: bold; {đậm}

    font-family: serift; {chữ có chân, hoặc có thể tên một font như times news roman}
    }
    Bạn có thể thêm thuộc tính nữa như margin hoặc bớt đi vài thuộc tính ở trên.

    Các thẻ khác cũng làm tương tự. Sau này thạo rồi bạn còn định dạng được cả class, kết hợp các thẻ với nhau nữa
     
    vinaguy and Nga Hoang like this.
  18. vinaguy

    vinaguy Lớp 4

    Tiếp theo nhé bác @Nga Hoang
    Chúng ta qua bước f) sửa định dạng lời thoại của bác
    f) Các câu thoại thì có dạng: Ở đây sách của bác có tới 4 dạng:
    Dạng 1:

    <li>Vân vân và vân vân.

    </li>
    Dạng 2:
    <li>
    Vân vân và vân vân
    </li>
    Dạng 3:
    <li>
    Vân vân và vân vân</li>
    Dạng 4:
    <li>Vân vân và vân vân</li>

    Thao tác:
    Ô Find: <li>(.*?)\s+</li>|<li>\s+(.*?)\s+</li>|<li>\s+(.*?)</li>|<li>(.*?)</li>
    Ô Replace: <p>- \1</p>
    Bấm Replace All
    Bác sẽ replace được 321 chỗ
    Giải thích:
    Ô find là tìm 1 trong 4 dạng em nêu trên.
    Ô Replace là là đổi về thẻ <p> rồi dấu gạch nối rồi tới đoạn văn bất kỳ (.*?) rồi tới thẻ </p>
     
    Nga Hoang thích bài này.
  19. RGBCD

    RGBCD Lớp 3

    Lý do là câu lệnh nó đơn giản thôi. Nếu để cả đống bùi nhùi thì rất khó viết lệnh. Về lý thuyết thì vẫn có thể định dạng được đống bùi nhùi đó nhưng sẽ cực khó vì nó quá rối mắt, cả ở cấu trúc thẻ, class lẫn css.
     
    Nga Hoang thích bài này.
  20. vinaguy

    vinaguy Lớp 4

    Từ từ bác. Ta đang làm cái ruột. Cái bìa chúng ta xử lý nó sau. Dục tốc bất đạt. Ở đây tại sao em lại không làm toẹt một cái cho bác luôn? (vì rằng em muốn chỉ cho bác để lần sau bác làm chủ được mọi cuốn sách bác ạ). Chứ nói như này làm lâu quá đi mất :) Vấn đề em muốn bác hiểu được các câu lệnh ở ô Find và Replace, để sau này bác sẽ điều khiển được nó.
     

Chia sẻ trang này