PC [gdoc, html] Dùng Google Doc tạo html sạch để làm epub

Thảo luận trong 'Hướng dẫn chung' bắt đầu bởi tran ngoc anh, 14/9/21.

  1. vinaguy

    vinaguy Lớp 11

    Em chỉ lưu ý bác thế thôi chứ em không bảo là không làm được. Còn thực hiện như thế nào là bác thực hiện. Nếu sửa sách mà chúng ta không cần quan tâm và không muốn giữ lại định dạng cũ của sách thì chỉ cần viết 1 lệnh và bấm 1 bông hoa là nó tẩy hoàn toàn tất cả mọi thứ (nhanh không tưởng).
    Ta thảo luận thêm một tí về câu lệnh của bác nữa, chứ không lại bảo em tranh luận không có cơ sở.
    Với câu lệnh của bác:
    F: <(p|h1|blockquote)>(.*?)<br/>(.*?)<(/\1)>
    Thì các trường hợp dưới đây nó vẫn bắt như thường, và lúc đó bác sẽ được kết quả không mong muốn:
    Trường hợp h1:
    <h1>CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM<br/> Độc lập – Tự do – Hạnh phúc</h1> --> Lúc đó sẽ thành
    <h1>CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM</h1>
    <h1>Độc lập – Tự do – Hạnh phúc</h1>
    Thành ra 2 title, bác sẽ gặp khó trong lúc làm mục lục
    Trường hợp <p>: Như dưới đây và sử dụng câu lệnh của bác nó vẫn bắt:
    <p>Không có chữ ký. Không biết gửi cho ai. Amelia lấy làm ngạc nhiên bởi giọng nói nghe bình <br/>tĩnh đến không ngờ của mình. “Đi ngủ đi, Poppy.”</p>
    Và lúc đó nó sẽ trả ra kết quả:
    <p>Không có chữ ký. Không biết gửi cho ai. Amelia lấy làm ngạc nhiên bởi giọng nói nghe bình </p>
    <p>tĩnh đến không ngờ của mình. “Đi ngủ đi, Poppy.”</p>
    Thành ra hai đoạn văn. Bác lại tiếp tục phải thực hiện lệnh nối.

    PS: Nếu bác chưa tin cứ copy ví dụ của em vào thử đi
     
    Chỉnh sửa cuối: 20/9/21
    RGBCD thích bài này.
  2. RGBCD

    RGBCD Lớp 3

    Trường hợp ở tiêu đề thường vẫn gặp dạng:
    <p>Chương 1</p>
    <p>Ngày một</p>

    Thậm chí có thể:

    <h1>Chương 1</h1>
    <h1>Ngày một</h1>

    Việc biến nó thành các dạng cấu trúc có br, rồi span ở giữa thì tùy theo ý định của mỗi người thôi.
    Tôi hiểu ý bạn từ mấy post trước rồi. Tôi cũng hiểu lệnh của tôi sẽ tách h1 thành hai thẻ h1, có thể đều có nội dung, hoặc có một thẻ trắng.

    Việc nối lại thì có gì khó đâu nhỉ?

    Điều tôi e ngại là xóa nhầm mất đầu thẻ cơ.

    Ví dụ:

    Cấu trúc:
    <body>
    <br/>
    <p>......</p>

    Tôi lỡ tay viết một lệnh kiểu (tất nhiên đơn giản thế này thì nhận ra ngay, nhưng nếu nó nằm trong một lệnh dài ngoằng thì có thể viết nhầm lắm):

    F: <br/>\s+<p>
    R: {không nhập gì}
    Replace all

    thế là nó xóa mất một loạt đầu thẻ p, cho bông hoa cũng không khôi phục được. Tất nhiên là file đó không lưu, và kết luận đó là một lệnh nguy hiểm.
     
  3. tran ngoc anh

    tran ngoc anh Cử nhân

    Nếu là em em sẽ đơn giản là xóa hết css và bấm cục gơm (tẩy) là đi hết định dạng ngay :D

    Trên html chỉ còn <span> với <span> thôi ^ ^ tất nhiên nếu có sẵn các thẻ <i>, <b> thì nó sẽ được trả về dạng thuần không còn class gì.

    Nói chung phá thì nhanh, như cụ nói :D

    Giả dụ mục đích làm hai title luôn, ngay cả hai title đó không dùng thẻ h1 mà thẻ p thôi, thì vẫn có thể gom hai dòng title lại khi đóng mục lục và hiển thị rất ưng ý luôn. Em làm mục lục dạng phức tạp thậm chí chỉ có div với p chẳng có h1 h2 gì vẫn làm được.

    Còn tất nhiên hai dòng h1 đúng là ít có chủ đích lắm.
     
  4. RGBCD

    RGBCD Lớp 3

    Tôi quá hiểu cách làm mục lục từ file .doc, rồi convert sang prc. Mọi người toàn làm thủ công từng dòng một, tô màu cũng thủ công nốt, hiếm người dùng lệnh của word để làm cả loạt lắm. File word thì định dạng cũng không chuẩn, dẫn đến nhiều định dạng nên khi chuyển sang epub rác cả đống. Nhiều chỗ đáng ra là ^p thì lại là ^l, cho nên những chỗ đó khi convert sang epub sẽ là br.

    Ở word có 1 lệnh:
    F: ^l
    R: ^p
    nhưng nhiều người không nắm được. Nếu copy được từ web thế nào cứ thế convert luôn (nhiều prc ở tình trạng này) thì còn khủng nữa. Giờ đã sửa thì cần xét đến tất cả các trường hợp xấu nhất để chuẩn hóa. Còn 2, 3 thẻ liền nhau cùng là h1, hay lẫn lộn đủ kiểu, cái tô đậm, cái để nghiêng, cái để bình thường, thì xử lý không có gì khó. Chú thích cũng lộn xộn y như vậy. Mà ngay cả làm dự án ebook cũng thế nốt, mỗi người định dạng một kiểu. Nhưng người đóng ebook vẫn thống nhất được hết.

    À, file prc Tây du ký tôi dẫn link trên kia còn có tình trạng, mục lục ở prc đủ 100 hồi, nhưng convert sang epub chỉ ra 20 thẻ h thôi, nên phải định dạng lại cả 100 hồi cho thống nhất rồi làm lại mục lục. :D
     
  5. vinaguy

    vinaguy Lớp 11

    Hai bác hôm nay lại bàn sang tới prc. Ca này em chịu. Chưa tiếp xúc với nó bao giờ nên không ý kiến được. Nhưng chắc cũng không có ý định tiếp xúc.
    Em đang "đóng cục" và đang sửa bộ Dạy con làm giàu 13 in 1. Úi zời ơi... rác phê thiệt các bác ạ. Dọn 2 ngày chưa hết rác.
    Các bác ai có kinh nghiệm làm title gì không truyền cho em ít với... nhiều title đến hoa cả mắt
     
  6. RGBCD

    RGBCD Lớp 3

    Từ đầu đến giờ (ở topic này), là tôi nói về dọn code rác của epub convert từ prc mà. Cho nên phải nói về prc nói chung được tạo ra như thế nào.
     
  7. tran ngoc anh

    tran ngoc anh Cử nhân

    Nại nẫn nộn nồi :D

    Em cũng như cụ thôi, hồi vào tve ngay thời đại epub luôn, lúc đó waka vừa mở cửa, tải epub thoải mái luôn. Nói tới nói lui cũng là chỉ chơi mỗi epub là text, ngoài ra chơi PDF scan còn nhiều hơn epub chứ prc xin thua, chưa bao giờ biết cách tạo một file prc mặc dù có từng tìm hiểu ^ ^
     
  8. tran ngoc anh

    tran ngoc anh Cử nhân

    Định dạng epub chắc cũng chủ yếu làm đẹp đẹp cái tiêu đề thôi nên là thật ra nói tới epub chắc là nó rồi :D

    Em có mỗi một mẩu khoanh tròn tiêu đề dạng số đã post bên thread mẩu css rồi, gần đây thì có biến tấu một chút, cụ xem xem:

    [​IMG]
     
  9. vinaguy

    vinaguy Lớp 11

    Em làm mấy cuốn sách kinh tế nên cần mấy mẫu trông hiện đại tí bác @tran ngoc anh. Còn mẫu nào nữa bác chưng nốt dùm em với. Mẫu trên là một title kèm hai sub hay là chỉ một và dùng span đó bác? Hay là một title kèm một paragraph?
     
  10. tran ngoc anh

    tran ngoc anh Cử nhân

    Có một vài mẩu à, thường là em mô phỏng định dạng của sách in. Nghĩ ra mẩu mới không nhiều. Cụ cần cụ thể tiêu đề như nào? Minh họa đi em nghĩ tiếp cho.
     
    vinaguy thích bài này.
  11. inno14

    inno14 Lớp 8

    @Nga Hoang topic dài quá mình không đọc hết được nên không biết bạn đã làm được epub chưa, nếu rồi thì chúc bạn làm được nhiều sách ưng ý để chia sẻ cùng mọi người, nếu chưa thì mình có một gợi ý thế này:
    1. Bỏ qua cái vụ build epub từ code sạch hay làm sạch code qua 1 bên.
    2. Hãy thiết kế 1 quyển sách hoàn chỉnh theo ý bạn trên Gdoc.
    3. Tải về dưới dạng Epub (Gdoc cho tải về dưói rất nhiều định dạng khác nhau)
    4. Chia sẻ nó cho những ai bạn thích, mình bảo đảm phần hiển thị của ebook chắc chắn sẽ đạt yêu cầu về thưởng thức tác phẩm.
    5. Để chia sẻ 1 ebook, không nhất thiết phải ép bản thân học sử dụng một công cụ xa lạ và tốn thời gian mà không phục vụ cho công việc hàng ngày, hãy tận dụng các công nghệ sẵn có, và các công cụ mình thông thạo bạn nhé.
    Chúc bạn và các ace đọc sách vui, chia sẻ được nhiều sách cho cộng đồng.
     
  12. tran ngoc anh

    tran ngoc anh Cử nhân

    Cụ xem css nè:
     

    Các file đính kèm:

    vinaguy thích bài này.
  13. vinaguy

    vinaguy Lớp 11

    Cám ơn bác. Lát nữa em xem sau nhé. Giờ em đang làm việc ở công ty xíu
     
  14. vinaguy

    vinaguy Lớp 11

    Cho em hỏi ngu tí bác. Cái này làm mục lục "dư lào"?
     
  15. tran ngoc anh

    tran ngoc anh Cử nhân

    Xpath gõ header á cụ.
     
    vinaguy thích bài này.
  16. vinaguy

    vinaguy Lớp 11

    Oày... Em quên mất vụ này, ngày xưa (đầu năm 2020) có xem qua vụ này, nhưng sau đó toàn làm mục lục bằng h, rồi quên luôn vụ xpath luôn :)
     
  17. RGBCD

    RGBCD Lớp 3

    Có một câu đố.

    Ở topic này
    Vui lòng đăng nhập hoặc đăng ký để xem link
    Ebool bị lỗi tiêu đề (xem trong file ecxel tôi đính kèm.

    Tôi đính lên một file đã dọn sạch code, còn nguyên nội dung (truyện số 50 vẫn nằm trong truyện 49) chưa sửa lỗi tiêu đề.

    Câu đố là: làm sao để đánh số lại cho đúng?

    P.S cô giáo @tran ngoc anh không được tham gia, bởi cô giáo đã biết cách làm. :D
     

    Các file đính kèm:

  18. vinaguy

    vinaguy Lớp 11

    Ý bác muốn "dư lào"?
    Em làm "dư lày" có được không?
     

    Các file đính kèm:

  19. RGBCD

    RGBCD Lớp 3

    Ý tôi là cách làm cơ. Cách đánh số lại ấy.
     
  20. vinaguy

    vinaguy Lớp 11

    Thì em đánh số lại rồi.
    Cách làm thì lúc đầu em không biết chuyện mất là chuyện gì... mở excel lên xem cuốn mất.
    Tách chuyện này ra thành 1 html riêng
    Đổi tất cả mục đề Số. --> thành *:
    F: <h1>(\d+)\.
    R: <h1>[*]
    Đánh số lại tất cả [*] thành số: Dùng Regex Function
    Chỉ đơn giản có thế thôi bác ạ
     

Chia sẻ trang này