PC [gdoc, html] Dùng Google Doc tạo html sạch để làm epub

Thảo luận trong 'Hướng dẫn chung' bắt đầu bởi tran ngoc anh, 14/9/21.

  1. RGBCD

    RGBCD Lớp 3

    Đang luyện kiếm. Và cũng xem cách nào ổn nhất với file khó.

    Lại hiểu sai ý cỡ ngàn km. :D
     
  2. tran ngoc anh

    tran ngoc anh Cử nhân

    Ngàn gì cơ? Cây số á?
     
  3. RGBCD

    RGBCD Lớp 3

    Vừa thử với 1 prc file của bộ đó, thì thấy trong một dòng tô đậm, nghiêng không theo quy luật nào. Rác ở đây là các thẻ i, b xen kẽ lộn xộn cơ. File chỉ còn mỗi i, b, p và h các thứ khác dọn hết rồi.
     
    Chỉnh sửa cuối: 23/9/21
  4. vinaguy

    vinaguy Lớp 11

    Á, tình hình là em hiểu sai í bác @RGBCD năm vạn dặm dưới đáy biển rồi :).
    Em tải bộ đó ở đây chứ đâu. Bác giúp dọn rác dùm em với. Bác có dọn thì dọn dùm em từ tập 10 trở đi nhé.
    Vui lòng đăng nhập hoặc đăng ký để xem link
    Bảng biểu nhiều, nếu bác giữ được định dạng thì bác giữ dùm. Còn nếu không thì đừng chọc vào bảng, em sẽ xem và dọn sau nhé. :)
     
  5. RGBCD

    RGBCD Lớp 3

    Sáng nay bận quá nên chưa làm được. Chiều sẽ tranh thủ làm cho bạn 13 file. Tôi chỉ dọn rác thôi nhé. Cho nên mấy thẻ của bảng cũng trắng tinh luôn. Hôm qua nghiên cứu dọn rác của prc tập 7, 8, 9 lúc đầu có mấy thẻ rất củ chuối: middlename, gì gì đó, rồi thẻ b mấy lớp, xắp xếp lộn xộn với thẻ i trong thẻ p. Mấy cái này mà sửa bình thường bằng regex rất ớn. Chưa kể có tình trạng xuống dòng giữa thẻ mà dùng :rose: cũng không xong. Và tôi đã tìm ra cách để xử lý rồi. Lúc nào gửi bạn các file sẽ nói rõ cách làm. Nói chung đến giờ cách dọn rác từ file cũ đã rất hoàn thiện. :D
     
  6. vinaguy

    vinaguy Lớp 11

    Không sao bác ơi. Em cũng như bác, phải đi làm kiếm cơm trước đã, rảnh mới rớ đến sách.
    Bác không phải làm cả 13 file đâu. Bác làm từ file 11 trở đi. Những file khác em đã làm gần hoàn thiện rồi. Bác làm xong chúng ta đóng tập thành 13 trong 1 luôn đó bác. Cố gắng giữ lại được hết định dạng bác nhé. Định dạng cuốn này phức tạp ghê lắm.
    Để em soạn cái "quy trình dọn rác" ấp lên đây xem anh em nào cần thì lấy mà dùng cho mau
     
  7. RGBCD

    RGBCD Lớp 3

    Gửi bạn cả 13 tập.

    Vui lòng đăng nhập hoặc đăng ký để xem link

    Cách dọn rác của tôi là:
    - Trong css giữ lại mỗi

    .bold {
    font-weight: bold
    }
    .bold1 {
    font-weight: bold
    }
    .italic {
    font-style: italic
    }
    .italic1 {
    font-style: italic
    }

    rồi nhấn (như hình)

    upload_2021-9-24_17-33-29.png

    lưu lại, convert qua mobi, rồi convert qua epub và dọn rác như bình thường, cấu trúc đã đơn giản đi rất nhiều và các thẻ kiểu này mất sạch.

    VD ở tập 8 nhé:

    File cứ thế chạy lệnh dọn rác (dù nhấn bông hoa mỏi tay nó vẫn không nối lại để dễ chạy lệnh):
    File chạy thêm bước convert qua mobi:

    <p><b>DẠYCON LÀM GIÀU TẬP VIII</b></p>

    <p>ĐỂ CÓ NHỮNG ĐỒNG TIỀN TÍCH CỰC</p>

    <p><i>GUIDE TO BECOMING RICH</i></p>

    ***************

    File chạy thêm bước convert qua mobi:

    <p><i><b>BẠNCÓ THỂ CHẤP NHẬN THẤT BẠI ĐẾN MỨC ĐỘ NÀO?</b></i></p>

    Vì mỗi file làm mất có mấy phút nên tôi làm tất. Tiện thể thay hết cover từng file cho đồng bộ. Một số hình minh họa nằm trong bảng tôi cũng sửa luôn. :D
     
    Chỉnh sửa cuối: 24/9/21
  8. RGBCD

    RGBCD Lớp 3

    Quên mất, lệnh giữ định dạng i và b của tôi như sau:

    F: <span class="(bold|bold1)">(.*?)</span>
    R: <b>\2</b>
    Repl All

    F: <span class="(italic|italic1)">(.*?)</span>
    R: <i>\2</i>
    Repl All

    Thật ra có file vẫn sót (dù đã nhấn bông hoa vẫn không nối lại một dòng)

    <span class="(bold|bold1)">
    </span>



    <span class="(italic|italic1)">
    </span>

    Nên cần chạy thêm 2 lệnh ở ngoài nữa, mới hết rác.
     
  9. RGBCD

    RGBCD Lớp 3

    Mở topic mới đi. Sức chịu đựng của cô giáo cũng có hạn, đừng để bị cô giáo đuổi ra khỏi lớp. :P
     
  10. vinaguy

    vinaguy Lớp 11

    Em đọc tới đoạn này thấy cứ con vớt qua con vớt lại em hoa hết cả mắt, chóng hết cả mặt... không hiểu được nữa luôn. Nhưng cố gắng đọc thêm nữa thì vẫn hiểu được ý bác muốn gì. :)
    Với tình trạng dọn rách kiểu này thì anh em mình cho Cô giáo ngửi khói mất thôi. :)
    Nhưng bác dọn mạnh tay thật đấy... em không sợ nó sót... sót thì em dọn phát nữa là hết... em chỉ sợ tốc độ quá rồi nó dọn luôn thứ em cần :)
    Thanks bác. Mai em tải xuống và mở ra xem luôn. Giờ em buông máy vi tính rồi.
     
  11. RGBCD

    RGBCD Lớp 3

    Đơn giản là để lại các css liên quan đến i, b, nhấn nút thì các class khác bị xóa hết. Vậy là vẫn bảo toàn được đậm, nghiêng. Vớt qua vớt lại thì rác rất thuần, các thẻ lạ lùng và các chỗ bị xuống dòng vô lý cũng hết, nên dọn lần sau rất nhàn. Mỗi lần convert chỉ mấy giây. Đó là tôi còn ngại xuất ra 13 file html để làm một lượt đó, nên mất mấy chục phút cho 13 file. Bởi vì sợ lẫn lộn dữ liệu các tập nên làm từng file một cho chắc ăn.
     
  12. vinaguy

    vinaguy Lớp 11

    Em thua bác ở chỗ này. Tẩy rác thì tí tẹo là xong, nhưng nó xuống dòng vô tội vạ, rồi lại in nghiêng, in đầm nửa chữ mới ghê. Mấy chỗ này thì em mất khá nhiều thời gian để rút hàng và sửa đậm nghiêng vô tội vạ. Ví dụ: tiếp thị, đầu vào mảnh đất, ông ta trong văn phòng... Chơi ác nhau vậy đó
     
  13. RGBCD

    RGBCD Lớp 3

    Đúng rồi, nhất là tập 8 và 9. Tôi cũng thử convert sang word thì cũng vẫn vậy nên thấy phương án này không ổn. Thế là convert thử (để nguyên css) xuôi ngược, vẫn không khá hơn bao nhiêu. Cuối cùng nghĩ ra cách chỉ giữ css nghiêng, đậm và convert thử. Kết quả như các file đã gửi bạn.

    File có dạng như thế là do xưa dùng VnDocr để nhận dạng chữ, mà kể cả ABBYY cũng thế, nếu chỉ sửa lỗi xuống dòng, đồng nhất cỡ chữ, không định dạng lại file word, cứ thế convert luôn thì sẽ ra kết quả như vậy. Ngày trước tôi cứ dán sang notepad rồi làm đậm nghiêng lại.
     
  14. vinaguy

    vinaguy Lớp 11

    Em tải hàng bác xuống rồi... Sạch tinh tươm, "không một gợn rác" :) Nhưng khi bác tẩy, bác thiếu mất một số định dạng khác bác không lưu ý nên giờ cũng khá khó đối với em để biết được chỗ nào tab giữa (center), chỗ nào tab phải (right); Làm header thì cũng sẽ tương đối thủ công đấy vì em sẽ khó tìm hàng loạt, đối với CHƯƠNG thì có thể, còn lời giới thiệu, lời mở đầu, kết thúc, kết luận... thì phải làm tay rồi; Một số in đậm in nghiêng vô lý vẫn còn, phần này em sẽ tuốt lại thêm.
    Thanks bác nhiều trong việc hỗ trợ tẩy rác. :)
    CÔNG NGHỆ DỌN RÁC càng ngày càng tiến bộ bác ạ. Giờ thì đảm bảo nhanh như chong chóng rồi.
     
  15. RGBCD

    RGBCD Lớp 3

    Bạn cứ thử cách của tôi cho tập 8, 9 ấy (không tốn nhiều thời gian đâu), thích bảo toàn định dạng gì thì cứ giữ css lại.

    Còn cụ thể bộ này, chắc là phải set lại các mục do những người làm ra bộ này không có sự thống nhất.

    Chấm dứt bàn về chủ đề này ở đây (topic này) nhỉ? Bạn cứ viết quy trình dọn rác đi, lập một topic mới và chúng ta sẽ bàn tiếp ở đó.
     
  16. vinaguy

    vinaguy Lớp 11

    Em đã tìm được cách áp chế cái xuống hàng vô tội vạ mà không cần convert rồi bác @RGBCD ạ. Em sẽ viết rõ trong "Quy trình dọn rác" luôn thể. Em đảm bảo cách này sẽ vừa nhanh vừa bảo toàn được tất cả các định dạng và trả về đúng form sạch của một epub. Bác @tran ngoc anh vào cho ý kiến để bọn em dừng topic nè?
     
  17. RGBCD

    RGBCD Lớp 3

    Không lẽ nhờ Mod tách topic luôn? Có điều bài mở phải là bài hướng dẫn.

    Cách của tôi chỉ có ưu điểm là bớt phải dùng nhiều lệnh. Đặc biệt không cần search để biết lỗi gì để viết lệnh cho phù hợp, cái bước search này cũng mất thời gian lắm.
     
  18. tran ngoc anh

    tran ngoc anh Cử nhân

    Tùy ý các cụ nhé ^ ^

    Em viết TUT cũng để phổ biến kinh nghiệm thôi, càng nhiều người biết thì càng có nhiều epub được làm đẹp, sạch.. nên là chả có lý do gì cấm cản việc phổ biến kiến thức trong thread này cả :D

    Việc viết luôn trong đây hay tách ra thread tùy các cụ thấy có tiện hay không thôi à.
     
    RGBCD and nguyenthanh-cuibap like this.
  19. RGBCD

    RGBCD Lớp 3

    Vui lòng đăng nhập hoặc đăng ký để xem link cô giáo ơi. Cảm ơn cô giáo nhé! :D
     
  20. tran ngoc anh

    tran ngoc anh Cử nhân

    Nói vậy cứ như cụ mặc định em đang "dạy" và "khó tính". Định kiến thế không biết!
    Diễn đàn không phải lớp học, Thread TUT cũng không phải là giáo trình, người viết TUT cũng không phải là cô giáo :P
     

Chia sẻ trang này