PC [gdoc, html] Dùng Google Doc tạo html sạch để làm epub

Thảo luận trong 'Hướng dẫn chung' bắt đầu bởi tran ngoc anh, 14/9/21.

  1. tran ngoc anh

    tran ngoc anh Cử nhân

    ^^ đã bảo rồi
     
  2. vinaguy

    vinaguy Lớp 11

    File em
     

    Các file đính kèm:

    tran ngoc anh thích bài này.
  3. RGBCD

    RGBCD Lớp 3

    Chuyển đổi mã chữ cũng không có trong đề, tuy nhiên vẫn làm để biết nội dung. :P
     
    tran ngoc anh thích bài này.
  4. RGBCD

    RGBCD Lớp 3

    Xóa được 1 thẻ thì xóa được tất, lệnh giống nhau. Có điều vội quá nên mới không xem hết file. Thôi 5- cũng được. :P
     
    tran ngoc anh thích bài này.
  5. tran ngoc anh

    tran ngoc anh Cử nhân

    Vâng ^^ chỉ là một thao tác nhỏ để nguồn text dễ nhìn hơn để xử lý thôi. Huống hồ tẩy giun ở đây được định nghĩa là từ nguồn text thô ra html thuần. Vậy đề bài vẫn đúng nếu chỉ cung cấp PDF thôi nhé, tự xuất html để mà tẩy giun đấy.
     
  6. tran ngoc anh

    tran ngoc anh Cử nhân

    Đừng đưa ra lý do :D bắt tay vào thôi. Giải được đề bài với phương pháp tốt thì ok thôi mà ^^
     
  7. RGBCD

    RGBCD Lớp 3

    Chưa thử pdf, nhưng chắc không khó. :p

    Để lát nữa mở máy tính xem nó thế nào.
     
    tran ngoc anh thích bài này.
  8. RGBCD

    RGBCD Lớp 3

    Thực sự rất vội, ngồi thêm phút nữa giàn lý đổ thì chết. Cùng lắm thì cô giáo cho thi lại thôi, hay ở lại lớp cũng được. Học lại kiến thức càng chắc. :D
     
  9. tran ngoc anh

    tran ngoc anh Cử nhân

    Hai file hơi lệch dung lượng một chút. Chắc kết quả cũng hơi khác một chút rồi.
     
  10. tran ngoc anh

    tran ngoc anh Cử nhân

    File cụ chưa đạt, trước là mất các <sup>, hai là css còn tận 6,1KB, quá là nhiều rác (song hình như là do chưa bấm nút tẩy css), html thuần là không còn css luôn, chỉ các tag <i>, <b>, <sup> được giữ. Trong html vẫn còn class và value..

    Song cụ thuần cái <i>, <b> rất tốt, cái này em phục sát đất ^ ^
     
  11. tran ngoc anh

    tran ngoc anh Cử nhân

    File cụ mất nhiều thứ hơn file cụ Guy nữa :D <sup> và nghiêng, cụ check lại các endnote sẽ rõ, bắt đầu từ trang PDF 591, ở endnote thứ 3 tên của A. I. Sin-ga-rép...
    upload_2021-9-16_19-51-45.png
    Cụ xóa nhanh quá nên lẹm mất, đó là cái em luôn e ngại khi xóa rác, lỡ tay xóa nhầm, cái css này 1183 dòng nó nhiều khủng khiếp như vậy sẽ gây mất tập trung..
     
  12. vinaguy

    vinaguy Lớp 11

    :) Trời... Còn vụ <sup> nữa hả? Em thì cái này lúc trang trí em mới uýnh vào sau... Chứ lúc tuốt code em lại chả quan tâm nó nên mới thành ra zậy. :) Khiếp cái bài tập của cô... Vừa dài, vừa phức tạp. Nhất là đoạn cuối (chỗ cái tài liệu tham khảo á). Trời wơi, nó có một tí xíu cũng tự nó sinh một code cho riêng nó. Mắc mợt...
    Cái SUP là do em không lưu ý nó thôi, em lưu ý thì nó cũng dễ như mọi thứ khác.

    Của em hình ảnh đầy đủ, H hiếc gì đầy đủ nhóe cô
     
  13. tran ngoc anh

    tran ngoc anh Cử nhân

    upload_2021-9-16_20-4-25.png
    ^ ^
     
  14. tran ngoc anh

    tran ngoc anh Cử nhân

    Có trong đề bài nhé cụ, đã bảo là tẩy giun để về html thuần, mà html thuần là có mấy tag <i>, <b>, <sup>... em cũng nói rõ là nghiêng đậm supersript rồi mà. Hơn nữa đây là đề bài "nguồn text thô" không phải do mình tự làm, ví dụ do người khác soát xong đưa cho mình tẩy giun, mình phải giữ được các chỗ <sup> đó để mà còn chạy chú thích chứ lát san bằng tất cả rồi chạy sao giờ :D. Hơn nữa rất nhiều chỗ phân số dạng <sup>1<sup>/</sub>2</sub> như thế này, san bằng là tiếc lắm nha hêhê.

    hihi chỗ này ghi nhận, cũng như <i> và <b> em có lời khen. Bonus là pandoc xử lý ảnh ọt cũng không lệch một li, cuốn này em dùng pandoc ^^
     
  15. RGBCD

    RGBCD Lớp 3

    Đúng ra với file dạng này cần tìm bằng hết italic, bold xem css nào định dạng thẻ nào, class nào. File này cực nhiều class định dạng là italic nên làm kỹ được khá mệt.

    Đây nhé:

    upload_2021-9-16_21-15-1.png

    Còn dưới đây là file làm lại từ pdf này. Có chú ý đến các thẻ b, i nhưng không thể làm được sup. :D
     
  16. RGBCD

    RGBCD Lớp 3

    Ồ quên mất là có 1 folder ảnh nữa nên thay file nhé. :D

    Chuyển mã chữ online thì có nhiều trang lắm.

    Vui lòng đăng nhập hoặc đăng ký để xem link

    upload_2021-9-16_21-40-48.png


    upload_2021-9-16_21-40-4.png

    upload_2021-9-16_21-41-53.png


    Dùng công cụ như Unikey cũng được nhưng phải biêt chữ dùng mã gì. Dùng online thì có thể hỏi nó luôn và làm luôn.
     

    Các file đính kèm:

    Chỉnh sửa cuối: 16/9/21
  17. RGBCD

    RGBCD Lớp 3

    Dùng máy tính thì đổi ngon rồi, thử dùng đt xem thế nào? :P
    Screenshot_2021-09-16-21-52-29-80_40deb401b9ffe8e1df2f1cc5ba480b12.jpg

    Screenshot_2021-09-16-21-52-54-12_40deb401b9ffe8e1df2f1cc5ba480b12.jpg

    Screenshot_2021-09-16-21-53-21-80_40deb401b9ffe8e1df2f1cc5ba480b12.jpg
     
  18. tran ngoc anh

    tran ngoc anh Cử nhân

    Phương pháp các cụ đưa ra và thực hiện em thấy cũng làm được chứ không phải không. Em cũng dùng mà, song vì dùng không hợp nên không thích dùng nữa :D

    Thích build style từ html sạch chứ không thích xoá class ^^

    Thử thách này chỉ là thử thách nhỏ, rồi ai dùng cách gì cũng trở về cách đó chứ không mang tính chất thuyết phục cách làm của nhau :D

    Tiện cụ trình bày rõ hơn chỗ tìm style nghiêng từ trong css để repla thành tag với :D với lại cụ repl với điều kiện ra sao mà các từ nghiêng trong hình minh họa lại mất nghiêng?
     
  19. Nga Hoang

    Nga Hoang Lớp 11

    Cảm ơn sự nhiệt tình của cụ. Thực ra sau mấy ví dụ của cụ, tôi cũng cơ bản nắm được chức năng của Find & Replace. Nhưng xen ra gọt tỉa một epub cho đẹp và hết lỗi không chỉ chừng đó mà làm được. Nên cuối cùng tôi nghĩ là cứ hoàn thiện bản word đã rồi chuyển qua epub fix các lỗi định dạng lặt vặt sau.
    Cảm ơn các cụ các mợ.
     
  20. RGBCD

    RGBCD Lớp 3

    Nói về file có css bình thường cho dễ nhé.

    Mở file css, chế độ current file tìm italic sẽ tìm được .xxx1 có italic. Tìm xxx1 ở chế độ alll files sẽ tìm được thẻ nào đó có class là xxx1, dùng lệnh thay thẻ đó thành i.
    Xóa .xxx1 trong css. Lặp lại lệnh tìm italic trong css sẽ tìm được .xxx2
    ...
    Cứ như vậy cho đến khi nào không tìm được nữa (vì mỗi lần thay xong là xóa loại đó trong css).

    Giờ thì có thể xóa hết css và làm như đã nói ở trên. Hoặc lập luôn một lệnh xóa đồng thời phần đầu của nhiều thẻ gồm class, id, lang của thẻ như bạn guy viết trên kia.
    F: (<p) (.+?)>|(<span) (.+?)>|...|(<body) (.+?)> {liệt kê hết các thẻ thường thấy, viết sẵn để dùng lần sau}
    R: \1>
    Replace All

    Rồi một lệnh nữa
    F: <span>|<div>|<p></p>|<p>\s+</p>|<p><br (.+?)/></p> {liệt kê hết những thẻ trắng thường thấy, lệnh này cũng viết sẵn để dùng cho những lần sau}
    R: không nhập gì
    Replace All

    Rồi bấm bông hoa là sạch sẽ. Giờ chắc chỉ còn các thẻ br nằm đâu đó. Tìm xem thẻ br có là ngắt đoạn không, hoặc đứng một mình mà có cách xử lý cụ thể.

    P.S Ý tưởng ở post này nhiều cái hôm nay mới nảy ra, chưa thực hành thực sự, nhưng nếu áp dụng và cải tiến thêm thì chắc xóa rác sẽ cực nhanh. Lâu nhất chắc ở bước giữ lại các định dạng đậm, nghiêng nếu có nhiều class quy định các định dạng đó thì sẽ làm lâu hơn.
    Code của file đó và thẻ style quá rối nên lệnh nhầm lẫn ở đâu đó. File dạng đó chắc xuất ra word sẽ dễ làm hơn, nhất là những chỗ định dạng nghiêng bị sai lắt nhắt như 1 dấu , một chữ "ở", nhiều chỗ chỉ một chữ cái trong vần "ười"...
     
    tran ngoc anh thích bài này.

Chia sẻ trang này