Hướng dẫn Xóa nhanh code rác trong file epub tạo bởi Calibre

Thảo luận trong 'Hướng dẫn chung' bắt đầu bởi maxiqboy, 13/4/17.

  1. maxiqboy

    maxiqboy Lớp 6

    Code rác trong file html thực sự là một vấn nạn đau đầu đối với các nhà biên tập sách không chuyên như chúng ta ạ :D

    Em cũng đã tham khảo và học hỏi được rất nhiều từ các bài post của các bác trên này ạ, xin chân thành cảm ơn các bác ạ !

    Đặc biệt là bài viết của bác @4DHN Tiêu Dao ạ ! Cảm ơn bác nhiều ạ

    Vui lòng đăng nhập hoặc đăng ký để xem link

    Nay trong quá trình trình bày lại bộ Harry Potter, thì em cũng đã bất chợt tìm ra được 1 cách xóa code rác nhanh chóng trên file html ( convert bởi Calibre )

    Nên hôm nay em xin chia sẻ ra ở đây để mọi người cùng thử nghiệm và bàn luận thêm ạ

    Hy vọng sẽ đóng góp thêm được chút công sức nhỏ bé cho việc đơn giản hóa việc đóng gói Epub ạ !

    Phần mềm sử dụng :
    Xóa code rác : Calibre Epub Editor ( có trong bộ của Calibre )
    Xử lý biên tập lại : Sigil

    Cách làm :

    Bước 1 :
    Mở file EPub cần sửa :
    [​IMG]
    cửa sổ mở file hiện ra, Các bác ấn thêm More app sẽ hiện ra 1 list các app khác, chọn app Editor như hình dưới
    [​IMG]
    Giao diện hiện ra, các bác có thể bấm vô phần code để thấy độ bừa bãi của code trong này @@
    [​IMG]


    Bước 2 : Lưu giữ lại thuộc tính nghiêng đậm của text

    Các bác nhấn Ctrl + F
    điền vào Find và Replace lần lượt :
    <span class="italic">(.*?)</span>
    <i>\1</i>

    Chọn Mode Regex, mục bên cạnh là All Text Files

    Và nhấn Replace All


    [​IMG]

    Tương tự với thuộc tính đậm :

    <span class="bold">(.*?)</span>
    <b>\1</b>


    Bước 3 : Xong xuôi, các bác xóa luôn file Stylesheet.css ở cột bên trái đi

    [​IMG]

    Bước 4 : Nhờ Calibre Editor xóa hộ các tag ko cần thiết :
    các bác click vào nút Remove Unused CSS rules như trong hình
    [​IMG]
    Cửa sổ hiện ra: các bác tích chọn mục Remove Unused class attributes
    > NHấn OK

    Bước 5 : Còn lại mấy cái span div chưa xóa được hết
    các bác lại xóa theo hướng dẫn của bác Tiêu Dao như sau :


    <span>(.*?)</span>
    \1

    [​IMG]

    tương tự :

    <div>(.*?)</div>
    \1


    Xong rồi chúng ta chỉ việc lưu file epub và tiến hành sửa chữa thêm CSS như ý muốn với Sigil như bình thường ạ

    Các bác thử và cho em ý kiến với ạ, em cảm ơn ạ !
     
  2. 4DHN

    4DHN Tiêu Dao

    Cách của bạn đương nhiên là đúng bài. Vấn đề này bạn @NQK cũng đã nói ở đâu đó rồi nhưng không thành topic nên khó tìm - bạn trình bày thành một topic thì rất tốt. Topic của tôi là dành cho người mới làm quen dùng để thực hành lệnh trên Sigil (Calibre) cho quen tay thôi, nên vẫn để cách xóa Code rác kiểu dùng từng lệnh. Tất nhiên khi đã thành thạo việc dùng lệnh rồi thì nên dùng cách bạn trình bày để giảm bớt thao tác xóa code rác.
     
    maxiqboy thích bài này.
  3. NQK

    NQK Lớp 10

    Phải chăng bác muốn nói tới cái này?
    Vui lòng đăng nhập hoặc đăng ký để xem link
     
    thanhbinhtran and 4DHN like this.
  4. 4DHN

    4DHN Tiêu Dao

    Đúng nó đấy. :D
     
  5. maxiqboy

    maxiqboy Lớp 6

    huhu sr các bác em chưa kịp lội page bên đó ạ :'(
     
  6. NQK

    NQK Lớp 10

    Còn nếu muốn chơi với Regex cho vui vẻ thì thử tìm
    Mã:
    <(body|p|div|span|h1|h2|h3|h4|h5|h6).*?>
    Thay bằng
    Mã:
    <\1>
     
  7. 4DHN

    4DHN Tiêu Dao

    Xóa kiểu này hay vì đôi khi vẫn còn rác ở id, lang nếu dùng cách xóa css. :D
     
  8. NQK

    NQK Lớp 10

    Vâng. Làm thì lâu chứ phá thì mấy. ;)
     
  9. maxiqboy

    maxiqboy Lớp 6

    Nghề chơi thật lắm công phu các bác ạ :D

    em vẫn như đang lạc trong mê hồn trận chưa tìm thấy lối ra

    em tìm thấy rồi ạ :p
     
    Chỉnh sửa cuối: 13/4/17
  10. Bọ Cạp

    Bọ Cạp Moderator Thành viên BQT

    @maxiqboy Cho mình xin cái ảnh đầu bị xóa :D
     
  11. maxiqboy

    maxiqboy Lớp 6

    Hicc ảnh mất hết rồi ạ :(

    Để em kiếm host khác :(
     
  12. Bọ Cạp

    Bọ Cạp Moderator Thành viên BQT

    Hồi trước anh khiconmtv giới thiệu cho cái link này, không cần host
    Vui lòng đăng nhập hoặc đăng ký để xem link
     
  13. 4DHN

    4DHN Tiêu Dao

    Góp ý chút. Để kiểm tra các thuộc tính: i, b... một cách chắc chắn không sót, cần xem trong css, chỗ nào mô tả là italic, bold... Đã có trường hợp nó nằm trong class không có tên là italic hay bold... rồi. :D

    Một trong những host chia sẻ hình ảnh tốt nhất là photobucket. Có những hình tôi upload lên từ năm 2009 mà vẫn còn nguyên, dù không dùng đến.
     
  14. 4DHN

    4DHN Tiêu Dao

    Có những dịch vụ chia sẻ hình ảnh mà file upload lên bị xóa sau một thời gian.
     
    Bọ Cạp thích bài này.

Chia sẻ trang này