Code rác trong file html thực sự là một vấn nạn đau đầu đối với các nhà biên tập sách không chuyên như chúng ta ạ Em cũng đã tham khảo và học hỏi được rất nhiều từ các bài post của các bác trên này ạ, xin chân thành cảm ơn các bác ạ ! Đặc biệt là bài viết của bác @4DHN Tiêu Dao ạ ! Cảm ơn bác nhiều ạ Vui lòng đăng nhập hoặc đăng ký để xem link Nay trong quá trình trình bày lại bộ Harry Potter, thì em cũng đã bất chợt tìm ra được 1 cách xóa code rác nhanh chóng trên file html ( convert bởi Calibre ) Nên hôm nay em xin chia sẻ ra ở đây để mọi người cùng thử nghiệm và bàn luận thêm ạ Hy vọng sẽ đóng góp thêm được chút công sức nhỏ bé cho việc đơn giản hóa việc đóng gói Epub ạ ! Phần mềm sử dụng : Xóa code rác : Calibre Epub Editor ( có trong bộ của Calibre ) Xử lý biên tập lại : Sigil Cách làm : Bước 1 : Mở file EPub cần sửa : cửa sổ mở file hiện ra, Các bác ấn thêm More app sẽ hiện ra 1 list các app khác, chọn app Editor như hình dưới Giao diện hiện ra, các bác có thể bấm vô phần code để thấy độ bừa bãi của code trong này @@ Bước 2 : Lưu giữ lại thuộc tính nghiêng đậm của text Các bác nhấn Ctrl + F điền vào Find và Replace lần lượt : <span class="italic">(.*?)</span> <i>\1</i> Chọn Mode Regex, mục bên cạnh là All Text Files Và nhấn Replace All Tương tự với thuộc tính đậm : <span class="bold">(.*?)</span> <b>\1</b> Bước 3 : Xong xuôi, các bác xóa luôn file Stylesheet.css ở cột bên trái đi Bước 4 : Nhờ Calibre Editor xóa hộ các tag ko cần thiết : các bác click vào nút Remove Unused CSS rules như trong hình Cửa sổ hiện ra: các bác tích chọn mục Remove Unused class attributes > NHấn OK Bước 5 : Còn lại mấy cái span div chưa xóa được hết các bác lại xóa theo hướng dẫn của bác Tiêu Dao như sau : <span>(.*?)</span> \1 tương tự : <div>(.*?)</div> \1 Xong rồi chúng ta chỉ việc lưu file epub và tiến hành sửa chữa thêm CSS như ý muốn với Sigil như bình thường ạ Các bác thử và cho em ý kiến với ạ, em cảm ơn ạ !
Cách của bạn đương nhiên là đúng bài. Vấn đề này bạn @NQK cũng đã nói ở đâu đó rồi nhưng không thành topic nên khó tìm - bạn trình bày thành một topic thì rất tốt. Topic của tôi là dành cho người mới làm quen dùng để thực hành lệnh trên Sigil (Calibre) cho quen tay thôi, nên vẫn để cách xóa Code rác kiểu dùng từng lệnh. Tất nhiên khi đã thành thạo việc dùng lệnh rồi thì nên dùng cách bạn trình bày để giảm bớt thao tác xóa code rác.
Còn nếu muốn chơi với Regex cho vui vẻ thì thử tìm Mã: <(body|p|div|span|h1|h2|h3|h4|h5|h6).*?> Thay bằng Mã: <\1>
Nghề chơi thật lắm công phu các bác ạ em vẫn như đang lạc trong mê hồn trận chưa tìm thấy lối ra em tìm thấy rồi ạ
Hồi trước anh khiconmtv giới thiệu cho cái link này, không cần host Vui lòng đăng nhập hoặc đăng ký để xem link
Góp ý chút. Để kiểm tra các thuộc tính: i, b... một cách chắc chắn không sót, cần xem trong css, chỗ nào mô tả là italic, bold... Đã có trường hợp nó nằm trong class không có tên là italic hay bold... rồi. Một trong những host chia sẻ hình ảnh tốt nhất là photobucket. Có những hình tôi upload lên từ năm 2009 mà vẫn còn nguyên, dù không dùng đến.