Log in or Sign up

PC [gdoc, html] Dùng Google Doc tạo html sạch để làm epub

Discussion in 'Hướng dẫn chung' started by tran ngoc anh, Sep 14, 2021.

Page 2 of 13

tran ngoc anh Cử nhân

Lúc trước thì vậy chứ bây giờ sao lại bỏ ra một tiếng để dọn rác, trong khi gdoc vèo vèo trong vài phút, pandoc cũng chỉ lâu hơn một chút vì thêm bước mã hóa nghiêng đậm...

À cụ @vinaguy có hứng thú thử thách không ^^ em đưa cụ cái file xem rác nó khủng khiếp thế nào, luyện tay vậy hehe

tran ngoc anh, Sep 15, 2021

#21

vinaguy likes this.
Nga Hoang Lớp 12

tran ngoc anh said: ↑

Cụ @Nga Hoang đừng quan trọng vụ Ai Ti Ai Tiếc gì hết, cứ làm thí làm đại đi.
Click to expand...

vinaguy said: ↑

... em sẽ cố gắng hướng dẫn và giải thích tới lúc nào bác hiểu và tự làm epub được thì thôi.
Click to expand...

Cảm ơn các mợ các cụ.
Sửa lỗi chính tả xong cuốn Ngôi nhà sặc sỡ - John Grisham, tôi sẽ ... làm thí làm đại thử.

Nga Hoang, Sep 16, 2021

#22
baothoa Lớp 7

tran ngoc anh said: ↑

DOCXimport này vào có ra html sạch luôn không bạn?
Bên calibre cũng import được docx vào editor thành epub trực tiếp, thật ra không khác gì management nó convert từ docx qua epub, class calibre1, calibre2 búa xua hết trơn.
Click to expand...

Cũng khá là sạch, và cũng cần dọn dẹp file word cho tốt, khi đó thì nó imprort gần như hoàn chỉnh.

baothoa, Sep 16, 2021

#23

vinaguy and tran ngoc anh like this.
vinaguy Lớp 12

RGBCD said: ↑

Nhiều khi có mấy class cùng định dạng, xong class nào thì xóa class đó trong css
Click to expand...

Em cũng làm giống bác nhưng em không xóa trong css mà cứ sạch xong em thay cả css mới luôn, chứ css convert thì không dùng được đâu.

vinaguy, Sep 16, 2021

#24
vinaguy Lớp 12

Nga Hoang said: ↑

Cảm ơn các mợ các cụ.
Sửa lỗi chính tả xong cuốn Ngôi nhà sặc sỡ - John Grisham, tôi sẽ ... làm thí làm đại thử.
Click to expand...

Convert sang epub trước rồi sửa sau cũng được bác ạ. Cả làm cả sửa đi. Không có gì ghê gớm đâu bác. Code sạch dễ sửa chính tả lắm. Đặc biệt sửa bằng từ điển trước cho nhanh đã. Rồi sau đó sửa bằng đọc chi tiết.

vinaguy, Sep 16, 2021

#25
tran ngoc anh Cử nhân

Cụ Nga thử "hơm nào" quất cái md đi cụ. Trước em sửa html bằng điện thoại cực vô cùng. Docx thì sửa thông qua gdoc cũng khá cồng kềnh.

Md được dùng rất rộng rãi để viết thô, tài liệu hướng dẫn sử dụng phần mềm md, viết luận, viết báo, bản thảo sách cũng md nốt. Do được hỗ trợ tốt nên chuyển về định dạng đích rất dễ.

tran ngoc anh, Sep 16, 2021

#26

Nga Hoang and vinaguy like this.
RGBCD Lớp 3

vinaguy said: ↑

Em cũng làm giống bác nhưng em không xóa trong css mà cứ sạch xong em thay cả css mới luôn, chứ css convert thì không dùng được đâu.
Click to expand...

Kiểm tra css để biết những class nào định dạng i, b một cách chắc chắn. Còn xóa hết css để xóa toàn bộ class. Còn sau này thay css mới là điều tất nhiên.

RGBCD, Sep 16, 2021

#27

vinaguy likes this.
vinaguy Lớp 12

tran ngoc anh said: ↑

Lúc trước thì vậy chứ bây giờ sao lại bỏ ra một tiếng để dọn rác, trong khi gdoc vèo vèo trong vài phút
Click to expand...

1 tiếng là được cuốn sách sạch đẹp (qua 9 bước của em) đó bác. Chớ dọn rác thì một tẹo là xong.

Bác cho em cái file "thử thách" xem thế nào bác?

vinaguy, Sep 16, 2021

#28

tran ngoc anh likes this.
Nga Hoang Lớp 12

vinaguy said: ↑

Convert sang epub trước rồi sửa sau cũng được bác ạ. Cả làm cả sửa đi. Không có gì ghê gớm đâu bác. Code sạch dễ sửa chính tả lắm. Đặc biệt sửa bằng từ điển trước cho nhanh đã. Rồi sau đó sửa bằng đọc chi tiết.
Click to expand...

Theo lời cụ @vinaguy, tôi làm thử thì kết quả tệ hơn trước, vừa không có cover, footnote không chạy, vừa nhảy xuống hàng tùy tiện, gạch đầu hàng bị thay bằng dấu chấm.
Tôi up load để các mợ các cụ xem hộ.

Last edited: Sep 16, 2021

Nga Hoang, Sep 16, 2021

#29

tran ngoc anh likes this.
tran ngoc anh Cử nhân

vinaguy said: ↑

1 tiếng là được cuốn sách sạch đẹp (qua 9 bước của em) đó bác. Chớ dọn rác thì một tẹo là xong.

Bác cho em cái file "thử thách" xem thế nào bác?
Click to expand...

OK bác để em lựa lại cái file rồi up bác xem thử.

tran ngoc anh, Sep 16, 2021

#30
vinaguy Lớp 12

Nga Hoang said: ↑

Theo lời cụ Please login or register to view links, tôi làm thử thì kết quả tệ hơn trước, vừa không có cover, footnote không chạy, vừa nhảy xuống hàng tùy tiện, gạch đầu hàng bị thay bằng dấu chấm.
Tôi up load để các mợ các cụ xem hộ.
Click to expand...

Nghe bác báo cáo tình hình em thấy thảm thương quá cơ . Để em mở máy tính và xem cái file của bác đã nghen. Em sẽ hướng dẫn bác cụ thể để sửa cuốn sách. Đừng quá lo lắng

tran ngoc anh said: ↑

OK bác để em lựa lại cái file rồi up bác xem thử.
Click to expand...

Bác cứ từ epub bác convert qua mobi, từ mobi bác convert qua aw3, từ aw3 sang prc rồi từ prc về lại epub là được một file mà có "đống rác của chúng ta ngùn ngụt bốc cao" liền đó bác

vinaguy, Sep 16, 2021

#31
tran ngoc anh Cử nhân

vinaguy said: ↑

Bác cứ từ epub bác convert qua mobi, từ mobi bác convert qua aw3, từ aw3 sang prc rồi từ prc về lại epub là được một file mà có "đống rác của chúng ta ngùn ngụt bốc cao" liền đó bác
Click to expand...

Không cần đâu bác, loại này của em nhìn đủ rối mắt rồi. Nó có "bẫy chết editor" nhiều lắm

tran ngoc anh, Sep 16, 2021

#32
RGBCD Lớp 3

Nga Hoang said: ↑

Theo lời cụ @vinaguy, tôi làm thử thì kết quả tệ hơn trước, vừa không có cover, footnote không chạy, vừa nhảy xuống hàng tùy tiện, gạch đầu hàng bị thay bằng dấu chấm.
Tôi up load để các mợ các cụ xem hộ.
Click to expand...

Bạn hiểu lầm ý của Guy rồi. Ý bạn ấy là convert docx đầu tiên của bạn sang epub rồi sửa cơ, không áp dụng cách của tna.

Tôi cũng thấy cách này có một số hạn chế. Nếu sửa 1 prc có rất nhiều hình minh họa giả sử có 200 hình minh họa, rất nhiều chú thích (giả sử có 1000 chú thích đang chạy tốt), thì cách của tna chắc sẽ mất thời gian hơn nhiều. Ví dụ như Please login or register to view links, chắc cách xóa code rác nhanh hơn.

RGBCD, Sep 16, 2021

#33

vinaguy likes this.
tran ngoc anh Cử nhân

Vấn đề ảnh minh họa đơn giản hơn nhiều và phải loại nó ra trước, đầu tiên là đổi tên thành số, chỗ tag <img> đánh dấu lại. Sau đó thì tẩy khuẩn sát trùng chán chê rồi từ vị trí đánh dấu đó mà regex gắn tag img lại thôi. Có funtion để chạy img trong thread css và saved search mà.

Footnote lại càng không cần thiết phải giữ cái có sẵn, vì nó thường không theo quy cách epub3 và id rất lung tung, class đồ nữa, chỉ có tẩy sạch rồi từ vị trí của nó chạy 2 function của anh Inno14, mất mấy chục giây chạy function chẳng phải hàng sẽ xịn hơn là cố gắng giữ form cũ của footnote để rồi tự hạn chế mình không được dùng các cách tẩy giun hay sau.

Không có phương pháp hoàn hảo, chỉ có cách vận dụng sáng tạo khi sử dụng mới tiệm cận sự hoàn hảo thôi.

Last edited: Sep 16, 2021

tran ngoc anh, Sep 16, 2021

#34

vinaguy likes this.
vinaguy Lớp 12

Em đã mở file của bác @Nga Hoang rồi nha. Nào, chúng ta mở ra xem nào:
Em có nhận xét là file word của bác ban đâu (trước khi convert là file chưa được hoàn chỉnh lắm về mặt định dạng - Em không bàn chính tả nhé, cái này để sau - Định dạng bác phải cho nó hoàn chỉnh tí thì mới dễ sửa sau này. Chú thích của bác ở file word cũng chưa đầy đủ bác ạ. Chỗ có bình giải chú thích, chỗ thì có đánh dấu chú thích nhưng lại không có bình giải.
Nào... Chúng ta bắt đầu gỡ rối nhé:
1. Bác mở file của bác lên bằng Calibre và nhắp vào Tool, rồi chọn cái bông hoa (Beautify All Files) - Mục đích để Cali nó tự tuốt lại file cho dễ nhìn.
2. Kiểm tra lại file xem nào... Chúng ta sẽ thấy như sau:
a) Các chương thì có dạng: <strong>1</strong>
b) Các thẻ <p> hầu hết có dạng:
<p>
Vân vân và vân vân.
</p>
c) Các chữ có chú thích thì nó sẽ in nghiêng ở dạng <em>bla bla</em>. Nó sẽ được nối lên hàng trên nhé (vì hiện giờ nó bị xuống hàng)
d) Ngay trước chú thích thì có dạng: <sup id="fnref6"></sup> (dạng này sẽ viết lên cao giống như viết số mũ đây). Nó sẽ không cần thiết ở đây nữa.
e) Chú thích chỗ có chỗ không (như em đã nói ở trên) Cái này thì bác phải bổ sung đầy đủ ở word bác nhé.
f) Các câu thoại thì có dạng:
<li>Vân vân và vân vân.

</li>
g) Một số chỗ không theo qui luật gì cả (do file word của bác chưa được trau chuốt trước khi convert nhé)
Vậy là chúng ta đã qua bước Phân tích file của bác. Em post lên và ăn cơm đã. Rồi các thread sau chúng ta sẽ gỡ rối

vinaguy, Sep 16, 2021

#35
vinaguy Lớp 12

Đ

RGBCD said: ↑

Bạn hiểu lầm ý của Guy rồi. Ý bạn ấy là convert docx đầu tiên của bạn sang epub rồi sửa cơ, không áp dụng cách của tna.
Click to expand...

Đúng! Bác @Nga Hoang đã hiểu sai ý em.
Về chú thích và hình ảnh thì @tran ngoc anh đã cho ý kiến rất chính xác. Cứ đánh dấu rồi để đó. Sau này chúng ta chạy 1 phát thì 5 giây là xong toàn bộ, không vất vả gì, chỉ yêu cầu là tất cả chú thích và hình ảnh phải đánh dấu kiểu gì để đồng nhất toàn bộ tài liệu thì sau này mới replace một phát ăn cả.

vinaguy, Sep 16, 2021

#36
RGBCD Lớp 3

Ví dụ file tây Du ký vừa rồi, tôi tìm trong css chỉ thấy có 2 css quy định i và b là italic và bold nên chỉ cần 2 lệnh chuyển:
<span class="bold">(.*?)</span>
<b>\1</b>

<span class="italic">(.*?)</span>
<i>\1</i>

Rồi xóa sạch css đi xong bấm:

Xem code thấy đi hết class:

Bây giờ xóa hết <span> và <div> đi:

Bấm Beautify All Files là gần như sạch code

Chỉ còn vài cái có id, lang, và vài loại thẻ trắng nữa thôi. Tìm và diệt nốt là xong.

Tất cả mất độ 5 phút. Code sạch bong và các hình minh họa cũng như link còn y nguyên.

Please login or register to view links

Last edited: Sep 16, 2021

RGBCD, Sep 16, 2021

#37
RGBCD Lớp 3

tran ngoc anh said: ↑

Vấn đề ảnh minh họa đơn giản hơn nhiều và phải loại nó ra trước, đầu tiên là đổi tên thành số, chỗ tag <img> đánh dấu lại. Sau đó thì tẩy khuẩn sát trùng chán chê rồi từ vị trí đánh dấu đó mà regex gắn tag img lại thôi. Có funtion để chạy img trong thread css và saved search mà.

Footnote lại càng không cần thiết phải giữ cái có sẵn, vì nó thường không theo quy cách epub3 và id rất lung tung, class đồ nữa, chỉ có tẩy sạch rồi từ vị trí của nó chạy 2 function của anh Inno14, mất mấy chục giây chạy function chẳng phải hàng sẽ xịn hơn là cố gắng giữ form cũ của footnote để rồi tự hạn chế mình không được dùng các cách tẩy giun hay sau.

Không có phương pháp hoàn hảo, chỉ có cách vận dụng sáng tạo khi sử dụng mới tiệm cận sự hoàn hảo thôi.
Click to expand...

Tại sao phải xóa ảnh nhỉ? Hay cần gì phải dùng lệnh gì đó đổi cấu trúc? Cứ để nguyên thì làm sao? Viết css phù hợp là đủ.

Chú thích chưa đúng quy cách epub3 thì chèn thêm là ổn, cũng chỉ mất vài lệnh.

Vì xóa code rác không mất thời gian nhiều cho nên việc gì phải đi đường vòng. 5 phút vẫn là bị hơi nhiều do là mắt mờ chân chậm, tay run, thận trọng quá nữa (chỗ xóa thẻ span và div có thể bớt đi 2 lệnh). Chứ trẻ khỏe như bạn Guy chắc chỉ 3 phút.

RGBCD, Sep 16, 2021

#38
RGBCD Lớp 3

Nga Hoang said: ↑

Theo lời cụ @vinaguy, tôi làm thử thì kết quả tệ hơn trước, vừa không có cover, footnote không chạy, vừa nhảy xuống hàng tùy tiện, gạch đầu hàng bị thay bằng dấu chấm.
Tôi up load để các mợ các cụ xem hộ.
Click to expand...

File word của bạn Nga Hoang bị đánh xuống dòng gạch ngang tự động nên khi chạy nó sẽ ra thẻ li ol gì đó nên hiển thị thành dấu •, dùng lệnh sửa lại tốn thêm thời gian. Tất cả những chữ nghiêng bị tách thẻ hết (có lẽ đây là 1 hạn chế của phương pháp mới), sửa được nhưng sẽ lại tốn thêm thời gian nữa. Chỗ chú thích cũng lỗi, tuy nhiên thạo dùng lệnh vẫn sửa được nhanh chóng.

Chốt lại, để sử dụng phương pháp của tna một cách hiệu quả cần có quy định cụ thể về định dạng file nguồn.

Còn nói chung thì cần vận dụng sáng tạo thôi. Cứ cách nào nhanh nhất thì ta xài đại trà, sau khi đã thử hết các cách.

RGBCD, Sep 16, 2021

#39
tran ngoc anh Cử nhân

RGBCD said: ↑

Tại sao phải xóa ảnh nhỉ? Hay cần gì phải dùng lệnh gì đó đổi cấu trúc? Cứ để nguyên thì làm sao? Viết css phù hợp là đủ.

Chú thích chưa đúng quy cách epub3 thì chèn thêm là ổn, cũng chỉ mất vài lệnh.

Vì xóa code rác không mất thời gian nhiều cho nên việc gì phải đi đường vòng. 5 phút vẫn là bị hơi nhiều do là mắt mờ chân chậm, tay run, thận trọng quá nữa (chỗ xóa thẻ span và div có thể bớt đi 2 lệnh). Chứ trẻ khỏe như bạn Guy chắc chỉ 3 phút.
Click to expand...

Cụ đúng là quá tự tin với kỹ năng xoá rác của mình nên cụ nói thế, chứ em thì yếu nên mới chơi đường vòng, đánh dấu rồi build lại từ định dạng trắng.

Cụ lại ngộ nhận một chỗ "tại sao phải dùng lệnh đổi cấu trúc". Xin thưa cụ là đánh dấu vị trí của ảnh hoặc fn mà thôi, việc này cần dùng regex thì việc cụ xoá rác bằng regex cũng y như thế về bản chất mà có khi cụ phải dùng nhiều đoạn regex hơn đánh dấu nữa.

Nếu cụ tự tin là có thể hoàn toàn chỉ dùng regex mà không cần đánh dấu để tẩy giun thông qua định dạng trung gian. Kính mời cụ tham gia thử thách cùng mr vinaguy, xem cái file của em nhé, chiều chiều em up cái html cho mọi người chiêm ngưỡng

tran ngoc anh, Sep 16, 2021

#40

(You must log in or sign up to reply here.)

Page 2 of 13

Share This Page