Đăng nhập

PC [gdoc, html] Dùng Google Doc tạo html sạch để làm epub

Thảo luận trong 'Hướng dẫn chung' bắt đầu bởi tran ngoc anh, 14/9/21.

Trang 7 của 13 trang

vinaguy Lớp 12

tran ngoc anh nói: ↑

Thử thách này chỉ là thử thách nhỏ
Click to expand...

Không hề nhỏ nhé Cô giáo Lúc đầu em cứ tưởng là dọn rác, không dè Cô cho phát làm từ đầu; Không những thế lại còn TCVN3, cái mà từ năm 2010 tới giờ em không đụng tới nữa... nên lúc mới mở lên, không có font nên trông như "mẹt thục địa", lại "ngớ ngàng, ngớ ngàng" mất vài chục phút vừa tìm font cho máy vừa định hình cách xử lý tài liệu; đã thế file lại "Bự tổ chảng" ra mới sợ; rồi tới cuốn sách cô cho gì mà nhiều format định dạng linh tinh (tóm lại đây là một trường hợp "khó điển hình" rồi, chứ không "nhỏ" nữa đâu

tran ngoc anh nói: ↑

cụ trình bày rõ hơn chỗ tìm style nghiêng từ trong css để repla thành tag với
Click to expand...

Cách tìm style của bác @RGBCD "dư lào" thì em không biết. Còn cách của em như sau:
- Mở file lên "tặng cho nó bông hoa" và định hình xem thứ cần sửa được class nào điều khiển (với file của Cô gửi, mỗi chuyện in nghiêng không thôi mà đã có tới cỡ khoảng gần 25 cái class - đây là lý do tại sao bác @RGBCD bị rớt bớt "hàng")
- Thứ tự xử lý các loại: 1) in nghiêng; 2) in đâm; 3) title, tab giữa, tab phải (trong lúc tìm 1 và 2 sẽ thấy luôn cả 3, tuy không phải tất cả, nhưng cũng gần hết); 4) <sup> (vụ này bị em bỏ qua nên Cô mới cho trượt, thi lại đây.); 5) ảnh ót, note nót gì đó thì lúc convert sang epub nó đã tự động cho cái link, tuy không vừa ý nhưng ta sẽ xử lý khi trang trí.
- Xử lý: Vào css search (curent file) tìm italic/bold/center/sup/... lần lượt từng thứ (vì file của cô giáo cho quá nhiều class nên không thể tua qua tua lại) --> double click tên class, copy dán vào ô find và all text files --> sẽ thấy class đó có dạng nào trong file html --> viết find và replace cho nó và replace all, thỉnh thoảng nhớ tặng cho nó bông hoa cho đẹp và đỡ rối mắt.
Chỉ đơn giản có thế thôi Cô ạ. Hôm qua em mất 45 phút gọi là "tẩy giun" nhưng thực tế em phải làm từ đầu của quá trình làm sách và luớ quớ với cái TCNV3 nên mất thời gian File bự, máy yếu nên cũng xoay xoay mất mớ thời gian nữa mới xong.
Sợ Cô giáo quá rồi

vinaguy, 17/9/21

#121

tran ngoc anh thích bài này.
vinaguy Lớp 12

RGBCD nói: ↑

F: (<p) (.+?)>|(<span) (.+?)>|...|(<body) (.+?)> {liệt kê hết các thẻ thường thấy, viết sẵn để dùng lần sau}
R: \1>
Replace All
Click to expand...

Em chưa thử, nhưng em nghĩ đoạn này sẽ gặp vấn đề bác ạ. Chắc phải edit lại câu lệnh chút chút.

vinaguy, 17/9/21

#122
RGBCD Lớp 3

vinaguy nói: ↑

Em chưa thử, nhưng em nghĩ đoạn này sẽ gặp vấn đề bác ạ. Chắc phải edit lại câu lệnh chút chút.
Click to expand...

Tôi dùng đt để viết lệnh mà. Ý tưởng là như vậy, khi ngồi máy tính mới biết đúng sai thế nào để chỉnh.

RGBCD, 17/9/21

#123
vinaguy Lớp 12

RGBCD nói: ↑

F: <span>|<div>|<p></p>|<p>\s+</p>|<p><br (.+?)/></p> {liệt kê hết những thẻ trắng thường thấy, lệnh này cũng viết sẵn để dùng cho những lần sau}
R: không nhập gì
Replace All
Click to expand...

BỎ CÁC TAG TRỐNG
Em bổ sung thêm cái này:
F: <span>|<div>|<p></p>|<p>\s+</p>|<p><br(.+?)/></p>|</i><i>|<i></i>|</b><b>|<b></b> {liệt kê hết những thẻ trắng thường thấy, lệnh này cũng viết sẵn để dùng cho những lần sau}
R: không nhập gì
Replace All

vinaguy, 17/9/21

#124

RGBCD thích bài này.
tran ngoc anh Cử nhân

RGBCD nói: ↑

Code của file đó và thẻ style quá rối nên lệnh nhầm lẫn ở đâu đó.
Click to expand...

Như vậy cho thấy xóa rác regex ít phù hợp hơn pandoc trong ca này, ngay cả khi có thể regex đúng hết yêu cầu cũng sẽ mất kha khá thời gian, tiềm ẩn rủi ro mất nghiêng chỗ nào đó...

RGBCD nói: ↑

File dạng đó chắc xuất ra word sẽ dễ làm hơn, nhất là những chỗ định dạng nghiêng
Click to expand...

vinaguy nói: ↑

nhiều format định dạng linh tinh (tóm lại đây là một trường hợp "khó điển hình" rồi
Click to expand...

Đây mới là rác cần xóa chứ các cụ, giun cũng có loại dễ loại khó tẩy mà ^.^ Với các cụ mà ra đề dễ hơn file này thì không ăn thua, các cụ regex vèo vèo ấy mà

vinaguy nói: ↑

"mẹt thục địa", lại "ngớ ngàng, ngớ ngàng"
Click to expand...

Đây là mục đích, các file OCR hay file soát lỗi tương đối đơn giản, không nhiều thử thách, em muốn mang tới cho các cụ một "làn gió mới mới một chút" thôi

tran ngoc anh, 17/9/21

#125
RGBCD Lớp 3

Vừa ngồi máy tính thử thì lệnh này:

F: (<p) (.+?)>|(<span) (.+?)>|(<body) (.+?)>
R: \1>
Replace

thì nó chỉ hiệu nghiệm với mỗi thẻ p, còn thẻ span và body nó đều trả về mỗi > là sao nhỉ?

Trong khi

F: (<span) (.+?)>
R: \1>

và

F: (<body) (.+?)>
R: \1>

đều OK. Tôi chưa từng dùng kiểu lệnh đồng thời như thế này nên chưa có kinh nghiệm. Bạn @vinaguy và @tran ngoc anh có cao kiến gì không? Hiện tại sau khi đổi xong i, b tôi vẫn xóa css để xóa hết class, nhưng vẫn còn id và lang trong thẻ nên rất muốn dùng lệnh phía trên để làm sạch các thẻ.

Còn lệnh xóa thẻ trắng:

F: <span>|<div>|<p></p>|<p>\s+</p>|<p><br(.+?)/></p>|</i><i>|<i></i>|</b><b>|<b></b>
R: không nhập gì

thì OK

Có thể phải làm vài lần vì có file nó ra kiểu này:

<p><span><span><span></span></span></span></p> nên phải chạy 2 lần mới hết thẻ trắng.

RGBCD, 17/9/21

#126
RGBCD Lớp 3

tran ngoc anh nói: ↑

Đây là mục đích, các file OCR hay file soát lỗi tương đối đơn giản, không nhiều thử thách, em muốn mang tới cho các cụ một "làn gió mới mới một chút" thôi
Click to expand...

Nhiều thịt thì càng bổ. Cho nên càng có nhiều cách thì càng có nhiều lựa chọn mà. Có ai bài bác gì đâu. Có điều với mỗi cách phải thử với các file có cấu trúc cụ thể để xem phương pháp đó có ưu, nhược gì để khắc phục hoặc nên chọn cách nào đó tối ưu hơn. Mục đích cuối cùng vẫn là làm sao tiết kiệm sức dân, tiết kiệm thời gian, điện đóm các kiểu...

RGBCD, 17/9/21

#127
RGBCD Lớp 3

@Nga Hoang
Với word bạn cần tắt chế độ Automatic bulleted lists và chế độ Automatic numbered lists thì hay hơn.

Vui lòng đăng nhập hoặc đăng ký để xem link

Còn file ocr xong cần xử lý để có text thuần hơn:

lý do ở Vui lòng đăng nhập hoặc đăng ký để xem link

còn cách làm tốt nhất thì ở bài này:

Vui lòng đăng nhập hoặc đăng ký để xem link

RGBCD, 17/9/21

#128
RGBCD Lớp 3

Hay để xóa class, id, lang ta dùng lệnh này nhỉ, chẳng cần quan tâm thẻ nào nữa.

F: \s+class="(.+?)"|\s+id="(.+?)"|\s+lang="(.+?)"
R: không nhập gì
Replace all

RGBCD, 17/9/21

#129
tran ngoc anh Cử nhân

RGBCD nói: ↑

Hay để xóa class, id, lang ta dùng lệnh này nhỉ, chẳng cần quan tâm thẻ nào nữa.

F: \s+class="(.+?)"|\s+id="(.+?)"|\s+lang="(.+?)"
R: không nhập gì
Replace all
Click to expand...

Cụ ba màu chỉ nên nhóm () khi cần lấy lại nó ở ô rep, rep cụ để trống thì cụ nhóm (.+?) chi? Chưa hiểu regex nhé! Trừ 2 điểm hiểu.

tran ngoc anh, 17/9/21

#130

RGBCD thích bài này.
tran ngoc anh Cử nhân

vinaguy nói: ↑

F: <span>|<div>|<p></p>|<p>\s+</p>|<p><br(.+?)/></p>|</i><i>|<i></i>|</b><b>|<b></b> {liệt kê hết những thẻ trắng thường thấy, lệnh này cũng viết sẵn để dùng cho những lần sau}
Click to expand...

RGBCD nói: ↑

F: (<p) (.+?)>|(<span) (.+?)>|(<body) (.+?)>
R: \1>
Click to expand...

RGBCD nói: ↑

Hay để xóa class, id, lang ta dùng lệnh này nhỉ, chẳng cần quan tâm thẻ nào nữa.

F: \s+class="(.+?)"|\s+id="(.+?)"|\s+lang="(.+?)"
Click to expand...

Các cụ chưa có bùa cho ca này sao ^ ^

Tìm được tất cả các thẻ, bất kể có class= hay lang= hay id= gì cũng tìm được, ở giữa chỉ cần là khoảng trắng hoặc không có ký tự nào hoặc kể cả là xuống dòng là nó đẩy đi hết, AIO luôn. Tặng các cụ!

Chỉnh sửa cuối: 17/9/21

tran ngoc anh, 17/9/21

#131
RGBCD Lớp 3

tran ngoc anh nói: ↑

Các cụ chưa có bùa cho ca này sao ^ ^

View attachment 87829

Tìm được tất cả các thẻ, bất kể có class= hay lang= hay id= gì cũng tìm được, ở giữa chỉ cần là khoảng trắng hoặc không có ký tự nào hoặc kể cả là xuống dòng là nó đẩy đi hết, AIO luôn. Tặng các cụ!
Click to expand...

Tìm thì tìm được mà. Nhưng ở Replace nó trả lại chưa được như ý.

tran ngoc anh nói: ↑

Cụ ba màu chỉ nên nhóm () khi cần lấy lại nó ở ô rep, rep cụ để trống thì cụ nhóm (.+?) chi? Chưa hiểu regex nhé! Trừ 2 điểm hiểu.
Click to expand...

Cô giáo chấm điểm nương tay quá.

RGBCD, 17/9/21

#132
tran ngoc anh Cử nhân

Tìm thẻ không ôm nội dung thì chỉ có xoá hết thôi chứ rep như nào nữa cụ?

tran ngoc anh, 17/9/21

#133
RGBCD Lớp 3

tran ngoc anh nói: ↑

Các cụ chưa có bùa cho ca này sao ^ ^

View attachment 87829

Tìm được tất cả các thẻ, bất kể có class= hay lang= hay id= gì cũng tìm được, ở giữa chỉ cần là khoảng trắng hoặc không có ký tự nào hoặc kể cả là xuống dòng là nó đẩy đi hết, AIO luôn. Tặng các cụ!
Click to expand...

OK tìm được và thay được rồi.

F: <(p|span|div|i|b|em|strong|h1|h2|h3|h4|h5|h6|body|li|aside|section|sup|sub|blockquote|figcaption|tbody|table|td|tr)\b[^>]*>
R: <\1>

1 lệnh này thì tất cả phần class, id, lang đi sạch.

đã bỏ thẻ a ra vì thẻ này cần giữ nguyên.

Sẽ nghiên cứu cách lệnh tiếp theo.

Công nhận cô giáo dạy quá giỏi!

RGBCD, 17/9/21

#134
RGBCD Lớp 3

tran ngoc anh nói: ↑

Tìm thẻ không ôm nội dung thì chỉ có xoá hết thôi chứ rep như nào nữa cụ?
Click to expand...

Vừa nãy là phát bẩu bài sai, khi chưa làm thử.

RGBCD, 17/9/21

#135

tran ngoc anh thích bài này.
vinaguy Lớp 12

RGBCD nói: ↑

F: <(p|span|div|i|b|em|strong|h1|h2|h3|h4|h5|h6|body|li|aside|section|sup|sub|blockquote|figcaption|tbody|table|td|tr)\b[^>]*>
R: <\1>
Click to expand...

Cái này thì chính xác rồi, làm nhanh lắm rồi, nhưng em không dám xài 1 lúc cả từng đó lắm vì nó lại "rớt hàng". Lấy cái này về chia ra từng mớ để tẩy từ từ an toàn hơn các bác nhễ?

vinaguy, 17/9/21

#136
tran ngoc anh Cử nhân

vinaguy nói: ↑

Cái này thì chính xác rồi, làm nhanh lắm rồi, nhưng em không dám xài 1 lúc cả từng đó lắm vì nó lại "rớt hàng". Lấy cái này về chia ra từng mớ để tẩy từ từ an toàn hơn các bác nhễ?
Click to expand...

Câu lệnh gốc của em để xoá thẻ không ôm nội dung, bị trống hoặc chỉ ôm những khoảng trắng, những khoảng xuống dòng, nên là rep all phát một không sao.

Còn các cụ dùng vào việc khác em không biết à nha

tran ngoc anh, 17/9/21

#137
RGBCD Lớp 3

vinaguy nói: ↑

Cái này thì chính xác rồi, làm nhanh lắm rồi, nhưng em không dám xài 1 lúc cả từng đó lắm vì nó lại "rớt hàng". Lấy cái này về chia ra từng mớ để tẩy từ từ an toàn hơn các bác nhễ?
Click to expand...

Cứ rep all đi là sạch. Tôi bỏ thẻ a, thêm br với hr
Chạy xong br thành <br> hr thành <hr>, tặng bông hoa một cái là về chuẩn ngay.

Nói chung chỉ cần 4 bước là code sạch sẽ. Tổng thời gian dọn code là 1 phút, bao gồm cả thời gian chép đề.

Một lần nữa cảm ơn cô giáo!

RGBCD, 17/9/21

#138
tran ngoc anh Cử nhân

RGBCD nói: ↑

Cứ rep all đi là sạch. Tôi bỏ thẻ a, thêm br với hr
Chạy xong br thành <br> hr thành <hr>, tặng bông hoa một cái là về chuẩn ngay.

Nói chung chỉ cần 4 bước là code sạch sẽ. Tổng thời gian dọn code là 1 phút, bao gồm cả thời gian chép đề.

Một lần nữa cảm ơn cô giáo!
Click to expand...

Thời gian càng lúc càng nhanh à? Nối giáo cho địch rồi cụ xử lại cái sup với chỗ mất nghiêng em đánh dấu xem ổn chưa?

tran ngoc anh, 17/9/21

#139
vinaguy Lớp 12

tran ngoc anh nói: ↑

cụ xử lại cái sup với chỗ mất nghiêng em đánh dấu xem ổn chưa?
Click to expand...

Cái <sụp> trong sách hum qua dễ mà bác?
Nó có 4 hay 5 class gì đó quyết định chiện <sụp> này. Em nhớ được cái text_7, text_8, text_45 và gì gì đó không nhớ nữa.
F: <span class="text_7">(.*?)</span>
R: <sụp>\1</sụp>
Replace all
Được một thứ. Các thứ còn lại thì vân vân và vân vân

vinaguy, 17/9/21

#140

(Bạn phải Đăng nhập hoặc Đăng ký để trả lời bài viết.)

Trang 7 của 13 trang

Chia sẻ trang này