Hướng dẫn [Regex-function] Công cụ lưu trữ Regex hiệu quả

inno14 · 3/9/20

* Mình được một bạn nhắn cho như thế này:

vinaguy nói: ↑

Bác cho em hỏi tí. Làm cách nào để có thể replace cả loạt được từ dạng:
<h2>Chương 346 THI THỂ NGƯỜI ĐÀN ÔNG DƯỚI ĐẤT</h2>

<p>Nghe Từ Hổ nói, tôi thật sự không nghĩ tới chỉ thoát nước cống thôi cũng phải biết nhiều kiến thức như thế, xem ra đúng là nghề nào cũng có chuyên gia!</p>
thành bằng:
<h2>Chương 346 THI THỂ NGƯỜI ĐÀN ÔNG DƯỚI ĐẤT</h2>

<p><span class="drop">N</span>ghe Từ Hổ nói, tôi thật sự không nghĩ tới chỉ thoát nước cống thôi cũng phải biết nhiều kiến thức như thế, xem ra đúng là nghề nào cũng có chuyên gia!</p>

Thanks bác nhiều.
Nếu bác viết được function thì viết giúp em tí với nghen
Click to expand...

* Câu hỏi đắt nhất ở đúng câu cuối cùng và kết quả là có bài này
1. Đầu tiên là lời giải cho phần câu hỏi đến trước câu cuối cùng:
Tìm: (<h.*?>.*?</h.*?>\s*)(<p.*?>)(\p{L})(.*?</p>)
Thay thế ở chế độ Regex: \1<p><span class="drop">\3</span>\4

2. Và đây là lời giải cho câu cuối cùng:
Mã:
#Find: (<h.*?>.*?</h.*?>\s*)(<p.*?>)(\p{L})(.*?</p>)
def replace(match, number, file_name, metadata, dictionaries, data, functions, *args,
**kwargs):
    return match.group(1)+'<p><span class="drop">'+match.group(3)+'</span>'+match.group(4)

# Ensure that when running over multiple files, the files are processed
# in the order in which they appear in the book
replace.file_order = 'spine'
* Mục đích của việc tạo Function để làm gì? Đó là lưu trữ cú pháp tìm kiếm và thay thế để dùng lại cho các trường hợp tương tự ở những ebook khác một cách nhanh chóng, và có thể chia sẻ cho một người dùng khác sử dụng mà không cần biết về regex.
* Sự quy ước để chuyển đổi từ regex sang regex-function
1. \1 sẽ tương ứng với match.group(1) tương tự với \2 \3...
2. Phép nối text là phép +
3. Cụm text trên cùng 1 hàng được đặt giữa 2 dấu '. Ví dụ 'abc'
4. Cụm text có nhiều dòng sẽ được đặt giữa 2 dấu '''. Ví dụ:
'''abc
xyz'''
5. Kết quả trả về luôn đặt sau lệnh return
6. replace.file_order = 'spine' là lệnh replace sẽ thực thi trên tất cả html có trong ebook
7. #Find: là ghi chú cú pháp tìm kiếm để copy và dán vào ô Find khi sử dụng mà không cần gõ lại.
===
Chúc các bạn làm sách vui vẻ

inno14 · 3/9/20

* Mình lại nhận được 1 câu hỏi về cập nhật Function

vinaguy nói: ↑

Nhưng nó có 1 điều em vấp phải như thế này bác.
<h2>Some text here</h2>
<p>"Some text here"</p>
Đối với những loại như thế này thì em muốn đưa cả "S vào trong drop cơ. Giờ làm sao bác? Như dưới đây:
<h2>Some text here</h2>
<p><span class="drop">"S</span>ome text here"</p>
Có thể bổ sung thêm vào function của bác được không? Em nhìn function em không hiểu gì hết. Nếu bác sẵn lòng giải thích cho em từ khóa function thì lần sau em sẽ tự biết làm cho nhưng function khác bác ạ.
Click to expand...

* thực ra cái cần cập nhật lúc này không phải là cấu trúc return mà là cấu trúc #Find, lúc này chúng ta sẽ sử dụng hàm or (dấu |) để regex thực hiện việc tìm kiếm
* Function mới sẽ như thế này (thực ra vẫn là phép thay thế cũ, chỉ cập nhật cho phép tìm kiếm)
Mã:
#Find: (<h.*?>.*?</h.*?>\s*)(<p.*?>)(\p{L}|[\" \“]\p{L})(.*?</p>)
def replace(match, number, file_name, metadata, dictionaries, data, functions, *args,
**kwargs):
    return match.group(1)+'<p><span class="drop">'+match.group(3)+'</span>'+match.group(4)

# Ensure that when running over multiple files, the files are processed
# in the order in which they appear in the book
replace.file_order = 'spine'
* Ở cấu trúc tìm kiếm mới này chúng ta thấy \3 đã thay đổi khi từ (\p{L}) thành (\p{L}|[\" \“]\p{L}) tức là thay vì \3 lúc đầu chỉ là 1 ký tự unicode thì lúc này \3 (match.group(3)) đã trở thành 1 ký tự unicode, hoặc dấu " và 1 ký tự unicode hoặc dấu “ và 1 ký tự unicode. Chúng ta chỉ cần thay đổi cấu trúc tìm kiếm một chút để \3 chứa nhiều kiểu dữ liệu hơn thôi mà không cần thay đổi phép thay thế.
* Lưu ý một bộ (...) được đếm từ trái qua phải tương ứng \1 \2 \3.... ở regex thì khi lưu vào function nó tương ứng với match.group(1), match.group(2), match.group(3).... do đó phép nối text sẽ phụ thuộc vào số bộ (...) các bạn chia cấu trúc text gốc.
* Ở phép thay thế này chúng ta thấy \2 là cái cần thay thế thành một cụm text mới nên ở cấu trúc return sẽ không dùng lại \2 nữa.

inno14 · 3/9/20

Mình post lại một số quy ước khi sử dụng regex.

inno14 nói: ↑

Phần thêm 25/9/2017: Một số quy ước cơ bản ở chế độ tìm kiếm regex và ví dụ
* 1 cụm bất kỳ kể cả khoảng trắng được quy ước là: .*?
* Số tự nhiên: d+
* Tìm chính xác 1 ký tự đặc biệt: \ (ví dụ \? \* \^)
* Ký tự unicode: \p{L}
* Ký tự unicode viết hoa: \p{Lu}
* Ký tự unicode viết thường: \p{Ll}
* Phân nhóm 1 chuỗi bằng bộ () trả về giá trị tương ứng với vị trí xuất hiện của () ví dụ \1 \2 \3
* Bộ [] dùng để chứa các lựa chọn khi tìm kiếm (hoặc cái này hoặc cái kia)
* Bộ {} chứa số lần lặp lại
\s*: dòng mới
----
Ví dụ 1: sửa lỗi không viết hoa sau dấu chấm, dấu chấm hỏi, dấu chấm than mình lập cú pháp ở chế độ Regex-function - Case sensitive
Find: ([\.\?\!]) (\p{Ll})
Function: Upper-case text (click mũi tên và chọn trong phần Function)

Ví dụ 2: tìm chương để gắn thẻ div.chapter Lúc này chuyển về chế độ Regex
Find: <p>(Chương) (.*?)</p>
Replace: <div class="chapter"><p>\1 \2</p></div>
Replace all

Ví dụ 3: ngắt dòng nội dung chương tại số chương là 1 số tự nhiên
Find: <p>(Chương) (\d+) (.*?)</p>
Replace: <p>\1 \2<br/>\3</p>

Ví dụ 4: ngắt dòng nội dung chương tại số chương là số la mã
Find: <p>(Chương) ([IVXLCDM]{0,10}) (.*?)</p>
Replace: <p>\1 \2<br/>\3</p>

Click to expand...

vinaguy · 6/11/20

Báo cáo Thầy INNO! Học trò của Thầy đã lĩnh hội được tất cả những gì Thầy muốn chuyển tải ở trên đây để áp dụng cho tất cả các trường hợp rồi Thầy nhé. Cám ơn Thầy rất nhiều ạ! Nếu ở gần thì phải đãi Thầy cái gì mới được

mrb26 · 21/12/22

Chào các bác cho em hỏi: Em muốn count dòng đầu tiên ( DropCap ) ngắn quá thì đánh dấu vào nhưng viết Function không chạy. Nhờ các bác chỉ giúp
Mã:
#Find: (</span>.*?)(</p>)
def replace(match, number, file_name, metadata, dictionaries, data, functions, *args, **kwargs):
    sochu = len(group(1))
    if (sochu < 100)
    return match.group(1) + "9999" + match.group(2)
    else
    return match.group(1) + match.group(2)
replace.file_order = 'spine'
Thanks các bác !

vinaguy · 22/12/22

Em chưa thử function này. Có khi nào sai chỗ chữ "len" không bác? Thường trong tiếng Anh thì "length" này chứ nhỉ? Bác kiểm tra lại câu lệnh xem?

tran ngoc anh · 22/12/22

Không rõ bạn ấy cần count là đếm số dòng dropcap hay đếm số từ trong mỗi dòng dropcap?

powertalent · 22/12/22

Mã:

def replace(match, number, file_name, metadata, dictionaries, data, functions, *args, **kwargs):
    sochu = len(match.group(1))
    if sochu < 100:
        return match.group(1) + "9999" + match.group(2)
    else:
        return match.group(1) + match.group(2)
replace.file_order = 'spine'

vinaguy · 22/12/22

tran ngoc anh nói: ↑

Không rõ bạn ấy cần count là đếm số dòng dropcap hay đếm số từ trong mỗi dòng dropcap?
Click to expand...

Em nghĩ nó đếm tất cả (</span>.*?)(</p>), từ "</" đến "p>" luôn đó bác.

mrb26 · 22/12/22

tran ngoc anh nói: ↑

Không rõ bạn ấy cần count là đếm số dòng dropcap hay đếm số từ trong mỗi dòng dropcap?
Click to expand...

Em đếm số chữ trong dòng có DropCap để chỉnh sửa vì dòng có DropCap mà ngắn quá hiển thị rất xấu nên gộp dòng

mrb26 · 22/12/22

vinaguy nói: ↑

View attachment 92695
Em chưa thử function này. Có khi nào sai chỗ chữ "len" không bác? Thường trong tiếng Anh thì "length" này chứ nhỉ? Bác kiểm tra lại câu lệnh xem?
Click to expand...

Cũng không được bác ah, tài liệu hướng dẫn cái này trên mạng ít đến đáng thương

mrb26 · 22/12/22

Thanks bác đã chạy

powertalent · 22/12/22

vinaguy nói: ↑

View attachment 92695
Em chưa thử function này. Có khi nào sai chỗ chữ "len" không bác? Thường trong tiếng Anh thì "length" này chứ nhỉ? Bác kiểm tra lại câu lệnh xem?
Click to expand...

mrb26 nói: ↑

Thanks bác đã chạy
Click to expand...

Cái này nó viết bằng python, mấy bác muốn tìm hiểu thì tìm hiểu python
Vui lòng đăng nhập hoặc đăng ký để xem link
Vui lòng đăng nhập hoặc đăng ký để xem link

Đăng nhập

Mời tham gia cuộc thi "CHIA SẺ KỶ NIỆM ĐÁNG NHỚ" nhân dịp TVE-4U 10 tuổi

Hướng dẫn chuyển đổi các định dạng eBook

Hướng dẫn xử lý lỗi không 'download - viết bài - xem link' được trên diễn đàn

Hướng dẫn [Regex-function] Công cụ lưu trữ Regex hiệu quả

inno14 Lớp 8

inno14 Lớp 8

inno14 Lớp 8

vinaguy Lớp 12

mrb26 Mầm non

vinaguy Lớp 12

tran ngoc anh Cử nhân

powertalent Mầm non

vinaguy Lớp 12

mrb26 Mầm non

mrb26 Mầm non

mrb26 Mầm non

powertalent Mầm non

Chia sẻ trang này