Hướng dẫn Tối ưu ảnh chụp sách để OCR.

iamtnl · 8/12/20

TL;DR

OCR

________________

Seth Stephens-Davidowitz
Bạn Có chú ý thấy gì không? Người Mĩ-đặc biệt là phụ nữ-đã b, đầu mỉm cười. Họ đi từ khuôn mặt gần như không cảm xúc đầu Thái XX đến tươi cười vào cuối thế kỉ.
Vậy tại sao có sự thay đổi đó? Người Mĩ hạnh phúc hơn sao?
Không. Các học giả khác đã giúp trả lời câu hỏi này. Lí do thật thự vi, ít nhất là đối với tôi. Khi ảnh chụp mới được phát minh, người ta nghĩ nó giống như tranh vẽ. Không có gì khác để so sánh. Thế là, người mẫu Ảnh bắt chước cách tạo dáng của người mẫu tranh. Và vì ngồi để vẽ chân dung thì không thể nào chống miệng mỉm cười suốt nhiều giờ cho đến khi xong được, người ta chọn nét mặt nghiêm nghị. Người mẫu ảnh cũng chọn nét mặt như thế.
| Cuối cùng điều gì khiến họ thay đổi? Dĩ nhiên là kinh doanh, lợi nhuận, và marketing. Giữa Thế kỉ XX, công ty phim và máy ảnh Kodak rất nản lòng bởi số lượng ảnh người ta chụp quá ít. Thế là họ nghĩ ra một chiến lược khiến mọi người chụp nhiều lên. Quảng cáo của Kodak bắt đầu liên hệ ảnh chụp với sự hạnh phúc. Mục đích là gieo cho mọi người thói quen chụp ảnh bất cứ khi nào họ muốn cho người khác thấy họ đang rất chi là hạnh phúc. Tất cả những ảnh chụp niên giám mỉm cười đó là một trong những kết quả của chiến dịch thành công này (như hầu hết các ảnh chụp ta thấy trên Facebook và Instagram ngày nay vậy).
Nhưng dữ liệu dạng ảnh có thể cho ta biết nhiều điều hơn là chi chuyện mấy cô cậu học sinh bắt đầu cười khi nào. Thật ngạc nhiên, hinh ảnh cũng có thể cho ta biết nền kinh tế đang tốt xấu ra sao.
| Ta sẽ xem một bài báo học thuật có tiêu đề rất khiêu khích: “Đo lường tăng trưởng kinh tế từ ngoại tầng không gian.” (Measuring Economic Growth from Outer Space). Khi thấy một bài báo có tiêu đề hấp dẫn như thế, chắc chắn là tôi sẽ lao vào đọc. Các tác giả bài báo này-J. Vernon Henderson, Adam Storeygard, và David N. Weil-bắt đầu bằng nhận xét rằng ở nhiều nước đang phát triển, các thước đo hiện Có về tổng sản phẩm quốc nội (GDP) không hiệu quả. Đó là vì phần lớn các hoạt động kinh tế diễn ra ngoài sổ sách, và các cơ quan chính phủ có nhiệm vụ đo lường đầu ra kinh tế thường có nguồn dữ liệu hạn chế.
88
Click to expand...

Bài hướng dẫn viết cho môi trường dòng lệnh (terminal) trên macOS, tuy nhiên các công cụ cần thiết đều có thể chạy được trên Windows.

Các công cụ sử dụng

- brew: công cụ quản lý package trên macOS, sử dụng để cài đặt các công cụ khác
- imagemagick: công cụ chỉnh sửa ảnh
- textcleaner: công cụ tối ưu ảnh scan
- unpaper: công cụ tối ưu ảnh scan
- ABBYY FineReader

Cài đặt

brew

Làm theo hướng dẫn trên trang chủ [Vui lòng đăng nhập hoặc đăng ký để xem link.

Mở ứng dụng Terminal và chạy dòng lệnh cài đặt
Mã:
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
imagemagick, unpaper

Vẫn trên Terminal, chạy dòng lệnh
Mã:
brew install imagemagick unpaper
textcleaner

Đây là 1 script viết trên nền imagemagick, chỉ cần download tại địa chỉ này: Vui lòng đăng nhập hoặc đăng ký để xem link và đặt vào trong thư mục làm việc.

Trong Terminal, cd đến thư mục làm việc và chạy lệnh cấp quyền cho textcleaner
Mã:
chmod +x textcleaner
Sử dụng

Dùng textcleaner để chuyển ảnh sang đen/trắng và xử lý cơ bản

textcleaner là công cụ rất mạnh để làm nét chữ trong file ảnh. Có thể xem thêm demo ở trang cài đặt. Công cụ này cung cấp nhiều tham số để xử lý hình ảnh, tuy nhiên mục đích ở đây là chỉ chuyển ảnh về đen trắng và làm nổi bật vùng chữ nên ta sẽ chỉ quan tâm đến các tham số sau.

-g (grayscale): chuyển ảnh về chế độ đen/trắng.

-e (enhance): tự động điều chỉnh brightness của ảnh. Có 3 tham số là none (không điều chỉnh), normalize và stretch. Có thể lựa chọn 1 trong 3 để ảnh đạt mức tốt nhất. Ở đây mình chọn normalize.

-f (filtersize) và -o (offset): các tham số điều chỉnh mức độ khử nhiễu (noise) của ảnh. Ảnh càng lớn thì filtersize càng nên để lớn, còn tham số offset có thể điều chỉnh để ảnh khử nhiễu tốt nhất. Ở đây mình chọn -f 100 -o 10.

-s (sharpamt): tăng độ nét của ảnh. Đa phần các camera điện thoại có độ nét khá tốt, nên không cần tham số này. Ở đây mình chọn -s 1.

Tóm lại, câu lệnh sẽ là như thế này
Mã:
./textcleaner -g -e normalize -f 100 -o 10 -s 1 sample.png sample_textcleaner.png
Kết quả:

Sử dụng unpaper để xóa các vùng rìa

unpaper là công cụ tối ưu cho các file scan, tuy nhiên cũng có thể áp dụng cho file ảnh của chúng ta rất hiệu quả.

Trước tiên, cần chuyển đổi định dạng file sang .ppm là định dạng mà unpaper sử dụng để làm việc. Ở đây sử dụng lệnh convert trong gói imagemagick. Mình thêm 1 tùy chọn chỉnh level để tăng độ đậm màu của ảnh.
Mã:
convert sample_textcleaner.png -level 50%,100%,1 sample_textcleaner.ppm
Các tham số của unpaper

-v: in ra các thông tin trong quá trình chỉnh sửa.

--overwrite: ghi đè lên file output nếu file output đã tồn tại.

-bs, -bd, -bp, -bt: các thông số liên quan đến blackfilter. Đây là filter sử dụng để xóa các mảng màu đen có trong ảnh. Cách filter này hoạt động có thể xem tại [đây](). Nói đơn giản là sẽ quét 1 hình chữ nhật có kích thước là bs × bd trong ảnh. Nếu tỉ lệ pixel màu đen đạt mức bt trở lên thì sẽ tiến hành xóa vùng màu đen có chứa hình chữ nhật đó. Sau khi xử lý xong, dịch chuyển hình chữ nhật bp pixel và tiếp tục lặp lại quá trình. Do đó các tham số này phải tùy theo kích thước ảnh. Ở đây mình chọn -bs 2 -bd 50 -bp 1 -bt 0.99.

-bx: vùng ngoại lệ cho blackfilter. Tham số này áp dụng cho các file scan khi biết chắc chắn vùng text nằm ở khoảng nào để đặt ngoại lệ cho filter không chạy vào vùng đó. Ở đây chúng ta muốn filter chạy toàn bộ ảnh nên sẽ để -bx 0,0,0,0 (không có ngoại lệ).

unpaper còn có các bộ lọc blurfilter, grayfilter và deskew. Các bộ lọc này có thể để tham số mặc định, không cần khai báo. Riêng deskew sẽ được thực hiện ở bước tiếp theo nên có thể khai báo --no-deskew để unpaper bỏ qua (tăng tốc độ xử lý).

Câu lệnh cuối cùng
Mã:
unpaper -v --overwrite -bs 2 -bd 50 -bp 1 -bt 0.99 -bx 0,0,0,0 --no-deskew sample_textcleaner.ppm sample_unpaper.ppm
Kết quả

Sử dụng FineReader để deskew và straighten text

Sau khi thu được kết quả từ unpaper, cần chuyển đổi file lại định dạng png để FineReader có thể đọc được.
Mã:
convert sample_unpaper.ppm sample_unpaper.png
Import file này vào FineReader, chọn Image Editor. Mục deskew. Apply.

Tiếp tục với mục Photo Correction, chọn Straighten Curved Text. Apply.

Đến đây đã thu được file ảnh như mong muốn, lựa chọn của chúng ta là dùng FineReader để OCR hoặc export ra file ảnh để sử dụng trong các tool OCR khác.

Kết quả OCR ở trên là mình sử dụng Google Drive để OCR.

Mong các bạn thực hiện thành công.

Kết luận

Các tham số của textcleaner và đặc biệt là unpaper cần phải được tùy chỉnh để tối ưu cho file. Theo kinh nghiệm của mình thì bộ tham số của textcleaner dùng khá tốt cho các file khác nhau. Còn unpaper cần phải thay đổi bp, bs, bt.

Khi tiến hành OCR cả 1 quyển sách, nên chọn tầm 10 file ngẫu nhiên có chất lượng khác nhau để tiến hành tùy chỉnh tham số. Sau khi tùy chỉnh xong thì có thể viết shell script để chạy batch cho toàn bộ.

Đọc thêm

- unpaper manual: Vui lòng đăng nhập hoặc đăng ký để xem link
- unpaper concepts: Vui lòng đăng nhập hoặc đăng ký để xem link
- textcleaner manual: Vui lòng đăng nhập hoặc đăng ký để xem link
- fd: công cụ để chạy batch Vui lòng đăng nhập hoặc đăng ký để xem link
- bash 101: vỡ lòng về dòng lệnh Vui lòng đăng nhập hoặc đăng ký để xem link

Đăng nhập

Hướng dẫn Tối ưu ảnh chụp sách để OCR.

iamtnl Lớp 4

Chia sẻ trang này