PC [IM, PNG, CMD] Tẩy trắng ảnh scan với Image Magick và cmd

Thảo luận trong 'Hướng dẫn chung' bắt đầu bởi tran ngoc anh, 18/11/21.

  1. tran ngoc anh

    tran ngoc anh Cử nhân

    Gần đây mình có tải một số PDF scan từ diễn đàn của chúng ta - tve-4u - nhưng đáng tiếc là vì sợ file nặng mà các bạn scan các cuốn ấy đặt dpi rất thấp hoặc đã nén ảnh xuống khá mờ trước khi chia sẻ.

    Với sách chữ thì chỉ cần threshold ảnh scan gốc sang ảnh png monochrome đơn sắc là dung lượng nhẹ tênh như con nước lênh đênh luôn ^_^

    Thay cho phương pháp truyền thống dùng Abbyyfine Reader (hiện là bản 15 khá nặng nề - gần Gigabyte) vừa nhiều thao tác mà xử lý cũng khá cồng kềnh.. hôm nay mình xin giới thiệu với các PDF maker của chúng ta một phần mềm khác nhẹ hơn (file cài trên windows chỉ có 37 MB) và thao tác cũng đơn giản hơn (nếu các bạn thích cmd ^.^)

    1. Tải phần mềm Image Magick từ Vui lòng đăng nhập hoặc đăng ký để xem link hoặc Vui lòng đăng nhập hoặc đăng ký để xem link mình đã tải.

    [​IMG]

    2. Khi cài các bạn chú ý chọn cái này, để khỏi set thủ công sau đó, à mà thực ra em ấy đã tự chọn sẵn rồi :D

    [​IMG]

    3. Gõ "cmd" ngay thanh địa chỉ Windows Explorer tại thư mục mà chúng ta cần làm trắng ảnh scan gốc, rồi ấn enter để mở cmd tại thư mục đó.

    [​IMG]

    4. gõ cụm thần chú sau:

    magick mogrify -format png -threshold 70% *.jpg

    ..vào cmd vừa mở, và ngồi chờ thôi..

    [​IMG]

    • magick mogrify là lệnh để gọi Magick ra và kêu ẻm xử lý toàn thư mục,
    • -format png là kêu ẻm chuyển hết về png,
    • -threshold 70% là dựa vào mức độ đậm lợt của các pixel trong ảnh mà xử lý, trên ngưỡng thì quy về đen, dưới ngưỡng thì cho về trắng, để cho ra ảnh png monochrome, tức chỉ có hắc bạch lưỡng đạo mà thôi chứ không còn kiểu ba rọi nữa..
    • *.jpg tức là thực hiện xử lý với tất cả ảnh jpg, miễn là jpg thì xử lý hết về png :D

    5. Khi mà cmd trả lại dòng địa chỉ của thư mục hiện tại như hình là nó chạy xong, lúc này thì các .png đã được tạo ra kế bên file jpg gốc.

    [​IMG]

    6. Để xóa các jpg gốc đi ta lại gõ thêm câu lệnh nữa cho nó có vẻ "prồ phét sơl nồ" một chút :D

    del *.jpg

    [​IMG]

    Chú ý ta có thể nhập hai câu lệnh vừa xử lý vừa xóa jpg một lượt vào cmd, cmd thực hiện xong câu lệnh đầu sẽ tiếp tục với câu thứ hai. Tức là sau khi nhập cả hai câu một lúc, đi cafe, trà sữa gì đó thư giản, ngủ thêm một giấc cũng được, tỉnh dậy thì trong thư mục chỉ còn các png đã được tẩy trắng ^_^

    Vì đây là app dòng lệnh, chỉ chạy với cmd, nên máy tính sẽ phát huy được tối đa sức mạnh xử lý, máy yếu cũng chạy được tuốt, phần mềm có 37MB thôi mà, nhẹ hều ^.^

    Con số 70% trong câu lệnh cũng có thể dao động nhé, trong khoảng 65-80 sẽ cho ra nét chữ mỏng dầy tùy ý..

    Sau đó các bạn dùng trình đóng PDF bất kỳ combine các ảnh png lại nữa là xong, gợi ý dùng với Acrobat, em này nén png monochrome siêu hiệu quả, png monochrome đã nhẹ mà qua tay acrobat thì cho ra pdf càng nhẹ, nếu png nhẹ bằng ≤ 1/5 ảnh jpg gốc, thì khi acrobat nén thêm phát nữa PDF cũng chỉ còn độ khoảng ± 1/6 dung lượng ảnh png thôi.

    Đừng thấy dòng lệnh cmd mà ngại dùng, nó siêu đơn giản luôn, app thì nhẹ và chỉ với 2 dòng lệnh ngắn gọn là xong, chúc các bạn thành công!
     
  2. dhq

    dhq Lớp 1

    Hôm trước cũng có bác chỉ mình cái này msf thấy xài dòng lệnh nên vẫn chưa thử. Lưu cái này lại để khi nào có dịp thì thử.
     
    tran ngoc anh thích bài này.
  3. tran ngoc anh

    tran ngoc anh Cử nhân

    Dùng dòng lệnh không khéo lại nghiện đấy :D
     
    dhq thích bài này.
  4. vinaguy

    vinaguy Lớp 5

    Em sợ em nghiện mất bác ưi... :)
    Nói chớ... cả TVE là một bộ máy... chạy trên một dây chuyền... Có bác chạy ảnh... thì sẽ có bác tiếp tục chạy pdf... sẽ tiếp theo có bác chạy text... Em rớt vào công đoạn chạy epub :)... Nhưng em sẽ vọc cái của bác giới thiệu... Thấy có vẻ đơn giản và hiệu quả. Em sẽ thử ngay từ cuốn sách pdf đen thui thùi lùi... và chuyển nó về dạng ảnh để thử.
     
    tran ngoc anh, machine and dhq like this.
  5. dhq

    dhq Lớp 1

    Hóng kết quả của bác coi sao, e còn mấy cuốn trinh thám kiểu giấy đen xì chưa scan.
     
  6. vinaguy

    vinaguy Lớp 5

    Em xác nhận... Cái này mà xử lý text thì coi như ngon rồi đấy... nhưng ảnh thì nó đổ ra đen trắng (ảnh gốc cũng đen trắng), nhưng trông ghê hơn ảnh gốc ban đầu lắm. Nên nếu các bác có xử lý text thì chọn cái này là phù hợp (đơn giản lắm, cứ ngồi uống cà phê và chờ khoảng hơn 1 phút cho cuốn sách vài trăm trang). Em chưa convert convét gì hết trọi mà đã giảm đi hơn 11 lần dung lượng.
    Nếu muốn giữ ảnh, thì chỉ còn cách copy ảnh từ file gốc, dán đè lên ảnh file pdf thôi cả nhà ạ.
     
  7. iamtnl

    iamtnl Lớp 3

    rồi chuẩn bị lên bài ocrmypdf, textcleaner, unpaper...
    xong hướng dẫn cài ubuntu subsystem để chạy lệnh linux
    rồi google drive api, tesseract...

    rồi tve thành diễn đàn công nghệ luôn cute_smiley20cute_smiley20cute_smiley20
     
    nguyenhoangtq thích bài này.
  8. tran ngoc anh

    tran ngoc anh Cử nhân

    Nhưng chỉ những công nghệ xoay quanh việc làm ebook thôi bác :D
     
  9. Justbenice

    Justbenice Lớp 4

    Cái này hay mà, nhưng cẩn trọng khi dùng câu lệnh cmd.
     
  10. tran ngoc anh

    tran ngoc anh Cử nhân

    Đúng rồi bạn, nên là các ảnh gốc nên cất riêng, sao ra một bản khác để thực tập cho chắc. Với lại câu lệnh thì copy paste cho nó khớp, còn thay đổi thông số thì kiểm tra với 1, 2 ảnh trước khi nào ổn hả chạy nguyên thư mục.
     
    Chỉnh sửa cuối: 19/11/21
  11. tran ngoc anh

    tran ngoc anh Cử nhân

    Ngược lại làm text em không dùng IM đâu bác, text dùng ảnh gốc màu mè thì abbyy OCR chuẩn nhất, kinh nghiệm của em là vậy, máy tính giờ đâu còn yếu nữa đâu, dùng abbyy thì cứ cho nó chạy trên ảnh gốc thôi chả nặng nề gì đâu. IM này chơi PDF scan mới chuẩn, em demo bên dưới bác nghía qua xem sao ^.^

    [​IMG]

    Chú ý: demo-jpg.zip là 10 trang ảnh gốc, scan 300ppi, màu vàng vàng do đèn nền của máy scan là loại đèn vàng. demo-png.zip là ảnh sau khi chạy IM với câu lệnh sau:

    magick mogrify -resize 200% -format png -threshold 65% *.jpg

    Ca này em chỉ cho tới ngưỡng 65% cho nét mỏng hơn tí do phải upscale lên gấp đôi trước đó (-resize 200%). Bác xem mấy cái png là hiểu sức mạnh của IM ngay :D

    Bonus: câu lệnh để nén riêng jpg và png ra hai file nén khác nhau, cài sẵn 7zip trong máy tính rồi sẵn có cmd ngay tại thư mục đang làm việc đó nhập luôn câu lệnh sau:

    "C:\Program Files\7-Zip\7z.exe" a demo-jpg.zip *.jpg && "C:\Program Files\7-Zip\7z.exe" a demo-png.zip *.png
     

    Các file đính kèm:

    machine, 1953snake and vinaguy like this.
  12. vinaguy

    vinaguy Lớp 5

    Em nghía qua rồi bác. Em vẫn cứ kết cái ảnh file gốc hơn, trông nó 'mát mắt' hơn bác ạ. Cái png nhìn gì mà nó cứ hết trắng thì sang đen, em mệt mỏi quá.

    Bác cho em hỏi nhỏ tí... Bộ Tam Quốc này là bộ nào vậy bác? Nếu được bác inbox cho em tí được không? Em kết đám hình của nó rồi. Em lấy chèn vào bộ Tam Quốc hiện tại bác ạ.

    Có một sự trùng hợp ngẫu nhiên là lúc sáng em cũng tẹt IM trên bộ Tam Quốc Liên Hoàn Họa :)
    :) :) Bác không dùng mà bác xúi em dùng... Sợ chưa...
     
  13. tran ngoc anh

    tran ngoc anh Cử nhân

    Haha, bác chơi epub thôi nên không hợp với bác rồi.


    Bản Đông A bác ơi, có epub Đông A của bộ này rồi đó bác.

    Sao thế bác? Em bảo dùng IM để làm text bao giờ? Thread này giới thiệu IM làm trắng ảnh để làm PDF scan mà haha
     
  14. tran ngoc anh

    tran ngoc anh Cử nhân

    Bác inbox em đi em gửi bộ ảnh gốc cho. Nhiều kinh khủng luôn.
     
  15. iamtnl

    iamtnl Lớp 3

    Vui lòng đăng nhập hoặc đăng ký để xem link
    Vui lòng đăng nhập hoặc đăng ký để xem link
    Vui lòng đăng nhập hoặc đăng ký để xem link

    Mình để một số link về mấy tools mình hay dùng để xử lý ảnh chụp, OCR và đóng gói PDF cho bác nào muốn đi sâu hơn về chủ đề này. Thay thế được hoàn toàn FineReader, Adobe Acrobat luôn (và nhẹ hơn kha khá, cả về dung lượng và tài nguyên máy).
     
    machine and tran ngoc anh like this.
  16. tran ngoc anh

    tran ngoc anh Cử nhân

    Cả một kho tàng luôn bác nhỉ ^^
     

Chia sẻ trang này