PC [cmd] Bộ công cụ Poppler PDF cho Windows

Thảo luận trong 'Hướng dẫn chung' bắt đầu bởi tran ngoc anh, 20/11/21.

  1. tran ngoc anh

    tran ngoc anh Cử nhân

    Thread này mình bắt đầu một series mới về bộ công cụ Poppler chuyên xử lý PDF dành cho Windows.

    Tiếp tục với một mẹo liên quan đến PDF, đó là xem ppi của các trang pdf mà không cần bung ảnh ra để kiểm tra từng ảnh một bằng các trình chỉnh sửa ảnh (trình chỉnh ảnh đơn giản nhất có thể xem độ phân giải của ảnh chính là MS paint huyền thoại của Microsoft ^_^)

    1. Đầu tiên tải bộ phần mềm Poppler tại Vui lòng đăng nhập hoặc đăng ký để xem link (vì trước mình dùng trong Linux subsystem, hay đúng hơn là bộ này phát triển cho Linux hoặc Unix gì đó, Unix thì có MAC OS nên là cũng thấy ẻm bên MAC):

    [​IMG]

    -> Bản 21.11.0-0 này đang là bản mới nhất, các bạn tải file Release-21.11.0-0.zip nặng khoảng 14MB nhé

    2. Giải nén bộ phần mềm và lưu lại ở một chỗ nào đó, mình thì bắn thẳng vào "C:\Program Files"

    3. Set môi trường cho poppler nào, nhấn win rồi gõ env chọn như hình,

    [​IMG]

    [​IMG]

    [​IMG]

    [​IMG]

    -> Ảnh ngay trên các bạn bấm New để thêm một dòng path, theo mũi tên màu đỏ mình đã set sẵn trên máy mình là đường dẫn đến thư mục bin bên trong thư mục của bộ phần mềm poppler, bên trong bin là tập hợp nhiều file .dll và .exe của các phần mềm con trong bộ, toàn các hảo thủ không đó, mà gom lại có mười mấy MB thôi, cái ngon của app dòng lệnh là nhẹ, nhẹ và chỉ có nhẹ mà thôi ^_^

    -> thêm path xong thì bấm ok tất cả các của sổ env vừa mở để hệ thống thay đổi cài đặt,

    -> Set môi trường xong là đã có thể sử dụng các phần mềm của bộ poppler này với cmd rồi, còn Fast & Furious hơn cả cài đặt nữa :D

    4. Mở cmd và gõ lệnh sau: pdfimages -list jpg.pdf

    >> jpg.pdf là tên của file PDF đang được lấy làm mẫu.

    Nếu mở cmd tại thư mục chứa file pdf đó thì sau -list chỉ cần là tên đầy đủ của file pdf, nếu mở cmd tại chỗ khác thì sau -list phải là đường dẫn đầy đủ tới file pdf ở trong ngoặc kép: pdfimages -list "C:\Users\Heisenberg\Desktop\test\jpg.pdf"

    Để lấy được đường dẫn đầy đủ của một file rất dễ, gõ tên file vào Everything để tìm đến file rồi copy đường dẫn của em nó, Everything có thể tìm được bất cứ file nào trong bất cứ ngỏ hẻm nào bên trong máy tính ^_^

    [​IMG]

    Như hình thì các bạn có thể thấy, cmd trả lại kết quả là thông tin về các trang ảnh bên trong của file pdf, file mẫu của mình thì được scan với 300 ppi, nên dải số được đánh dấu đều một số 300 :D

    => Tóm lại, 1 tải file zip của bộ poppler, giải nén vào một thư mục nào đó, 2 set môi trường, 3 là dùng với câu lệnh cmd, easy ^& ^&

    CHÚC CÁC BẠN THÀNH CÔNG!
     
    Chỉnh sửa cuối: 21/11/21
    Anan Két, machine and Nada like this.
  2. tran ngoc anh

    tran ngoc anh Cử nhân

    Tiếp theo một tính năng của Popper là trích ảnh từ PDF bằng công cụ pdfimages.

    Ưu điểm của phần mềm này là tốc độ vì ẻm chỉ lấy nguyên ảnh gốc bên trong đem ra ngoài, y như giải nén zip vậy, và chúng ta chỉ cần ảnh gốc bên trong thôi chứ ai lại muốn lấy ảnh ra mà bị nén hay là dung lượng phình to ra cơ chứ ^_^

    Thêm một ưu điểm nữa là pdfimages chỉ quét ảnh thật trong các trang pdf và lấy nó ra, tức là bỏ qua tất cả các thành phần khác như true text, lớp player pdf, media, nhạc... điều đó có nghĩa là những trang pdf nào chỉ toàn là text thì pdfimages sẽ cho qua không lấy ra được gì, những trang mà có ảnh minh họa rời với khung text xung quanh thì pdfimages sẽ lấy ra chỉ mỗi cái ảnh đó, đó là ưu điểm và cũng được coi như bộ lọc ảnh siêu chính xác của pdfimages thuộc bộ công cụ poppler này.

    Còn dĩ nhiên nếu file pdf scan của chúng ta chỉ toàn các trang scan gốc, pdfimages sẽ bung những hình ảnh tương ứng của các trang đó ra, đặc biệt là nếu pdf được crop lề ảo bằng acrobat hay các phần mềm khác, thì khi bung ảnh, ảnh sẽ được khôi phục lề ban đầu, vì rõ ràng pdfimages chỉ lấy ảnh mà bỏ qua hết các player, thông số thiết đặt của pdf mà.

    Tóm lại ảnh gốc bên trong như thế nào thì pdfimages sẽ lấy ra y nguyên như thế.

    1. Mở cmd tại thư mục chứa file pdf, gõ lệnh:

    pdfimages -all 3qdn.pdf img

    • pdfimages lệnh gọi phần mềm
    • -all là bung tất cả các định dạng bên trong pdf
    • img cuối câu lệnh là tên mở đầu mà pdfimages sẽ đặt các file ảnh được bung ra.

    [​IMG]

    [​IMG]

    2. Nếu muốn bung ảnh vào một thư mục con thì gõ

    md sub
    • sub là tên thư mục con, đặt tên gì cũng được.
    Sau đó tiếp tục gõ lệnh sau:

    pdfimages -all 3qdn.pdf ./sub/img
    • ./sub/ là để cho pdfimages hiểu chúng ta cần nó bung ảnh vào trong thư mục con của thư mục hiện tại có tên "sub" đã được tạo ra trước đó
    [​IMG]


    [​IMG]

    CHÚC CÁC BẠN THÀNH CÔNG!
     
    hanam2990 and Anan Két like this.
  3. tran ngoc anh

    tran ngoc anh Cử nhân

    Hàng mới đã post từ lâu :D
     
    thohnb thích bài này.
  4. thohnb

    thohnb Lớp 2

    Em đang dùng bản 23.0 ( bản mới nhất) thì khi xuất ảnh từ file pdf Tây Du Kí, nó lại ra định dạng j2bg bác ạ.
    upload_2023-12-30_17-52-23.png
    Hay là do version 23.11 nhỉ..
    [​IMG]
     
  5. tran ngoc anh

    tran ngoc anh Cử nhân

    Hôi lấy bản gốc này đi cho khỏe :D
    Vui lòng đăng nhập hoặc đăng ký để xem link
    Xui cái là bản scan mình đã update lại số ảnh minh họa thành jbig2 rồi nên poppler bung ra jbig2 luôn ấy mà :D
     
    thohnb thích bài này.
  6. thohnb

    thohnb Lớp 2

    Hihi cảm ơn mod nhiều.
    Chờ bản đầy đủ của thím kia rồi em bắt đầu làm lại.
    Hí hí
     
: poppler

Chia sẻ trang này