Kinh điển Phiêu lưu Don Quixote - Nhà quý tộc tài ba xứ Mancha - Miguel de Cervantes

Thảo luận trong 'Tủ sách Văn học nước ngoài' bắt đầu bởi tran ngoc anh, 5/8/23.

  1. machine

    machine Sinh viên năm I

    Phần mềm nén ảnh đó tên là jbig2 luôn à? Search Google thì thấy đó là 1 chuẩn nén ảnh.
    Sau khi chụp bằng vFlat xong tui xử lý tiếp ảnh chụp trang sách bằng Scan Tailor Experimental mà kích thước ảnh vẫn lớn. Quyển sách 400 trang đóng gói pdf lên tới 14Mb.
    Thấy mấy bạn post pdf 400 trang chỉ dưới 5Mb mà vẫn nét. Không biết mấy bạn nén kiểu gì ghê thế :think:
     
    Anan Két thích bài này.
  2. tran ngoc anh

    tran ngoc anh Cử nhân

    Nó đúng là một chuẩn nén, jbig2 nén tốt hơn jbig1, không biết khi nào có jbig3 nữa :D

    Đơn giản lắm. Acrobat hỗ trợ nén jbig2 mà, chọn thông số cho phù hợp thôi. Bản thân Abbyy Finereader khi xuất pdf trắng đen cũng đã nén bằng jbig2 rồi đó, nhưng không hiểu họ tích hợp kiểu gì, nó cùi bắp hơn jbig2 của Acrobat.

    Phần mềm OCRmyPDF mình dùng để lót OCR cũng hỗ trợ nén jbig2, ngang cơ Acrobat luôn nhưng không trực quan bằng Acrobat. Nhưng để có được tỉ lệ nén tốt nhất thì dùng một module python ở trên github, nó hỗ trợ gom một thư mục png hoặc tiff trắng đen thành luôn một file pdf nén jbig2, nén nhỏ hơn cả Acrobat, nhưng lại mang lại gánh nặng cho phần mềm đọc pdf, render ngược để hiển thị cảm giác rất nặng nề.

    Ưu điểm của jbig2 này chính là ở trong file PDF nó render nhanh hơn cả png hoặc tif gốc từ Scankéo nữa.

    Có thể mình sẽ viết một bài tổng hợp các cách để nén pdf bằng jbig2 sau này.

    Còn tùy vào số dpi và font chữ, khổ giấy nữa. Có thể đưa mẩu một file không? Mình nén thử cho người máy so sánh.
     
    Chỉnh sửa cuối: 10/8/23
    Anan Két thích bài này.
  3. Anan Két

    Anan Két Lớp 8

    Trước giờ mình vẫn đóng gói pdf bằng ảnh tif trắng đen. Về định dạng jbig2, mình thử thì thấy thế này: cùng 1 tấm đen trắng, nếu lưu jbig2 thì dung lượng nhẹ hơn tif nhiều, nhưng khi đóng gói thành pdf thì dung lượng 2 file pdf này (1 pdf từ các ảnh tif, 1 pdf từ các ảnh jbig2) là tương đương; nên mình suy đoán là khi đóng gói, phần mềm tự động nén, nên đầu vào là tif hay jbig2 cũng không khác biệt. Mình đính kèm file thử trong tệp rar, mọi người xem thử nhé. :p
     

    Các file đính kèm:

    tran ngoc anh thích bài này.
  4. machine

    machine Sinh viên năm I

    Ví dụ như file Vui lòng đăng nhập hoặc đăng ký để xem link.
    Tổng file tiff là 20Mb.
    Đóng gói pdf bằng NAPS2 thì còn 14Mb nhưng tui thấy như thế vẫn lớn. Liệu có thể nén thêm nữa (mà nhìn vẫn nét) cho nó về 5-6Mb được không nữa :D
    Ngoài lề là quyển sách này phần Header đầu mỗi trang sách có họa tiết 2 cái lá cây cong cong làm cho Scan Tailor Experimental nhận nhầm là ký tự, nên (nó) gần như không nắn thẳng ảnh chụp trang sách thêm được nữa, phải chỉnh thủ công rất mất thời gian.
     
    tran ngoc anh and Anan Két like this.
  5. tran ngoc anh

    tran ngoc anh Cử nhân

    Thử nén như sau, cả hai bản dùng chung bìa 900x1306 (223KB rồi :D )
    • Chỉ nén không giảm dpi, 6,5MB:

    Giảm dpi còn 75% (khoảng ~300 dpi), 5,5MB:

    -> Chọn nén trong Acrobat như hình dưới:
    [​IMG]
     
    Chỉnh sửa cuối: 10/8/23
    Anan Két and machine like this.
  6. machine

    machine Sinh viên năm I

    Cảm ơn bạn N.A :rose:
    Tui thiết lập như ảnh đó, đặt Small Size ở 1 hoặc 3 đều ra file 6.48Mb. Giảm được 1 nửa dung lượng mà chất lượng hiển thị gần như không thay đổi như vầy là quá tốt :D

    Giảm dpi là vào chỗ nào ấy?
     
  7. tran ngoc anh

    tran ngoc anh Cử nhân

    Kiểm tra trong ruột thì cả 2 pdf đều nén thành jbig2 như nhau, cả 2 đều khoảng 240dpi (ppi).

    [​IMG]

    Vụ chuyển thành .jb2 rồi mới đóng pdf như An trình bày mình chưa biết luôn. Vì thường định dạng jb2 này trên Win không thấy app nào hiển thị được cả, nó ở bên trong pdf thì mới thấy được. Mình cũng không hay dùng .tif, vì ít khi đụng đến scantailor :D. Dùng Image Magick để làm trắng (threshold) mình hay xuất png, dùng img2pdf gom lại thành một cục pdf rồi mới cho Acrobat nén thôi.
     
    machine and Anan Két like this.
  8. tran ngoc anh

    tran ngoc anh Cử nhân

    Thật file gốc của bạn chỉ có 96dpi thôi, do xuất ra từ scantailor bị kéo dãn pagesize, để vậy mà nén vẫn ổn, nhưng cỡ trang lớn tận 60cmx87cm chỉ làm gánh nặng cho app nào hiển thị file pdf này thôi.
    [​IMG]
    [​IMG]

    Nên mình mới thu khổ trang lại tương đương khổ thực của sách in, khổ nhỏ lại mật độ điểm ảnh sẽ tăng lên cho ra dpi khoảng 398.
    [​IMG]
    [​IMG]

    Cho nên bản gọn mình mới giảm từ 398 xuống 300 dpi tiêu chuẩn xem thế nào, hóa ra chỉ giảm thêm được 1MB dung lượng, chẳng bõ công.

    [​IMG]
    [​IMG]

    Đọc mấy thông số khác để chỉnh tùy theo nhu cầu, phía trên còn có ảnh màu hoặc ảnh xám nữa đó. Chỗ này kiểm soát dpi của ảnh bìa được nè, hoặc các trang ảnh minh họa đó, Acrobat nén hiệu quả lắm.
     
    Anan Két and machine like this.
  9. tran ngoc anh

    tran ngoc anh Cử nhân

    @machine thử sau này khi có .tif vừa ra lò, ném thẳng vào Acrobat ở tool combine này, chọn mức nhỏ nhất, Acrobat vừa gom vừa nén luôn, đỡ phải cài NAPS2.
    [​IMG]
     
    Anan Két and machine like this.
  10. machine

    machine Sinh viên năm I

    Nếu đi chụp ở "bên ngoài" nguồn sáng đa phần là ánh sáng đèn điện, chiếu xiên lung tung, rất hay tạo bóng tối ở vị trí gáy sách, ảnh chụp trang sách sẽ có vệt màu tối có chiều rộng ngẫu nhiên như mấy ảnh dưới, chỉ có Scan Tailor chủ động chọn vùng bao quanh khối chữ mới loại bỏ được mấy vệt màu này:D
    063.jpg 212.jpg 239.jpg 322.jpg
    Ngoài ra chụp bằng vFlat nhiều trang dòng chữ vẫn cong, dùng Scan Tailor Experimental nắn thẳng thêm chút nữa.
     
    Anan Két and tran ngoc anh like this.
  11. tran ngoc anh

    tran ngoc anh Cử nhân

    Để mai test bằng cách của mình xem có giải quyết được mấy vết vàng này không. Thường thì chuyện gì cũng có nhiều hơn một cách giải quyết :D
     
    Anan Két thích bài này.
  12. tranhoainam

    tranhoainam Lớp 7

    Mấy vệt vàng xung quanh viền sách, dùng chức năng tẩy trong Vflat là làm trắng được mà
     
    Anan Két and tran ngoc anh like this.
  13. tran ngoc anh

    tran ngoc anh Cử nhân

    Scantailor vẫn xịn nhất :D
     
    Anan Két thích bài này.
  14. Anan Két

    Anan Két Lớp 8

    Cuốn này Scan Tailor nắn tự động không ổn thật :D. Trước giờ với mấy cuốn thế này, mình cứ đưa vào Abbyy nắn thẳng dòng, rồi trang nào nghiêng ngả quá mới chỉnh khung lưới trong Scan Tailor. Những cuốn có header gây nhiễu thế này cũng không nhiều :p.
     
    machine thích bài này.
  15. Anan Két

    Anan Két Lớp 8

    Mình thì lại không thể thiếu Scan Tailor :D. Ảnh chụp sách bằng điện thoại thường bị lem ở lề, khung text không vuông, trang to nhỏ không đều...; SC đều xử lý tốt. Nếu không xài SC thì Ngọc Anh dùng cách nào để xử lý các vấn đề trên?
    Thu nhỏ khổ sách ở chỗ nào trong Acrobat vậy NA? Nãy giờ mình kiếm mà không thấy :D.
     
    machine thích bài này.
  16. tran ngoc anh

    tran ngoc anh Cử nhân

    Mình không xử lý các vấn đề này, vì rất ít khi chụp sách mà cong vênh khủng khiếp như vậy :D không có kinh nghiệm về trường hợp này, trước cũng chụp mà phải ép kính cơ, phẳng nên xử lí cũng nhẹ, vẫn dùng scantailor đấy, nhưng không phụ thuộc. Khi ở trong nhóm VC, nguồn chụp do VC đưa cực kỳ đẹp, chụp cắt gáy đều như scan máy tự động vậy. Đôi năm gần đây họ toàn scan máy, nguồn scan 600dpi nó đẹp sẵn rồi, chỉ việc làm trắng đúng cách, nén đúng cách nữa là đẹp.

    À có lần mình đưa bản chụp cũ của cuốn Của cải của các dân tộc cho vFlat xử lý, nó tự động làm hết, ra trang ảnh trắng đẹp, crop lề tốt. 7, 800 trang mà đưa vào điện chạy chưa quá 10 phút, nếu dùng scantailor mình không đủ kiên nhẫn để tự mó tay vô và mất hàng giờ đồng hồ, scantailor thú thực xử lý 7, 800 trang sẽ rất lâu :D

    Một là chọn in thành một file mới, có tùy chọn về khổ giấy mới. Cách này thì rất nhiều app làm được, Acrobat, X-chane, Foxit...

    Hai là đưa vào Abbyy lại thành ảnh, đóng gói lại từ ảnh, lúc này đặt khổ giấy mới từ đầu trong dòng lệnh. Đây là cách mình luôn dùng vì xuất phát từ ảnh png, sẽ có toàn quyền quyết định về khổ giấy ngay từ đầu, các bạn xuất phát từ .tif của scantailor cũng nên dùng cách này để kiểm soát.

    Ba là dùng PDFill, công cụ số 5 reformat. Công cụ này có thể xếp lại các trang pdf ngay cả khi so le về cùng một kích cỡ mới, khổ mới đồng loạt.

    PDFill còn có thể đóng gói pdf từ nguồn ảnh so le về cùng một khổ, hoặc đóng gói theo dpi, ví dụ như nguồn ảnh của @machine 96dpi đó, đóng bằng NAPS2 vào pdf vẫn 96dpi, còn PDFill có thể đặt 300dpi theo ý mình, khổ giấy thì nó tự co giãn để đạt đủ mật độ 300dpi thôi.

    Nói chung chúng ta rất may mắn vì chơi pdf có lợi hơn epub rất nhiều. Hệ sinh thái phần mềm xoay quanh pdf cực cực kỳ rộng lớn, cực kỳ nhiều hỗ trợ. Epub quanh đi quẩn lại chỉ có Sigil với Calibre :D
     
    Chỉnh sửa cuối: 11/8/23
    Anan Két and machine like this.
  17. machine

    machine Sinh viên năm I

    Bạn hướng dẫn chi tiết hơn được không? "chức năng tẩy" ở chỗ nào vậy?
     
    sucsongmoi thích bài này.
  18. tran ngoc anh

    tran ngoc anh Cử nhân

    Chọn hết như hình. Nhập ảnh mới có, nhập pdf không có. Chụp bình thường bằng camera máy trước rồi hãy nhập, hiệu quả hơn, đừng chụp trực tiếp.[​IMG]
     
    machine, sucsongmoi and Anan Két like this.
  19. Anan Két

    Anan Két Lớp 8

    Mình thì chưa bao giờ cắt gáy sách, dù scan hay chụp đều để nguyên cuốn nên rất cần SC; có lẽ phần lớn thành viên đều như mình :D. Mình quen xử lý với ảnh (tẩy trắng, nắn thẳng dòng...), xong rồi dùng Acrobat đóng gói thôi, chứ không quen thao tác hoàn toàn trên phần mềm pdf. :D
    Mình đã thử nhưng không thấy giữa 2 file pdf đóng từ ảnh 300 dpi và 96 dpi có gì khác nhau. Đúng là trang sách có kích cỡ vật lý khác nhau, nhưng chất lượng hiển thị hay dung lượng khi nén đều giống nhau. Hay tăng giảm dpi chỉ để giảm tải cho phần mềm đọc sách thôi? Mình gắn kèm file dưới đây, NA xem thử nhé.
     

    Các file đính kèm:

    tran ngoc anh and machine like this.
  20. Anan Két

    Anan Két Lớp 8

    Đây nè @machine :D:
    fill zones.jpg
    Mà trước giờ mình hầu như không xài chức năng này, do SC nhận diện được khung text nên phần lem ngoài lề được xóa tự động.
    CẬP NHẬT: Đọc lại mới biết nhầm, các bạn đang nói về Vflat chứ không phải Scan Tailor :D.
     
    Chỉnh sửa cuối: 11/8/23
    tran ngoc anh and machine like this.

Chia sẻ trang này