Hướng dẫn Chụp sách với Vflat - kết hợp bộ dụng cụ và xử lý ảnh bằng Abbyy và Scan Tailor

Thảo luận trong 'Hướng dẫn chung' bắt đầu bởi vinaguy, 28/6/21.

  1. vinaguy

    vinaguy Lớp 11

    Trải qua một hồi làm text một cuốn sách Phong Tục Thờ Cúng (Em đã hứa làm cho ông anh Tộc trưởng cúng kính) em có một số ý kiến:
    cute_smiley23
    Làm text cực kỳ vất vả - Vì em lỡ hứa với ông anh rồi nên phải cố chứ: "Tay trái thì cầm điện thoại, đầu gối thì đặt máy tính bảng, làm liên tục để lấy text mà em muốn rớt cái cổ ra luôn."
    KINH NGHIỆM XƯƠNG MÁU (Chắc một số bác đã biết rồi nhưng em vẫn trao đổi để cho các bác làm text chưa biết thì đỡ phải lao lực):
    1. Trước khi làm text thì xóa hết Header và Footer của cuốn sách nếu có (Bằng cách này hay cách khác) Xóa trong file pdf là dễ nhất.
    2. Lướt qua file pdf và nếu thấy chỗ nào mờ, nhòe, mất chữ (những chỗ này đương nhiên lúc chuyển text máy sẽ không tài nào đọc được nên sẽ sai chính tả) các bác dùng trình edit pdf viết đè lại chữ bị nhòe, mất, thiếu nét đó (các bác có thể để bản thô, convert text rồi sửa sau, nhưng em đảm bảo sẽ vất vả hơn nhiều vì máy convert bậy bạ mất công đoán từ).
    3. Lưu lại và bắt đầu convert để lấy text.

    _______________
    Các comments trong topic này được tách ra từ topic dưới đây:

    Vui lòng đăng nhập hoặc đăng ký để xem link
    Topic này chia sẻ kinh nghiệm chụp sách với Vflat (có thể dùng kèm bộ công cụ) và kết hợp xử lý ảnh bằng các phần mềm khác như Abbyy, Scan Tailor... để ảnh đạt chất lượng tốt hơn.
     
    Last edited by a moderator: 9/4/23
  2. tran ngoc anh

    tran ngoc anh Cử nhân

    Rất trân trọng những chia sẻ động lực

    Có dịp bạn số hóa từ đầu, thậm chí từ khâu chế công cụ chụp sách như cụ Tư @4DHN , thì mọi thứ còn XƯƠNG MÁU hơn nữa, nhưng lại VUI KHÔNG THỂ TẢ
     
    vinaguy thích bài này.
  3. machine

    machine Lớp 12

    Mình thường OCR cả quyển sách luôn để chạy TextCrawler một lần cho cả quyển.

    Bạn mua giá đỡ điện thoại hoặc kẹp điện thoại đuôi khỉ rồi cài app DSLR HD Camera nó chụp "tự động" cho, 2 tay mình chỉ việc lật và giữ trang sách thôi (Burst: Unlimited; Burst mode interval: 5-10s).
     
    Chỉnh sửa cuối: 30/6/21
    vinaguy thích bài này.
  4. vinaguy

    vinaguy Lớp 11

    Úi zời ơi... gặp cao thủ @machine làm text đây rồi. Cám ơn bác đã cho thêm chút kinh nghiệm.
    Em lấy text 2 cuốn bằng Vflat (text cũng không được rõ lắm) mà thấy không phải dùng textcrawler luôn bác ơi. Lác đác lỗi dăm chữ... word nó bôi đỏ luôn... nhưng mở file text bằng google doc thì nó bắt tiếp từ ghép khá hay nữa bác ạ
     
    machine thích bài này.
  5. machine

    machine Lớp 12

    [update]
    Sau khi chụp 3-4 quyển như quy trình bên dưới thấy cũng không ổn. Bỏ 2, 4, 5, 6 thay bằng Scan Tailor thấy tốt hơn.

    [nội dung cũ]
    Đây là "quy trình" mà tui xử lý ảnh sau vFlat phục vụ ABBYY, khá là dài dòng :D

    Chuyển ảnh từ vFlat ra máy tính

    1. Dùng Bulk Rename Utility đổi tên các file lẻ theo thứ tự 001, 003, 005... các file chẵn theo thứ tự 002, 004, 006. Có thể xóa bớt một vài trang đầu để số thứ tự ảnh trùng với số thứ tự trang sách --> có thể kiểm tra được trang sách chụp thiếu hoặc chụp bị trùng

    2. Dùng Image Magic chuyển ảnh về đen trắng bằng câu lệnh:
    magick mogrify -format png -threshold 70% *.jpg

    3. Dùng Image Magic chuyển tất cả ảnh về độ rộng 1200 bằng câu lệnh:
    magick mogrify -resize 1200x -quality 75% *.png
    (chiều cao ảnh tự thay đổi theo chiều rộng)

    4. Chạy ABBYY hết 1 lượt ảnh, không ngắt giữa chừng
    (ABBYY sẽ cảnh báo nhiều ảnh độ phân giải không phù hợp)

    5. Vào Image Editor trong ABBYY chuyển tất cả ảnh về 600ppi
    (chọn tất cả ảnh rồi bấm vào Resolution, đặt 600ppi)
    (không cần để ý đến khuyến cáo của ABBYY về độ phân giải từng ảnh)

    6. Crop hàng loạt ảnh trong ABBYY
    (để sau này xuất ra file pdf thì các trang có kích thước đều nhau)
    chú ý kéo 2 bên lề và phía trên phía dưới vừa phải để không bị cắt lẹm vào nội dung

    7. OCR lại bằng ABBYY rồi xuất ra file Word (editable) và searchable pdf (exact)

    Thực tế là vFlat đôi khi chụp lẫn sang cả trang sách bên cạnh như mấy ảnh bên dưới nên nếu không crop thì ABBYY sẽ nhận dạng nhầm, gây ra lỗi chính tả không mong muốn
    083.jpg
    093.jpg
    107.jpg

    Bản vFlat hiện tại đang dùng là 0/10.5.221108.... không thấy có tính năng chụp 1 lần 2 trang nên phải chụp 1 lượt các trang lẻ và 1 lượt các trang chẵn :D
    Bạn nào thấy tính năng chụp 1 lần 2 trang trong vFlat vui lòng chỉ giùm. Xin cảm ơn :D
     
    Chỉnh sửa cuối: 20/3/23
    Lan Giao, amylee and Anan Két like this.
  6. machine

    machine Lớp 12

    Tui dùng vFlat chụp quyển báo cũ mà kích thước ảnh không đều nhau, dùng NapS2 đóng thành file pdf không đẹp lắm (các trang kích thước lệch nhau).

    Có cách nào đưa hàng loạt ảnh chụp về chung 1 kích thước để các trang trong file pdf đều nhau không các bạn?
    P/S: câu lệnh bên dưới (Image Magick) chỉ chỉnh được chiều rộng ảnh, không chỉnh được chiều cao
    magick mogrify -resize 1700x -quality 85% *.jpg

    Báo cũ:
    Vui lòng đăng nhập hoặc đăng ký để xem link
     
    Anan Két thích bài này.
  7. tran ngoc anh

    tran ngoc anh Cử nhân

    Chỉ cần thêm một con số phía sau chữ x mà thôi. Ví dụ 1700x3400 thì tất cả các ảnh sẽ chung một khung 1700x3400.
     
    amylee and Anan Két like this.
  8. tran ngoc anh

    tran ngoc anh Cử nhân

    Mở rộng: 1700x là chiều rộng đều 1700. Thì nếu chỉ muốn toàn bộ có chiều cao 3400 thì x3400. Còn muốn bỏ qua tỉ lệ của ảnh gốc, set cứng một khung như phía trên thì quy định rõ 2 chỉ số luôn là 1700x3400.
     
  9. machine

    machine Lớp 12

    Thank you. :rose:
    Công đức vô lượng :D
     
    tran ngoc anh thích bài này.
  10. thuan1a7

    thuan1a7 Mầm non

    Cái này à bác
     

    Các file đính kèm:

  11. machine

    machine Lớp 12

    Đã nhìn thấy. Cảm ơn bạn :D
     
  12. Anan Két

    Anan Két Lớp 8

    Cảm ơn chia sẻ của bạn @machine, trước giờ mình thường kết hợp Abbyy + Scan Tailor + Photoshop để xử lý ảnh, hôm nay mình thử dùng Image Magick và thấy như sau: :D

    VỚI SÁCH MỚI
    Với ảnh scan/Vlat của sách mới: IM xử lý rất đẹp và nhanh, về độ đều màu của chữ thì hơn Scan Tailor. Ví dụ:
    Ảnh Vlat:
    vflat.jpg
    Ảnh xử lý bằng Scan Tailor:
    scan tailor.png
    Ảnh xử lý bằng IM:
    image magic.png
    Do bị lóa, ảnh chụp vflat ở góc dưới có nét chữ nhạt màu và mảnh. Ảnh do Scan Tailor xử lý cho ra kết quả tương tự. Riêng IM có khả năng cà các phần này đều màu, nhìn rất đẹp.

    ==> Sách mới thì cứ IM mà phang :D

    VỚI SÁCH CŨ
    Với sách xưa (giấy nâu, chữ chì), ảnh chụp kém chất lượng, ảnh xuất ra từ file pdf đã nén: Scan Tailor xử lý đẹp hơn Abbyy, IM.
    Từ trước đến nay, với các cuốn sách xưa, mình chỉ dùng Scan Tailor: tẩy trắng, xóa vết lem, nắn thẳng khung nội dung (theo chiều dọc), đồng bộ kích cỡ các trang: Scan Tailor Experimental có thể xử lý rất tốt.
    Có những tấm ảnh chụp hơi nhòe, nếu xử lý bằng Abbyy thì coi như hỏng, nhưng với Scan Tailor thì vẫn đọc được bình thường.
    Có thể có nhiều bạn ngại Scan Tailor phải chọn từng khối văn bản mất thời gian, thì có thể bỏ qua bước này, bằng cách tùy chỉnh để phần mềm coi toàn bộ trang là nội dung, rồi xuất file ra, sau đó đưa vào Abbyy crop hàng loạt. Cách này rất phù hợp để xử lý các cuốn pdf đã bị nén, nếu dùng Abbyy hay IM thì nét chữ bị răng cưa, còn Scan Tailor cho ra nét chữ mịn, xóa các vết lem.
    Ví dụ cuốn Lã Thị Xuân Thu mình đã xử lý theo quy trình trên:
    Vui lòng đăng nhập hoặc đăng ký để xem link

    Bạn nào có cách xử lý khác thì chia sẻ nhé! :D
     
    machine, amylee and tran ngoc anh like this.
  13. tran ngoc anh

    tran ngoc anh Cử nhân

    Mình chưa tìm hiểu kỹ nên chỉ kéo về được 2, 3 chức năng cơ bản nhất của IM là resize, threshold, format, grayscale thôi. Chứ hệ thống script hỗ trợ xử lý ảnh scan đa trường hợp của IM còn là một danh sách dài.

    Sẽ rỉa về dần để chuyển cho các bạn ʘ⁠‿⁠ʘ
     
    Anan Két thích bài này.
  14. machine

    machine Lớp 12

    Lịch sử sẽ ghi tên đồng chí :D
     
    Anan Két thích bài này.
  15. machine

    machine Lớp 12

    Mình thử chụp 2 trang 1 lúc thì ảnh không xuất ra chất lượng kém hơn (dòng chữ cong hơn, lề ảnh bị lẫn chữ hoặc có bóng, trong 2 trang sẽ có 1 trang kém hơn trang còn lại) so với chụp ảnh từng trang.
    Nhìn lại ở post 1 cũng có khuyến cáo nên chụp ảnh từng trang chứ không nên chụp 1 lần 2 trang.
    --> mất thêm chút thời gian vậy.
     
    Anan Két thích bài này.
  16. machine

    machine Lớp 12

    Sau một hồi loay hoay với vấn đề đồng bộ kích thước trang mình nhận thấy như này:
    Mình chụp hàng loạt trang lẻ đến cuối sách sẽ lật ngược sách chụp hàng loạt trang chẵn về đầu sách, vFlat thường xuất ra ảnh trang lẻ có kích thước nhỏ hơn ảnh trang chẵn (chênh lệch chiều rộng ảnh khoảng 200 pixel). Tóm lại là ảnh chụp trang sách do vFlat xuất ra sẽ có kích thước không đều nhau.
    --> ảnh do Scan Tailor xuất ra sẽ có kích thước không đều nhau mặc dù đã chọn Match size by growing margins (hoặc Match size by scaling).
    --> mình dùng IM để resize toàn bộ ảnh xuất ra từ vFlat trước khi nhập vào Scan Tailor.
    Ví dụ: 4 ảnh bên dưới là các trang sách liên tiếp nhau chụp bằng vFlat, kích thước các trang không đều nhau: 1674x2747, 2153x3442, 1703x2784, 2299x3625
    --> dùng ImageMagick để resize toàn bộ ảnh bằng bằng câu lệnh:
    magick mogrify -resize 1700x -quality 90% *.jpg
    Sau đó đưa vào Scan Tailor xử lý tiếp thì ảnh xuất ra sẽ có kích thước đều nhau.
    file pdf.rar đính kèm bên dưới là kết quả thu được khi xử lý bằng Scan Tailor:
    - origin.pdf: ảnh chụp từ vFlat, giữ nguyên (không resize bằng IM), đưa luôn cho Scan Tailor xử lý
    - resize.pdf: ảnh chụp từ vFlat, resize bằng IM rồi chuyển vào cho Scan Tailor xử lý --> kích thước ảnh đều nhau.

    Khi chụp sách bằng vFlat ở bên ngoài (ví dụ: thư viện), nguồn sáng là ánh đèn chiếu từ trên xuống, đường viền của ảnh trang sách rất hay bị dính chữ từ trang sách bên cạnh hoặc đường viền là vệt màu đen
    --> phải crop để loại bỏ
    --> dùng Scan Tailor để crop là tốt nhất, dùng ABBYY để crop nhiều khi sẽ cắt lẹm vào nội dung trang sách
     

    Các file đính kèm:

    Anan Két thích bài này.
  17. Anan Két

    Anan Két Lớp 8

    Mình thấy click vào “Match size by scaling” là khung text đều nhau hết chứ @machine? Chức năng này có cái bất tiện là không chọn hàng loạt như “Match size by growing margins” được, mà phải click từng tấm một (hơi mỏi tay), sau khi click thì khung bao trang đó chuyển thành màu vàng.
    scan tailor experimental.png
    Trước đây mình xài Scan Tailor thường, thấy không có chức năng này, đến khi chuyển qua xài Scan Tailor Experimental thì mê chức năng này lắm luôn. :p Có nhiều cuốn do chụp theo nhiều đợt, kích cỡ và lề không đều nhau (lề không đều thường thấy ở mấy cuốn gáy dán keo), tưởng là bỏ đi mà cho vào SC Experimental vẫn xử lý đẹp như thường hihi. :D
    Với những cuốn lề đều, mình cũng dùng cách resize ảnh trước như @machine để đỡ phải click từng tấm. Xem khổ sách giấy, chẳng hạn: khổ 16 cm x 24 cm, thì resize toàn bộ ảnh về 1 cỡ: chẳng hạn: 2000 px x 3000 px. Sau đó cho vào Scan Tailor chỉ cần chọn chức năng “Match size by growing margins” là ảnh cũng ra kích cỡ đều. :p
     
    tran ngoc anh and machine like this.
  18. tran ngoc anh

    tran ngoc anh Cử nhân

    Lâu không dùng ST, nhưng nhớ lúc trước mình dùng bản thường có thể match các trang cho đều nhau được hết luôn.
     
    Anan Két, katsukiltd and machine like this.
  19. machine

    machine Lớp 12

    Bạn @Anan Két xài kỹ ghê :rose: Tui chọn “Match size by scaling” rồi Apply to: All pages xong không thấy kết quả như ý là cũng không để ý đến chi tiết khung bao màu vàng luôn.
    Xác nhận là phải bấm từng tấm, mỏi tay ghê :eek:

    Tui ít để ý đến khổ sách giấy.
    Khi chụp trang sách bằng vFlat kích thước trang lẻ thường nhỏ hơn kích thước trang chẵn. Xem chiều rộng một vài trang lẻ để quyết định thôi (không cần quan tâm đến chiều cao ảnh trang sách vì Scan Tailor tự điều chỉnh được).
    Ví dụ: đa số trang lẻ có chiều rộng xấp xỉ 1500px thì dùng Image Magick để resize toàn bộ ảnh trang sách về chiều rộng 1500px
     
    Anan Két thích bài này.
  20. machine

    machine Lớp 12

    Trước kia dùng tấm mica/tấm kính để ép phẳng trang sách rồi mới chụp, ảnh thu được là ảnh màu và "nguyên bản" thì tui nhớ là dùng Scan Tailor sẽ thu được các ảnh kích thước đều nhau.
    Từ khi chụp bằng vFlat, có lẽ do vFlat đã xử lý ảnh kiểu gì đó mà dùng Scan Tailor Advanced hoặc Scan Tailor 0.9.11.1 đều không thu được kết quả tốt. Mặc dù các ảnh kích thước đều nhau nhưng đấy là do độ rộng lề thay đổi chứ cỡ chữ ở các trang sách không đều nhau --> phải dùng Scan Tailor Experimental (nếu muốn dùng như bản Scan Tailor cũ thì ở bước 3 chọn Page skew)
     
    Chỉnh sửa cuối: 20/3/23
    tran ngoc anh thích bài này.
: Vflat

Chia sẻ trang này