Hướng dẫn Tách trang scan đôi thành trang đơn

Thảo luận trong 'Hướng dẫn chung' bắt đầu bởi Rafa, 1/11/15.

  1. Rafa

    Rafa SV

    Chào các bạn,
    Hiện tại có nhiều file scan dạng trang đôi, bạn nào biết phần mềm nào có thể tách thành trang đơn không?
    Kết quả test thử bằng Vui lòng đăng nhập hoặc đăng ký để xem link và ABBYY: Scan Tailor cho kết quả tốt hơn.
    Cảm ơn các bạn!
    Trân trọng,
    Rafa
     

    Các file đính kèm:

    tranhai74, chis, sadec2 and 3 others like this.
  2. 4DHN

    4DHN --------- Thành viên BQT

    Rafa viết hướng dẫn cho Scan Tailor đi. Cảm ơn nhiều! :rose:
     
    Rafa thích bài này.
  3. 4DHN

    4DHN --------- Thành viên BQT

    Vừa tìm được trên mạng. :D

     
    NQK, Ngọc Sơn, lotus and 1 other person like this.
  4. Rafa

    Rafa SV

    HƯỚNG DẪN SỬ DỤNG PHẦN MỀM SCANTAILOR
    XỬ LÝ TÀI LIỆU SAU KHI SỐ HÓA

    1. Giới thiệu về phần mềm:

    Phần mềm ScanTailor, được phát triển bởi một lập trình viên tên là Joseph Artsimovich, đây là phần mềm miễn phí tương thích với các hệ điều hành Windows và Linux. ScanTailor được phát triển từ cuối năm 2007 đến nay đã qua nhiều phiên bản khác nhau, và dần hoàn thiện trở thành một phần mềm mạnh mẽ trợ giúp cho việc số hóa tài liệu tại các thư viện và trung tâm thông tin, và cho cả mục đích cá nhân.

    Đây là phần mềm xử lý tài liệu số hóa có khả năng xử lý tài liệu số hóa dạng ảnh sau khi scan rất hay, đáp ứng tốt các yêu cầu xử lý số hóa trong thư viện, trợ giúp các công việc mà trước đây thực hiện khá khó khăn hoặc có thể mất nhiều tiền để mua các phần mềm thương mại như: tách đôi trang (nếu scan ở dạng 2 trang một file ), xoay thẳng ảnh, cắt bỏ viền, định dạng lại khổ sách...)

    Tuy nhiên, phần mềm này chỉ xử lý tài liệu số hóa dạng ảnh, sau khi xử lý cũng sẽ xuất ra dạng ảnh mà không nhận dạng ký tự quang học (OCR), nhưng chúng ta hoàn toàn có thể sử dụng kết quả sau khi xử lý với phần mềm ScanTailor để đưa vào các phần mềm nhận dạng ký tự quang học để nhận dạng, vì chương trình đã loại bỏ nhiễu, giúp quá trình nhận dạng đượchoàn thiện hơn.

    2. Một số lưu ý trước khi thực hiện:

    Để công tác xử lý tài liệu số hóa sau khi scan bằng phần mềm ScanTailor đượchiệu quả cần lưu ý một số điểm sau:
    • Không quét ảnh ở chế độ đen trắng, Quét ảnh bằng chế độ grayscale, hoặc màu
    • Độ phân giải từ 300 PDI trở lên
    • Nên lưu ảnh quét bằng định dạng file TIFF để việc xử lý đạt chất lượng tốt hơn, có thể chấp nhận ảnh JPEG, nhưng để ở chất lượng cao nhất có thể.
    3. Tải và cài đặt:
    • Bước 1: Tải phần mềm ScanTailor phiên bản mới nhất tại địa chỉ:
    Vui lòng đăng nhập hoặc đăng ký để xem link
    Lưu ý: bản giành cho máy 32bit và 64bit
    • Bước 2: Cài đặt. Tìm đến đường dẫn lưu phần mềm, nhấn đúp chuột để kích hoạt cài đặt
    • Bước 3: Lần lượt chấp nhận và thực hiện các bước như sau: chọn I Agree / Install / đợi cho chương trình cài đặt thực hiện xong, nhấn chọn tiếp Close để hoàn tất quá trình cài đặt

    4. Hướng dẫn sử dụng

    1. Tạo Project

    Khởi động chương trình ScanTailor, tạo một project mới
    01.png

    Bấm vào New Project
    Chương trình ScanTailor xử lý ảnh theo lô. Mỗi một project bao gồm một lô ảnh đầu vào nằm trong một thư mục. Trong hộp thoại tạo project mới, phần Input Directory chọn thư mục chứa ảnh quét, phần Output Directory chọn thư mục anh(chị ) muốn xuất ảnh sau xử lý.
    02.png
    Giao diện làm việc chương trình gồm có 3 vùng chính:
    03.png
    • Vùng 1: Thanh trình đơn tác vụ: bao gồm các chức năng được sắp xếp theo thứ tự xử lý. Khi xử lý một proccess người dùng lần lượt xử lý qua các tác vụ này. Bên tay phải trên trình đơn là nút bấm Batch proccess cho phép người dùng xử lý tự động tác vụ trên toàn bộ các ảnh scan trong một project. upload_2015-11-13_15-10-42.png
    • Vùng 2: Cửa sổ hiển thị ảnh đang được chọn xử lý tại thời điểm hiện tại.
    • Vùng 3: Cửa sổ hiển thị các ảnh trong project.
    2. Quá trình xử lý tuần tự theo 6 bước:
    • Bước 1: Fix Orientation – Điều chỉnh lại hướng trang
    Đây là bước kiểm tra ảnh cần xử lý sau khi Import vào chương trình, bởi trong quá trình quét ảnh, có thể có những trang bị lộn ngược, hoặc ảnh không đúng với chiều đọc thông thường.

    Trong bước này, người xử lý cần kiểm tra từ đầu đến cuối tất cả các trang để đảm bảo rằng không trang nào bị lộn ngược hoặc xoay ngang/dọc không đúng với chiều đọc trang sách thông thường, và việc kiểm soát này phải kiểmsoát bằng mắt thường, do chương trình không tự động hiểu được đâu là trang không đúng. Để thực hiện việc điều hướng lại trang, có thể chọn từng trang một và nhấn chọn các biểu tượng trong phần Rotate cho đúng yêu cầu của mình, có thể chọn nhiều ảnh cùng một lúc bằng cách nhấn giữ phím Ctrl + trang cần chọn.Vì đây là bước kiểm soát tốn khá nhiều thời gian, do vậy ngay trong quá trình quét ảnh, hoặc sau quá trình quét ảnh cần kiểm soát chặt chẽ việc này thì khi đưa vào chương trình ScanTailor có thể bỏ qua bước này và thực hiện ngay bước tiếp theo là bước Split Pages (tách trang)
    05.png
    Chọn ảnh cần chỉnh hướng

    Sử dụng công cụ Rotate để quay đúng hướng Công đoạn này có thể thực hiện hàng loạt bằng cách bấm vào nút Batch Process chọn All pages để áp dụng cho các trang đang được xử lý.
    • Bước 2: Split Pages – Tách trang
    Đây là một tính năng rất hay của chương trình, ScanTailor tự động xác định được trang đôi hay trang đơn, và có khả năng nhận dạng rất tốt đường viền phân trang, tính năng này đã khắc phục được tình trạng cắt trang thủ công trước đây, điều này thường chỉ có ở những phần mềm thương mại khá đắt tiền mới có. Đây là tính năng hoàn toàn tự động, cắt một lượt tất cả các trang, tuy nhiên, đối với các tài liệu phức tạp, có nhiều khung, bảng hoặc trang đặc biệt... thì cần kiểm tra và điều chỉnh lại các trang đó bằng tay, dù vậy công việc này cũng khá dễ dàng, nhanh chóng.
    [​IMG]
    • Bước 3: Deskew – Xử lý ảnh nghiêng
    Chức năng này xử lý những ảnh được quét đúng chiều nhưng nội dung của ảnh bị nghiêng (skew). So với trục thẳng đứng, ScanTailor cho phép quay nội dung ảnh về đúng với thẳng đứng một cách tự động toàn bộ bằng cách nhấn vào nút (Batch Proccess) trên trình đơn Deskew. Đồng thời ScanTailor cũng cho phép người dùng cân chỉnh ảnh bằng tayrất trực quan và dễ dàng bằng cách bấm và giữ chuột trái vào một trong hai điểm đánh dấu vòng tròn phân giữa trang và xoay theo ý của mình.
    [​IMG]
    • Bước 4: Select Content - Chọn vùng nội dung
    Một trong những tính năng quan trọng và cực kỳ hiệu quả của ScanTailor là tự động nhận dạng được vùng nội dung của trang sách, tính năng này giúp nhận diện, gợi ý vùng nội dung sẽ được lấy, hỗ trợ phần xác định lề, tái tạo lại trang ở phần sau. Vùng được gợi ý này thường có màu xanh để phân biệt với vùng lề, thường là màu trắng hoặc khác với màu chữ. Công việc này là hoàn toàn tự động cho tất cả các trang, tuy nhiên nếu máy không nhận dạng đúng vùng nội dung, anh (chị) hoàn toàn có thể điều chỉnh lại bằng cách đưa con trỏ chuột vào đường biên của vùng màu xanh, khi con trỏ chuột xuất hiện mũi tên hai chiều, nhấn giữ chuột trái và kéo đến vị trí cần lấy. Trong một số trường hợp, chương trình có thể nhận sai vùng nội dung, anh (chị) có thể xóa bỏ vùng đó bằng cách nhấn chuột phải vào vùng đó và chọn lại.
    [​IMG]
    • Bước 5: Margins – Chỉnh lề
    Ở khâu này chúng ta cần xác định lề trên/dưới/trái /phải/cần lấybằng cách điều chỉnh thông số vùng margins vùng sẽ được thêm vào khi quá trình Output thực hiện (sản phẩm đầu ra) cũng giống như Select Content phần lề được đánh dấu màu xanh. Đây là tính năng rất hay cho phép tái tạo lại trang theo yêu cầu của anh(chị) Tính năng này hiệu quả hơn nếu chúng ta xuất dữ liệu ở chế độ đen trắng ( black and white)
    • Lề cứng: Là khoảng giữa hai vùng có đường viền vạch liền, đường viền này sẽ cố định giữ nguyên khi trang được xuất ra.
    • Lề mềm: Là khoảng giữa hai vùng có đường viền liền nhau và đường viền vạch đứt, đường viền này sẽ được thêm vào trang khi được xuất ra.
    [​IMG]
    • Bước 6: Output - Xuất dữ liệu đầu ra
    Công đoạn cuối cùng là xuất dữ liệu đầu ra, chất lượng của giai đoạn này phụ thuộc vào các công đoạn trước đó, khẳng định đầu ra có phù hợp với yêu cầu của anh (chị) hay không.

    Kết quả của công đoạn này được xuất hiện ngay trên màn hình hiển thị khung giữa chương trình, đồng thời nó được lưu ngay vào máy tính của anh (chị) trong thư mục OUT là thư mục con của thư mục chứa tệp mà anh(chị ) đã scan.

    Không giống như các công đoạn khác, công đoạn này yêu cầu anh (chị) phải thực hiện hoàn chỉnh từ trang đầu đến trang cuối, khâu "Lựa chọn nội dung - Select Content" và khâu "Căn lề - Margins". Điều này đảm bảo tính đồng nhất trên tất cả các trang trong một cuốn sách.

    Trong công đoạn này anh(chị ) cần xác định chế độ (mode) đầu ra cho sản phẩm cuối cùng của mình, mặc định chương trình để chế độ Đen-Trắng (Black and White), anh(chị ) có thể chuyển chế độ Màu/xám (Color/Grayscale) hoặc chế độ Hỗn hợp (Mixed) nếu muốn.

    + Chế độ Đen-Trắng (Black and White): Nếu cuốn sách hoặc trang sách của anh (chị) không chứa ảnh, đồ thị, đồ họa hình vẽ có phân biệt màu sắc, anh,chị nên chọn dầu ra cho sản phẩm của mình là Đen-Trắng.

    + Chế độ Màu/Xám (Color/Grayscale): Nếu yêu cầu của anh(chị ) bắt buộc phải ở chế độ Màu hoặc Xám thì lựa chọn này phù hợp với anh(chị ), tuy nhiên trong quá trình điều chỉnh lề (margins), anh(chị ) phải quyết định chính xác lề mềmlề cứng. Theo kinh nghiệm chúng ta không nên chọn lề mềm trong trường hợp này vì lề mềm sẽ thêm vào trang một vùng mà vùng đó là màu trắng, do đó trang sẽ không đẹp và có thể phải cắt bỏ nó.

    + Chế độ hỗn hợp (Mixed): Trong trường hợp nếu trang sách của anh (chị) có chứa ảnh, đồ họa, hình vẽ... mà anh(chị ) cần giữ các dạng đó nguyên bản là chế độ màu hoặc xám, còn lại dạng chữ là chế độ đen-trắng, thì anh(chị ) chọn chế độ này. Đây là tính năng rất hay và hiệu quả. Về độ phân giải, mặc định chương trình là 600dpi, nhưng tùy theo yêu cầu, anh (chị) có thể thay đổi cho phù hợp.

    Ngoài ra trong bước cuối cùng này chương trình còn tích hợp cho chúng ta các công cụ hữu ích rất hay đó là: Picture Zone (giữ lại vùng ảnh màu được chọn); Despeckling (loại bỏ các nhiễu bẩn trên ảnh); Fill Zone (xóa bỏ các vùng trong ảnh bằng tay); dewarping (xử lý ảnh công vênh). “Phần này sẽ hướng dẫn cụ thể ở phần thực hành”.

    5. Một số lưu ý khi sử dụng phần mềm

    Chương trình chỉ xuất dữ liệu ra theo định dạng tiff, ở các chế độ: Đen-Trắng (black and white) nén với chuẩn TifG4Fax, còn đối với chế độ Màu/xám (Color/Gray) và chế độ hỗn hợp (Mixed) nén với chuẩn LZW, cả hai chuẩn G4Fax và LZW đều là chuẩn nén không giảm chất lượng. Từ định dạng tiff này, anh (chi) có thể chuyển sang PDF, hoặc tạo ebook một cách dễ dàng, nhanh chóng. Phần lớn các công đoạn anh (chị) có thể sử dụng tính năng áp dụng cho toàn bộ các trang hoặc chỉ riêng trang anh (chị) đang chọn bằng cách lựa chọn trong phần - Apply to...(Chỉ trang này - This page only hoặc Toàn bộ các trang - All pages)

    6. Kết luận

    Đây là phần mềm miễn phí tốt nhất, phù hợp nhất trong việc xử lý ảnh số sau scan, đáp ứng đầy đủ các yêu cầu cần có trong một phần mềm duy nhất, trong khi trước đây để xử lý các file ảnh sau số hóa phải cần rất nhiều phần mềm khác nhau để xử lý cho từng công đoạn.

    Trong điều kiện kinh tế khó khăn, các đơn vị không có nhiều kinh phí cho đầu tư phần mềm, nhân viên không có nhiều kinh nghiệm, kỹ thuật cao, chỉ cần sử dụng các máy scan thông thường, hoặc máy ảnh kỹ thuật số là đã có thể số hóa tài liệu, đáp ứng nhu cầu một cách hợp lý nhất.

    Biên soạn

    Nguyễn Văn Cư
     
    Chỉnh sửa cuối: 13/11/15
    Hoàng Lão Tà and tranhai74 like this.
  5. 4DHN

    4DHN --------- Thành viên BQT

    Copy rồi, nhưng nó có hơn 20 hình minh họa. Xóa bớt đi thì tiếc nên anh tạm để thế. :D
     
    Rafa thích bài này.
  6. lotus

    lotus Lớp 3

    Cho mình hỏi ngoài lề chút, vậy có 2 trang đơn làm cách nào để ghép lại thành 1 trang đôi?
    Xin cám ơn!
     
  7. teacher.anh

    teacher.anh Rùa lười

    Tại sao bạn @lotus cần ghép hai trang lại? Vì khi scan nếu không chọn tách trang thì sẽ luôn là 1 trang đôi mà.
     
  8. lotus

    lotus Lớp 3

    Nhiều khi mình scan sách của con, sách hình trẻ em khổ lớn 1 lần scan không được hết 2 trang, tách từng trang để scan thì bị "mất hình" :D.
     
    Rafa thích bài này.
  9. Rafa

    Rafa SV

    Chụp hình.{:sup:}
     
    lotus thích bài này.
  10. teacher.anh

    teacher.anh Rùa lười

    Kinh nghiệm của mình trong trường hợp này là sử dụng phần mềm CamScanner, đây là ứng dụng hỗ trợ chạy trên cả 3 hệ điều hành phổ biến: OS, Android, WP. Bạn có thể dùng để scan, chụp sách khổ lớn bằng chính điện thoại đang dùng, hình luôn có thể điều chỉnh để lấy được hết khổ của trang sách. Bạn thử dùng ứng dụng này xem, cần hỗ trợ thêm thì cứ hỏi nhé.
     
    lichan and lotus like this.
  11. lotus

    lotus Lớp 3

    Cám ơn @teacher.anh, để mình thử. Cuốn Những cậu con trai phố Pan bạn chụp "bằng" phần mềm đó phải không? nhìn y như scan bằng máy :D.
     
    teacher.anh thích bài này.
  12. teacher.anh

    teacher.anh Rùa lười

    Bạn thật tinh ý, :) vì là xài miễn phí nên bị dính dòng chữ quảng cáo :p. Khi xài ứng dụng này, khi upload lên các đám mây lưu trữ, bạn có thể chọn lưu dạng file ảnh, dung lượng tương đương PDF, file cho chất lượng tốt nhất mà không bị dính quảng cáo.
     
    lotus thích bài này.
  13. trungvt91

    trungvt91 Mầm non

    Các bác cho em hỏi một chút. Em dùng phần mềm này thấy rất ổn, chỉ có một điều sau khi thêm ảnh nó bắt Fix DPIs. File ảnh sau khi chỉnh sửa chất lượng kém hơn rất nhiều so với ảnh gốc (hơi nhòa). Bác nào có kinh nghiệm chỉ giúp em làm sao để chất lượng ảnh không thay đổi. Em cảm ơn.
     
  14. tran ngoc anh

    tran ngoc anh Sinh viên năm IV

    Chắc bạn bỏ sót bước nào ùi, ảnh đích vừa trắng lại vừa rõ nữa, với lại chắc bạn chưa chọn dpi khi xuất quá, nó bắt Fix DPIs là để ảnh nguồn đạt yêu cầu và đồng bộ về kích cở thôi!
     
    trungvt91 thích bài này.
  15. trungvt91

    trungvt91 Mầm non

    Theo bác thì nên để DPIs là bao nhiêu để lên ảnh không bị nhòe ạ.
     
  16. tran ngoc anh

    tran ngoc anh Sinh viên năm IV

    Mình không biết quá trình của bạn xử lý làm sao, nhưng nếu đúng thì bao nhiêu cũng rõ hết nếu trong khoảng 150-300, cao quá chỉ để đem đi in chứ không thì phí lắm. folder output nằm ngay bên trong thư mục mà bạn add ảnh nguồn.
     
    trungvt91 thích bài này.
  17. trungvt91

    trungvt91 Mầm non

    Vâng, đúng là vẫn đọc được. Nhưng bác cứ tưởng tượng dùng nó tạo pdf thì phải zoom lên 200- 300% mới đọc được. Em copy vào máy kindle thì nó lọt hỏn, bé xíu ở giữa màn hình.
     
  18. tran ngoc anh

    tran ngoc anh Sinh viên năm IV

    Vậy chắc sai rồi bạn ơi. Mình chỉ để 100 thôi cũng to đùng ra rồi.
     
  19. tran ngoc anh

    tran ngoc anh Sinh viên năm IV

     
    trungvt91 thích bài này.
  20. trungvt91

    trungvt91 Mầm non

    Cảm ơn bác. Em sẽ thử lại.
     

Chia sẻ trang này