Hướng dẫn Số hóa tài liệu scan, ảnh chụp và PDF bằng ABBYY FineReader 12 - Nhanh mà hiệu quả!

Thảo luận trong 'Hướng dẫn chung' bắt đầu bởi MoVo, 26/7/14.

  1. MoVo

    MoVo Lớp 5

    >>Giới thiệu, đánh giá và link tải phần mềm xin xem Vui lòng đăng nhập hoặc đăng ký để xem link.

    Để cho bố cục được dễ nhìn và thuận tiện hơn trong việc tìm kiếm, tôi đã chia bài hướng dẫn ra làm 2 post:

    - Post #1: hướng dẫn cơ bản về cách sử dụng chương trình và giải thích một số chức năng cần thiết nhất định.
    - Post #2: đưa ra một vài kinh nghiệm – thủ thuật sử dụng chương trình như “dạy học” cho chương trình các chữ khó nhận biết, các chữ “đặc biệt” để giúp cải thiện độ chính xác của tiến trình xử lý nhận diện văn bản; hoặc khắc phục một số lỗi thường gặp của quá trình xử lý nhận diện văn bản.

    Trước khi đi vào hướng dẫn, ta hãy xem qua giao diện làm việc của chương trình để có được cái hình dung bao quát:

    7-23-2014 3-50-17 pm_960.jpg
    (Giao diện làm việc của FineReader sau khi đã đưa vào xử lý các tài liệu từ ảnh chụp, máy scan hoặc PDF)
    “Nguyên liệu đầu vào” cần chuẩn bị:
    - Tài liệu từ máy scan (tối thiểu 300dpi); hoặc
    - Tài liệu từ ảnh chụp (nên từ 5MP; chữ càng nét, càng dễ đọc thì càng tốt); hoặc
    - Tài liệu PDF (tiêu chí như các loại tài liệu trên).
    --> Để tiện trong việc thực hành, các bạn có thể tải các ảnh chụp sau đây của 3 trang trong chương XV của truyện Jên Erơ: Vui lòng đăng nhập hoặc đăng ký để xem link
    (Ghi chú: Các ảnh này được chụp bằng điện thoại Galaxy S4, độ phân giải ảnh 9MP và có để Flash)


    HƯỚNG DẪN
    Bước 1: TÙY CHỈNH CẤU HÌNH CƠ BẢN (CHỈ CẦN LÀM 1 LẦN)

    a, Sau khi khởi chạy chương trình, hãy nhấp chuột vào mục “Options” và thực hiện các tùy chỉnh như hình dưới:
    7-23-2014 3-18-29 pm_.jpg
    (Lưu ý: Nếu là tài liệu có màu thì chọn “Full color” (dưới mục “Color mode”), còn không thì chọn “Black and white” để giúp tiến trình xử lý được nhanh hơn)

    b, Nhấp “OK”.


    Bước 2: XỬ LÝ TÀI LIỆU

    a, Đưa tài liệu vào chương trình để xứ lý:
    Nhấp nút "Open" (biểu tượng btn_Open_.jpg ) -> chọn tất cả các file của tài liệu cần xử lý -> nhấp nút “Open” -> sau đó chỉ việc chờ cho chương trình tự động xử lý việc nhận diện văn bản.

    b, Chỉnh sửa văn bản đã “thành phẩm”:
    Sau khi quá trình xử lý nhận diện văn bản kết thúc, chương trình sẽ xuất hiện giao diện làm việc như sau:
    7-23-2014 3-50-17 pm_960.jpg
    • Khung 1: thay đổi, xác lập lại hoặc chỉ định khu vực nào là văn bản đơn thuần, hoặc khu vực nào là “hình ảnh”. Sau khi xác lập xong thì nhấp nút “Read Page” để chương trình tiến hành xử lý nhận diện lại trang tài liệu đó.
      --> Lưu ý: Các chức năng của từng công cụ trong khung này được trình bày ở cuối post.
    • Khung 2: chứa văn bản đã được "nhận diện", có thể soạn thảo và chỉnh sửa trực tiếp nội dung văn bản tại đây.
      --> Lưu ý: đặt con trỏ trước một chữ bất kỳ trong khung 2 thì lập tức khung 3 sẽ định vị ngay chữ tương ứng trong văn bản gốc để đối chiếu.
    • Khung 3: chứa tài liệu gốc ở dạng ảnh phóng lớn và chưa được xử lý; dùng để đối chiếu với văn bản đã được xử lý và nhận diện ở khung 2.
    Bước 3: LƯU/XUẤT VĂN BẢN ĐÃ XỬ LÝ

    - Sau khi thực hiện hết mọi chỉnh sửa, lúc này ta đã có thể trực tiếp xuất thẳng tất cả các văn bản đã được xử lý vào chương trình Microsoft Word để thực hiện các sửa đổi và bổ sung khác (như bố cục, mục lục,…), bằng cách nhấp vào nút “Send” (biểu tượng btn_Send_.jpg ).

    - Nếu đang làm dở công việc chỉnh sửa nội dung, bạn muốn tạm gác lại hoặc muốn nhờ người khác làm giúp tiếp phần còn đang dở, thì có thể lưu lại tài liệu đang làm việc bằng cách vào Menu File -> Save FineReader Document… -> nhấp nút "Save".

    (Lưu ý: Lúc này ta đã có thể xóa hết các tài liệu gốc vì bản thân trong tài liệu làm việc của FineReader mà ta vừa mới lưu đã bao gồm hết cả các tài liệu gốc đó rồi, với dung lượng nhỏ hơn rất nhiều, vì chương trình đã tối giản hết các tài liệu đó theo định dạng riêng của chương trình. Thật thuận tiện để gửi cho ai đó giúp đỡ làm tiếp công việc của mình!)

    *Giải thích các chức năng của một số công cụ hay dùng ở khung 1:
    btn_txt.jpg Xác lập khu vực văn bản cần nhận diện.
    btn_pic.jpg Xác lập khu vực hình ảnh cần nhận diện.
    btn_bg.jpg Xác lập khu vực hình ảnh nền (background) cần nhận diện.
    btn_tbl.jpg Xác lập khu vực bảng biểu (table) nền cần nhận diện.
    btn_del.jpg Xóa khu vực nhận diện.
    btn_ord.jpg Xác lập thứ tự các khu vực.

    -->Lưu ý: Đối với 4 công cụ đầu tiên vừa đề cập, có thể bấm giữ nút Shift hoặc Alt để bổ sung hoặc loại bớt một phần nào đó của một khu vực nhận diện.
     
    Chỉnh sửa cuối: 5/8/14
  2. MoVo

    MoVo Lớp 5

    MỘT SỐ THỦ THUẬT SỬ DỤNG
    VÀ CÁCH GIẢI QUYẾT MỘT VÀI LỖI THƯỜNG GẶP

    I. Cải thiện độ chính xác của tiến trình xử lý nhận diện văn bản bằng cách “dạy học” cho chương trình
    Đây là một tính năng khá hữu ích của FineReader giúp cải thiện đáng kể độ chính xác của tiến trình nhận diện văn bản. Tuy nhiên, khi sử dụng chức năng này, cần lưu ý là mỗi một tài liệu sẽ có kích cỡ và kiểu chữ khác nhau, nên sẽ không thể áp dụng cùng một “mẫu” cho các tài liệu khác nhau. Vì vậy, mỗi khi thực hiện số hóa một tài liệu nào đó khác, bạn sẽ cần phải “dạy lại” cho chương trình.

    Bước 1: KÍCH HOẠT TÍNH NĂNG “DẠY HỌC”

    a, Khởi động FineReader -> nhấp nút “Options” -> chọn tab “Read” -> trong mục “Training” tùy chỉnh như hình dưới:

    7-23-2014 3-16-01 pm_training.jpg

    - Đối với tùy chọn “Read with training” thì chương trình sẽ yêu cầu người sử dụng thực hiện việc dạy ngay trong quá trình chương trình xử lý nhận diện văn bản. Sau này nếu cảm thấy chương trình đã "học" đủ thì có thể bỏ chọn tùy chọn này để ngăn thông báo yêu cầu dạy học mỗi khi xử lý nhận diện.

    b, Nhấp “OK”.

    Bước 2: TIẾN HÀNH “DẠY HỌC”

    Nhấp “Open” để đưa tài liệu vào xử lý, ngay khi tiến trình xử lý nhận diện bắt đầu thì chương trình sẽ xuất hiện cửa sổ như sau:

    7-23-2014 3-27-53 pm.jpg

    Quá trình dạy học sẽ được tiến hành với từng chữ một mà chương trình cho là khó nhận diện hoặc “đặc biệt”. Chữ nào mà chương trình nhận diện sai thì ta sẽ sửa lại cho nó bằng cách gõ lại chữ đó ở trong ô “Enter the character…” rồi nhấn nút “Train”. Nếu chữ nào mà chương trình đã nhận diện đúng rồi thì hãy nhấn nút “Skip” để bỏ qua.
    *Khuyến cáo:
    • Chỉ nên sửa những chữ nào mà mắt người có thể đọc được trên văn bản gốc, tức là các chữ có thể nhìn rất rõ và không thể nào nhầm lẫn với chữ khác được (thông thường do chất lượng kém). Nếu có chữ nào mà bản thân ta còn khó đọc thì tốt nhất là nên bấm “Skip”.
    • Việc dạy học sẽ được thực hiện trên từng trang của tài liệu, khi nào bạn cảm thấy chương trình đã học đủ rồi (tức là không còn chữ nào khó nhận diện hoặc thuộc kiểu “đặc biệt”) thì có thể bấm “Close” để chương trình bắt đầu xử lý việc nhận diện dựa trên những gì vừa được dạy.
    Bước 3: LƯU LẠI MẪU (PATTERNS) ĐỂ SỬ DỤNG CHO LẦN SAU (KHÔNG BẮT BUỘC)
    Một “mẫu” (patterns) chính là tất cả những gì ta đã dạy cho chương trình đối với một tài liệu cụ thể. Việc lưu lại mẫu này sẽ giúp ta giảm thiểu được thời gian phải dạy lại cho chương trình mỗi khi làm việc với các phần khác nhau trên cùng một tài liệu. Giả sử một tài liệu có nhiều mục, khi ta dạy xong cho 1 mục nào đó thì có thể lấy "mẫu" của mục này để áp dụng đối với các mục khác còn lại. Chương trình sẽ sử dụng mẫu được lưu này để áp dụng đối với các mục đó.

    a, Sau khi nhấp nút “Close” để kết thúc quá trình dạy học -> nhấp “Options” -> vào tab “Read” -> nhấp nút “Save to File…” để lưu lại file mẫu:

    7-23-2014 3-16-01 pm_patterns.jpg

    b, Như vậy là ta đã lưu xong file mẫu của tài liệu. Muốn sử dụng lại file này thì trước khi bạn mở lại tài liệu, chỉ việc vào Options rồi chạy lại file đó bằng nút “Load from File…” là được.

    ~~~~~____~~~~~​

    II. Một số lỗi thường gặp và cách khắc phục

    1, Lỗi ngắt đoạn rời rạc khi xuất văn bản vào Microsoft Word.

    Đối với các đoạn văn bản mà chưa hết doạn và bị sang trang nửa chừng ở trong tài liệu gốc thì chương trình sẽ khó nhận biết được, nên khi xuất vào Microsoft Word thì sẽ có những đoạn văn bản bị xuống dòng một cách nửa chừng và rời rạc. Vì vậy cách tốt nhất là sử dụng lệnh "Find/Replace" để tìm đến các đoạn đó và chỉnh sửa một cách thủ công. :p

    (Sẽ cập nhật tiếp nếu bắt gặp lỗi khác)
     
    Chỉnh sửa cuối: 5/8/14
    rito_1522, Heoconmtv, Rafa and 10 others like this.
  3. MoVo

    MoVo Lớp 5

    Cập nhật thêm nội dung cho post 2!

    Nếu có chỗ nào khó hiểu hoặc cần được cải thiện thêm thì các bạn cứ thẳng thắn góp ý nhé!
     
  4. hanhdb

    hanhdb Sinh viên năm I

    cảm ơn movo vì bài viết cực kỳ chi tiết, minh họa rõ ràng. Cũng khá đủ rồi, chỉ xin ghóp ý bổ sung thêm 2 ý:
    - nhận dạng bằng Screenshort reader: đây là tính năng cực hay của abby vì đôi khi ảnh không đủ độ phân giải ta phải phóng to góc nhìn, dùng tính năng này nhận dạng sẽ cho kết quả tốt hơn.
    - một số ảnh scan, hoặc từ pdf là chế độ màu rgb thì nên chuyển sang chế độ đen trắng black - white sẽ ocr tốt hơn
     
    teacher.anh, Rafa, tducchau and 2 others like this.
  5. viettran_ru

    viettran_ru Lớp 3

    Cảm ơn bạn MOVO,tài liệu này bạn số hóa luôn để lưu trữ thì hay quá!
     
    MoVo thích bài này.
  6. MoVo

    MoVo Lớp 5

    Xin chân thành cảm ơn bạn @hanhdb và bạn @viettran_ru đã ủng hộ và góp ý.:D

    Về ý kiến của bạn @viettran_ru thì mình chưa hiểu lắm, ý bạn có phải là lưu bài hướng dẫn lại thành file cụ thể như Word hay PDF, hay là số hóa sách Jên Erơ được lấy làm ví dụ ở trong bài?
     
  7. khiconmtv

    khiconmtv Sinh viên năm IV

    votanhau, Heoconmtv, Rafa and 2 others like this.
  8. 4DHN

    4DHN --------- Thành viên BQT

    Dùng lệnh Find and Replace
    Find: ^p^p (chữ p thường)
    Replace: ^p
    Mỗi cái ^p tương đương một cái xuống dòng, lặp lại lệnh cho đến khi hết.
     
  9. Rafa

    Rafa SV

    Có bạn nào biết cái này không?
    Input: n files
    Output: n files
     
    tducchau and Heoconmtv like this.
  10. Ngọc Sơn

    Ngọc Sơn Lớp 7

    Mình cũng có dùng phần mềm này lâu nay rồi, rất hay!!!
     
  11. tducchau

    tducchau "Nhặt lá..." Thành viên BQT

    Việt dịch, có nghĩa là phần mềm ABBYY có thể nhận OCR cùng lúc tới n tài liệu gốc (hình ảnh, PDF,...; Phiên bản có bản quyền, và càng mới càng được mở rộng cho số lượng tài liệu nhiều thêm... mà vẫn OCR 'ngọt ngào' (ví dụ: ABBYY FineReader 12 Corporate, có thể không hạn chế số lượng tài liệu đầu vào_miễn là máy Bạn còn có thể 'chịu đựng & lết' nổi! :D!)). Và, có thể xuất ra tới n tài liệu đích theo chuẩn định dạng mà người dùng đã chọn lựa... :p!
    :Rotmat4:
     
    teacher.anh, Ngọc Sơn and Rafa like this.
  12. Rafa

    Rafa SV

    Dạ anh chỉ em cách xuất ra n tài liệu đích được không ạ?
    Cảm ơn anh!:fish:
     
    teacher.anh and tducchau like this.
  13. 4DHN

    4DHN --------- Thành viên BQT

    Chạy OCR file lớn quá (nhiều file, nhiều trang) là rất mệt mỏi, sốt ruột. Trong các công đoạn làm eBook thì khâu OCR là khâu nhàn, khâu sửa lỗi mới là khâu vát vả nhất cơ. Vậy nên việc chạy n file không có nhiều ý nghĩa. :D
     
  14. Rafa

    Rafa SV

    Có ý nghĩa đó anh.
    Đây là một vấn đề em đang gặp phải khi triển khai các dự án trên Wiki. Vấn đề như thế này: để triển khai một dự án (ví dụ: 1 file pdf, 1000 trang, chia mỗi gói 10 trang được 100 gói (100 file pdf)). Làm sao để OCR 100 file pdf đó và xuất ra 100 file Word với tên file tương ứng. Mặc định, ABBYY cho phép chọn nhập cùng lúc nhiều file, nhưng xuất ra thì nó kết hợp nhiều file lại thành một file.
    Tất nhiên chúng ta có thể OCR cả file pdf 1000 trang xong rồi chia gói. Nhưng điều này sẽ gặp vấn đề là: mỗi gói 10 trang file pdf và mỗi gói 10 trang file Word sẽ không giống nhau. Dẫn đến các bạn soát lỗi sẽ gặp khó khăn khi tìm đúng số trang trong file pdf.
     
    teacher.anh and tducchau like this.
  15. tducchau

    tducchau "Nhặt lá..." Thành viên BQT

    :)! Nà Chàng... (Vui lòng xem hình...):

    upload_2015-9-17_14-39-25.png

    Ở Ví dụ trên, nếu mình cần xuất (đích) ra khuôn dạng .docx từ 8 tập tin nguồn... thì chọn 'Convert into Microsoft Word Document'; Rồi, café 888... 'Chờ và Đợi' ABBYY 'chạy' ra thôi... :)!
    Thân mến! _ (tdc).
    À, bổ sung thêm ý trên của Chàng, để tránh trường hợp ABBYY 'tài lanh' tự ghép các tệp lại, thì yêu cầu tiên quyết: các Tên tệp nguồn phải khác nhau, và khi 'nó' hỏi có cần 'gộp' toàn bộ lại không, thì dứt khoát từ chối, 'một lần và mãi mãi'! :D!
     
    Chỉnh sửa cuối: 17/9/15
  16. Rafa

    Rafa SV

    Bản portable không có cho chọn kiểu này anh ơi.{:gag:}
     
    teacher.anh and tducchau like this.
  17. tducchau

    tducchau "Nhặt lá..." Thành viên BQT

    Link bản chuẩn, no key, sử dụng cộng đồng... nà:
    Vui lòng đăng nhập hoặc đăng ký để xem link
    Vô Thư mục 'PhanMemEbook
    Vui lòng đăng nhập hoặc đăng ký để xem link
    Tải tệp cài đặt ABBYY FineReader 12 Corporate dzìa
    Vui lòng đăng nhập hoặc đăng ký để xem link
    &, cài đặt... café + 888 chút... Thế là xong! :)!
     

Chia sẻ trang này