Hướng dẫn Chia sẻ kinh nghiệm OCR hiệu quả hơn cùng Abbyy FineReader 12

Thảo luận trong 'Hướng dẫn chung' bắt đầu bởi maxiqboy, 27/4/17.

  1. maxiqboy

    maxiqboy Lớp 6

    Update 30/11 :

    Link ảnh nhiều cái đã bị mất nên các bạn vô đây đọc lại bản cache :


    hoặc tải file pdf này để đọc : Vui lòng đăng nhập hoặc đăng ký để xem link


    --------------------------------------------------------------------


    OCR là một trong những công việc khởi đầu cho một dự án ebook hóa sách giấy.

    Thợ OCR có tâm bao nhiêu thì thợ soát lỗi chính tả sẽ đỡ vất vả bấy nhiêu.

    Tuy em mới là lính mới trong làng nghề, dự án qua tay chưa được cái nào hoàn chỉnh, là hạng vắt mũi chưa sạch,
    nhưng em mạn phép lập topic chuyên về OCR này, với mong muốn trước hết sẽ giúp cho các bạn mới sẽ có dịp tiếp cận với quy trình một dự án OCR cụ thể, học hỏi được một vài thủ thuật nhỏ của em để cho việc OCR sẽ nhanh gọn mượt mà hơn.

    Hơn nữa em cũng mong topic này sẽ là một địa chỉ để cho các bác thợ cả OCR trong diễn đàn có thể cùng chia sẻ về các thủ thuật, các mẹo và cả những buồn vui trong quá trình OCR 1 tác phẩm.

    Rất mong nhận được sự ủng hộ của mọi người ạ !

    I : Phần chuẩn bị

    1 Phần mềm :

    Ở đây em sử dụng ABBYY FineReader 12 Pro - 1 trong những lá cờ đầu của ngành OCR.

    Phần mềm đã hỗ trợ tiếng Việt, các bác cần tải tham khảo topic Vui lòng đăng nhập hoặc đăng ký để xem link:

    EM đang sử dụng phiên bản này :
    ABBYY FineReader Professional 12.0.101.496 Multilingual Portable
    Download: Vui lòng đăng nhập hoặc đăng ký để xem link

    Cảm ơn bác @khiconmtv đã đóng góp ạ - chúc bác sớm thành khỉ chúa của kênh truyền hình ca nhạc MTV :D

    2 Tinh chỉnh phần mềm trước khi sử dụng,

    Để sử dụng phần mềm được tối ưu, chúng ta cần tinh chỉnh một chút,

    Các bác tải về, chạy Abbyy bình thường.

    Ở lần đầu tiên thì giao diện không phải tiếng Anh hay tiếng Việt nên là phải tinh chỉnh 1 xíu như sau :
    [​IMG]

    Chương trình hỗ trợ cả tiếng Việt, phù hợp cho ai mới sử dụng máy tính sẽ không bỡ ngỡ.

    2.1 Tinh chỉnh Options.

    Các bác mở Options ra, Nút Option hình cái cờ lê trên thanh Toolbar
    ( phím tắt Ctrl + Shift + O )

    2.2 Mục Document
    Chọn ngôn ngữ file OCR ở đây, ở đây mình chọn Vietnamese cho văn bản tiếng mẹ đẻ.
    [​IMG]

    Chúng ta cũng có thể thay đổi giao diện phần mềm sang tiếng Việt hoàn toàn nếu thấy khó khăn với tiếng Anh ở tab Advance > Interface language.

    Nhưng trong bài viết này, em sẽ minh họa bằng giao diện tiếng Anh cho nó quen thuộc với mọi người hơn.

    2.3 Scan / Open

    Phần General, Các bác chọn mục thứ 2 như em đánh dấu.
    [​IMG]
    Đây là mục rất quan trọng, mong các bác chú ý !

    Tại sao lại vậy ?

    Khi thêm ảnh Scan vào Abbyy, chương trình mặc định sẽ chạy liền 3 thao tác :
    • Thao tác 1 : Tinh chỉnh sửa ảnh một chút ( tự động cắt ảnh, ngắt trang ... )

    • Thao tác 2 : Quét sơ bộ trang ảnh, cắt trang nếu cần thiết, và lên vị trí các khối để scan ( khối text, khối ảnh, khối Header, khối bảng biểu ... )

    • Thao tác 3 : Dựa trên kết quả sơ bộ của thao tác 1, phần mềm tiến hành Scan từ ảnh ra Text.

    Sự hấp tấp của Abbyy như vậy, về thành ý là cái tốt,
    nhưng nhiều khi, thao tác 1, Abbyy nhận diện khối sai tùm lum, dẫn đến sai hết kết quả OCR về sau,

    Kết quả sau khi Abbyy chạy tự động 3 bước OCR ra lung tung mình lại phải làm lại từ bước 1, và lại để Abbyy chạy bước 2, bước 3 thêm lần nữa.

    Rất tốn thời gian vô ích.

    Mình chọn mục thứ 3, tức là chỉ cho phép Abbyy chạy luôn thao tác 1 : Tự động cắt ảnh

    Sau đó mình sẽ thẩm định lại kết quả, chỉnh tay những chỗ quét khối sai sau.

    Sau đó mới cho Abbyy tiến hành chạy bước 2, 3 sau

    2.3 Mục Read
    [​IMG]

    Các bác chọn như hình giúp em,

    Phần Training - Huấn luyện là 1 tính năng rất hay của Abbyy,
    Giúp chúng ta thêm 1 tay huấn luyện để chương trình nhận diện chính xác hơn.

    Xong xuôi, các bác chọn OK

    3. Dọn dẹp giao diện
    Mặc định khung làm việc của Abbyy bị cắt nát bởi quá nhiều khung cửa sổ,

    Ta cần bỏ bớt các thành phần không thực sự cần thiết để cho không gian rộng rãi dễ đối chiếu hơn.

    3.1 : Tắt ô cửa sổ Zoom để tăng diện tích làm việc,

    Nếu cảm thấy khung Zoom bên dưới vướng víu và thừa thãi, thì các bác có thể vào View > Zoom Windows tắt nó đi,
    ( Ctrl + F5 )

    [​IMG]


    3.2 Tắt thanh Main Toolbar to đùng đi,

    Thanh Main Toolbar to đùng chiếm diện tích mà lại không cho ta bổ sung thêm nút chúng ta cần ( 2 nút ở trên là ở thanh Image nhỏ bên dưới )

    Ta có thể tắt phéng chúng đi để tăng diện tích làm việc,
    Chuột phải lên thanh Toolbar, > bỏ tích ở Main Toolbar
    [​IMG]


    3.3 Thêm các nút cần thiết vào Image Bar

    Như đã nói ở trên, chúng ta không cho Abbyy tự động chạy hết mọi công đoạn nữa, mà chỉ cho nó tinh chỉnh trước ảnh đầu vào thôi.

    Vì mặc định thanh công cụ không có những nút chúng ta cần,

    Nên chúng ta phải thêm tay vào:
    Chuột phải lên thanh Toolbar > Customize.
    [​IMG]

    • Mục Toolbar chọn Image

    • Tìm 2 mục : Read All Unrecognized Pages và Analyze Document ở cột trái
      bấm >> để thêm vào cột phải.
    [​IMG]

    Mục Categories > Chọn Image
    [​IMG]

    Tìm Edit Image ở cột trái >> sang cột phải

    Ấn OK


    Vậy là thanh Image Bar đã có đầy đủ công cụ chúng ta cần
    [​IMG]



    II. Bắt tay vào việc.

    1 Thêm ảnh - Tự động cắt ảnh

    Ấn File > Open PDF or PDF File ( Ctrl + O ) để thêm ảnh.

    Phần mềm sẽ tự động Cắt ảnh làm đôi ( khi chúng ta scan 2 trang cùng 1 lúc )

    Các bác soát ở khung bên trái xem tình hình phần mềm làm ăn cắt ảnh ra sao, có chuẩn xác không,

    Và như thường lệ, thường là Không :D
    [​IMG]

    2. Cắt ảnh thủ công
    Ta phải cắt tay những phần nào Abbyy không nhận ra, Ta click chọn Edit Image trên thanh công cụ.
    Giao diện chỉnh sửa ảnh hiện ra.
    [​IMG]
    Ta chọn Split, chọn đường cắt ảnh, và nhấn nút Split by line.

    Xong xuôi ta dò hết ở khung bên trái xem Abbyy nó còn cắt xót cái nào không.
    Nếu còn thì ta bấm chọn và thực hiện như trên.

    Khi xong xuôi, nhấn chọn Exit Image Editor để về giao diện chính.

    3. Quét khối ảnh.
    Trên thanh công cụ, nhấn Analyze Document ( Ctrl + Shift + E ) để Abbyy tiến hành nhận dạng khối của ảnh.

    [​IMG]

    Chờ đợi phần mềm tự động quét các khối ảnh và text trên file ảnh scan.

    Đây là một kết quả minh họa :
    [​IMG]



    4. Xử lý quét khối bằng tay
    Vì máy vẫn chỉ là máy nên chúng ta phải check tay từ đầu

    4.1 Xóa các trang trống
    [​IMG]

    4.2 Xóa các khối nhận diện sai
    [​IMG]

    4.3 Nhận diện sai title ảnh
    [​IMG]
    Khối Title ảnh này bị nhận diện cùng với khối Text, Chúng ta phải chính lại :

    Di chuột sát cạnh và kéo xuống như hình :
    [​IMG]

    Chúng ta có thể co kéo khối quét theo ý thích bằng cách di chuột vào cạnh hay góc của vùng chọn và kéo theo ý thích
    [​IMG]


    4.4 Thêm 1 khối text - ảnh :
    Bấm vào nút chữ A, sau đó quét khối chữ lên khối chữ chưa được nhận dạng
    [​IMG]

    Tương tự với Nút màu đỏ dưới chữ A là thêm 1 vùng chọn cho ảnh.
     
    Chỉnh sửa cuối: 30/11/18
  2. maxiqboy

    maxiqboy Lớp 6

    4.5 Hợp nhất các khối text,

    Trong quá trình quét khối, các bạn hãy ghi nhớ 1 điều :
    Càng ít khối càng tốt,
    Việc Abbyy nhận sai tùm lum các khối các nhau sẽ dễ dẫn đến hậu quả OCR sai nhầm lệch đoạn tùm lum về sau.

    Ví dụ như hình sau :
    [​IMG]

    ta cần thu nó về 1 khối duy nhất như sau :
    [​IMG]

    Để làm được điều đó, các bác đọc phần dưới đây :

    4.5.1 Mở rộng khối
    Hãy xóa hết các khối thừa đi, để lại khối to nhất thôi, sau đó hãy click lên khối text to nhất đó :
    [​IMG]
    chọn mục này để mở rộng text, trỏ chuột sẽ thêm dấu +

    sau đó, quét chọn lên vùng cần mở rộng

    [​IMG]
    và kết quả là :
    [​IMG]

    4.5.2 Thu hẹp khối,
    Trường hợp này, Vì Abbyy nhận diện cả Dropcap là 1 text
    ~~> dẫn đến sự sai lệch khi OCR
    Chúng ta cần phải xóa chỗ đó đi
    [​IMG]

    Tương tự như bước trên, ta click vào khối text cần chọn và :
    [​IMG]
    Trỏ chuột có thêm dấu -
    sau đó ta bôi chọn vùng cần xóa
    [​IMG]

    kết quả :
    [​IMG]

    4.6 Xóa Drop Cap phức tạp
    [​IMG]
    Với các DropCap hoa lá phức tạp mà Abbyy nhận diện là Ảnh ( khung màu đỏ)

    ~~> Tốt nhất là xóa đi và hậu kỳ sau cho gọn gàng !

    4.7 Soát kỹ và sửa các lỗi sai trước khi sang bước tiếp theo là để Abbyy tiến hành đọc

    5 Bắt đầu huấn luyện Abbyy

    Tại sao bước huấn luyện ( Training ) này quan trọng ?
    Ở 1 điều kiện lý tưởng
    ( File scan rõ nét sáng, giấy thẳng không cong cớn, font chữ to rõ ràng, file tiếng Anh ...)
    thì chúng ta cũng chả cần mó tay vào làm chi.

    Nhưng thực tế các cuốn sách OCR chất lượng file scan hay chụp thường không được tốt, tối, mờ, cong vẹo ( vì dày ) , file tiếng Việt với nhiều dấu mũ dấu hỏi bé tin hin...

    chính vì thế chúng ta cần đến Training để Abbyy nhận diện tốt hơn.


    Ta sẽ tiến hành đọc 1 ảnh trước, huấn luyện Abbyy để cho nó nắm vững hơn về các file ảnh của chúng ta, trước khi tự mình OCR hết các ảnh khác.

    Ấn vô nút này : ( Ctrl + R )

    [​IMG]

    5.1 Cửa sổ huấn luyện
    Sẽ xuất hiện như sau ( nếu không hiện ra thì xem lại ở phần tinh chỉnh phía trên ) :
    [​IMG]

    Abbyy sẽ hiển thị chữ mà nó băn khoăn, không chắc chắn, và nhiệm vụ của mình là huấn luyện cho nó,

    Các bạn chắc chắn chữ ở ô Enter the Character enclosed by the Frame là đúng với chữ ở màn hình trên rồi ấn Train ( hoặc Enter )

    Coi như đây là một màn luyện gõ phím đi :D

    Chú ý :
    • Phân biệt hoa thường nhé,
      nếu trên hình là chữ E mà bên dưới là chữ e là không được.
    • Nhiều chữ dấu ví dụ như ? hay \ / rất nhỏ, khó phân biệt là Abbyy nhận diện đúng ký tự chưa,
      tốt nhất là ta xóa chữ abbyy nhận diện được đi, và tự tay gõ chữ đúng vào ô đó !


    Có thể đoạn này hơi nhàm chán, nhưng chúng ta phải hiểu, càng huấn luyện nhiều thì Abbyy sẽ càng nhạy, càng giảm bớt gánh nặng trên đôi vai những người è cổ check chính tả về sau.

    5.2 Chỉnh lại những ký tự Abbyy nhận sai
    [​IMG]
    Sẽ có 1 vài ký tự Abbyy nhận nhầm như hình, khi đó, các bạn dùng 2 phím khoanh đỏ, hoặc lấy chuột di trực tiếp vào khung nhận diện màu xanh lá cây khi để cho Abbyy biết đâu là chữ đúng :
    [​IMG]

    Chúng ta nhận diện tầm 1/2 trang, đến khi nào mà bạn cảm thấy Abbyy nhận diện đúng hết các chữ rồi, không còn lỗi nào nữa thì hãy click Close để tắt cửa sổ huấn luyện đi.

    Một cửa sổ hiện ra, hỏi bạn có muốn lưu kết quả huấn luyện này lên file không,
    [​IMG]
    Ta click Yes.

    Lúc này Abbyy sẽ kết hợp thuật toán của nó + kết quả huấn luyện ban nãy để OCR toàn bộ trang hiện tại.
    [​IMG]

    Nếu kết quả khá tốt, bạn có thể tự tin cho Abbyy đọc hết các trang còn lại ( Click vào nút Read )

    Nếu không tốt thì lại tiếp tục huấn luyện lại theo các bước ở trên.

    Sau khi Abbyy đọc hết các trang, chúng ta xem qua một vòng, trang nào kết quả OCR tệ hơn các trang khác ( do ảnh mờ, do sách dày nên trang bị cong ~~> Abbyy nhận diện sai )

    Thì bạn thực hiện Read Page lại trang đó và huấn luyện lại để Abbyy nhận diện tốt hơn !
     
    Chỉnh sửa cuối: 28/4/17
  3. maxiqboy

    maxiqboy Lớp 6

    File PDF để tiện theo dõi,
     

    Các file đính kèm:

    Chỉnh sửa cuối: 30/11/18
    dhq thích bài này.
  4. maxiqboy

    maxiqboy Lớp 6

    Giữ chỗ cho Update
     
  5. maxiqboy

    maxiqboy Lớp 6

    Giữ chỗ cho Update
     
  6. maxiqboy

    maxiqboy Lớp 6

    Đầu cơ Thêm 1 mảnh đất #3 nữa, Mod đừng ban, Giá đất có tăng em cưa % cho
     
  7. vudinhthinh

    vudinhthinh Lớp 2

    Quá hay bác ơi. Xong bác làm thêm phát css nữa nha. Cảm ơn bác.
     
    maxiqboy thích bài này.
  8. vudinhthinh

    vudinhthinh Lớp 2

    Có cách nào để phần mềm chỉ lưu file ảnh crop trong khung màu xanh không bác? Không cần ocr, để cho nó cắt hết toàn bộ phần thừa đi (dự tính để làm pdf).
     
    tran ngoc anh and maxiqboy like this.
  9. maxiqboy

    maxiqboy Lớp 6

    Vãi luyện, 1 post không quá 20 ảnh, bay luôn phần update bài hướng dẫn của mình
    chán quá xenforo ơiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiii

    Ảnh thì host ngoài chứ có để ở trong đâu mà cấm với đoán @@

    Nản không chịu được

    CÔng sức ngồi chụp chụp gõ gõ nãy giờ >"<

    Mất thời gian quá

    AAAAAAAAAAAAAAAAAAA
     
    Chỉnh sửa cuối: 27/4/17
  10. Caruri Tlkd

    Caruri Tlkd Sinh viên năm II

    Cái này 4DHN đã nói với bạn rồi còn gì.

    Tôi nghĩ bạn nên đề nghị với admin chỉnh code để tăng số lượng ảnh dán link ngoài lên hơn 20 (50 chẳng hạn), phù hợp cho những bài hướng dẫn dài. Nếu không thì bạn phải cắt ra thành nhiều bài nhỏ.
     
  11. maxiqboy

    maxiqboy Lớp 6

    ủa bác @4DHN có nhắc em rồi ạ :( hic em có để ý đâu, uhuhu :( lần đầu tiên viết bài, khí thế hừng hực

    Bụp phát mất hết :( xót quá ạ,

    May mà em còn lưu đc 1 nửa rồi, nó mà bay tất chắc chán chả viết vủng gì nữa luôn ạ :(

    Nhờ bác @4DHN nói giúp với các admin quản trị web được không ạ ?

    Ảnh em toàn dán host ngoài, đâu có mạo phạm gì đến server của mình đâu, để có 20 rồi bụp phát mất sạch, xót quá ạ,
     
  12. 4DHN

    4DHN Tiêu Dao

    Bạn hoàn toàn có thể Vui lòng đăng nhập hoặc đăng ký để xem link ở chế độ codeview cho toàn bộ rồi post lên. Đâu phải chỉ có bạn bị? Mod cũng không ngoại lệ nhé. Nếu vượt quá 20 hình thì cắt đôi bài, cái vụ 20 này chắc là khi set cho trang web admin kỹ thuật đã chọn những con số: 5 file đính trực tiếp, 20 ngoài...
     
  13. Caruri Tlkd

    Caruri Tlkd Sinh viên năm II

    Cái này là thông số mặc định của các forum, đề phòng trường hợp spam.
     
  14. maxiqboy

    maxiqboy Lớp 6

    ặc bác nghiện Word nặng thật rồi :D em chúa ghét Word, vì nó rất tù túng và hay lỗi vặt,

    cái vụ 20 kia sửa được mà bác, thế mới nhờ bác nói hộ admin kỹ thuật 1 tiếng,

    Cái này là động viên người viết thôi,

    Chả mấy khi tận tâm tận lực chỉ dẫn rõ ràng ảnh ủng minh họa chi tiết từng đương tơ kẽ tóc, giờ bay hết :'( tiếc đứt ruột
     
  15. IronMan

    IronMan Lớp 4

    Bạn dùng briss nhé
    Vui lòng đăng nhập hoặc đăng ký để xem link
     
    nhaque thích bài này.
  16. 4DHN

    4DHN Tiêu Dao

    Thế thì lưu lên notepad đi. Word hay notepad chỉ là công cụ, phương tiện hãy quan tâm đến mục đích. :p Bài đó viết từ hồi tôi còn chưa biết một tí gì về epub, chỉ biết mobi, prc.
     
  17. maxiqboy

    maxiqboy Lớp 6

    Thôi để mai rảnh em viết lại vậy ạ,
    có gì nhờ bác @4DHN fix giúp page 1 ạ :D
     
  18. 4DHN

    4DHN Tiêu Dao

    Tôi chỉ có thể giúp bạn xóa bớt/chèn thêm post chứ không giúp được về nội dung, hình thức bài viết. :D
     
  19. maxiqboy

    maxiqboy Lớp 6


    Vâng, fix chèn post ạ, em lấy đc 2 mảng #2 #3 mà đang lo thiếu ạ :D

    Cái OCR nhiều mục nhiều cái phải hướng dẫn quá ạ,
     
    4DHN thích bài này.
  20. narutotxd

    narutotxd Lớp 2

    Ảnh chụp Màn hình 2017-04-28 lúc 09.57.46.png Ảnh chụp Màn hình 2017-04-28 lúc 09.59.14.png Phiên bản trên Mac , chỉ có import với export là chính , thao tác gần như không có gì , thật muốn chỉnh linh tinh mà tuỷ chỉnh của nó có 5 dầu tích thôi @@
     
    maxiqboy thích bài này.

Chia sẻ trang này