Hướng dẫn Chia sẻ kinh nghiệm OCR hiệu quả hơn cùng Abbyy FineReader 12

Thảo luận trong 'Hướng dẫn chung' bắt đầu bởi maxiqboy, 27/4/17.

  1. 4DHN

    4DHN Tiêu Dao

    Bạn cứ viết bài offline đi, tôi thấy hầu như chỉ có 3 code: [/b] và [B ] (thứ tự đảo lại, ký tự ] sát chữ B), [/center] và [CENTER ] (thứ tự đảo lại, ký tự ] sát chữ R), [/img] và [IMG ](thứ tự đảo lại, ký tự ] sát chữ G), để tôi chèn thêm cho bạn 3 posts (nếu dư thì bạn nhắn để tôi sẽ xóa sau).
     
    maxiqboy thích bài này.
  2. hungbc1010

    hungbc1010 Lớp 6

    Đã "tối ưu" thì không có "nhất" bạn nhé! :p
     
    tran ngoc anh thích bài này.
  3. maxiqboy

    maxiqboy Lớp 6

    Vui lòng đăng nhập hoặc đăng ký để xem link

    thanks bác ạ, hihi ^^ để em sửa
     
  4. Ngọc Sơn

    Ngọc Sơn Lớp 7

    1. Abbyy 12 Pro có hỗ trợ tiếng Việt trong phần setup, tiện cho bác nào không xài quốc tế ngữ. Vẫn chọn đúng.
    2. Abbyy 12 Pro, có phần chọn trang đơn hoặc giữ nguyên khối văn bản. Vì vậy, cắt trang không cần lắm.
    3. Abbyy 12 Pro có nhược điểm lớn nhất là không thể nhận diện được font chữ cổ đại như kiểu chữ đánh máy hoặc in ronéo, hoặc sách giấy vàng, nghĩa là tỉ lệ đạt không cao lắm. Cũng trong phần cài đặt, lưu ý: Nếu văn bản có bao nhiêu loại ngôn ngữ thì chọn bấy nhiêu. Nếu văn bản có ký tự latin thì Eng/Viet đều được, nếu có chữ Tàu - Hàn - Nhật - Ả rập thì cũng đồng thời chọn luôn mớ ấy. Xong!
     
    tran ngoc anh thích bài này.
  5. maxiqboy

    maxiqboy Lớp 6

    Add ảnh vào là nó tự cắt trang luôn mà bác,

    Không cắt cũng okie, nhưng mà còn nhiều mục về footnote, nhận diện khối text, muốn xuất file pdf ...

    Hoặc là sau đó xử lý, OCR, so sánh này nọ,

    Nếu để cả trang dàn ngang thì hết màn hình, ko còn không gian để làm việc so sánh chỉnh sửa ( nếu cần )

    Nên em nghĩ cắt trang là cần thiết,

    Còn không thì tắt mục ngắt trang trong Option đi vậy,
     
  6. 4DHN

    4DHN Tiêu Dao

    @maxiqboy bản Portable này giao diện là tiếng Tây Ban Nha, do đó cần thêm 1 thao tác đổi ngôn ngữ phần mềm thành tiếng Anh, tiếng Việt. Cần hình minh họa nhé.

    @hungbc1010 Hôm qua có nói về vụ chất lượng OCR hình resize và hình nguyên gốc. Hôm nay tôi chụp mấy cái hình và test một cách nghiêm túc, Vui lòng đăng nhập hoặc đăng ký để xem link. Trường hợp này 70% là thích hợp nhất, chất lượng cũng không tệ lắm
    Mục đích của resize là để dễ up/download, ngoài ra hình có dung lượng nhẹ cũng chạy OCR nhanh hơn, đỡ hại máy tính. Hồi xưa khi làm các dự án tôi cũng thường chọn 70% có thể do máy ảnh của tôi nó thế.
     
    lemontree123 thích bài này.
  7. maxiqboy

    maxiqboy Lớp 6

    Em update rồi anh ơi, anh check coi okie chưa ạ ?
     
  8. 4DHN

    4DHN Tiêu Dao

    Ok rồi. :D
     
    maxiqboy thích bài này.
  9. 4DHN

    4DHN Tiêu Dao

    Hôm qua quên mất không chụp ở chế độ chụp cận cảnh (macro), hôm nay Vui lòng đăng nhập hoặc đăng ký để xem link. Vẫn OCR ở 3 trạng thái: nguyên, resize 70%, resize 90%. Tôi thường chụp trong ánh sáng tự nhiên, chế độ cận cảnh và tắt đèn flash, chụp bằng ánh sáng đèn phòng và bật flash thì chất lượng OCR sẽ kém nhiều.

    Trong các hình này có một số hình chụp tràn sang trang bên cạnh một ít do các khối text ở một số chỗ quá sát nhau, nên đã gây thêm lỗi rác ở những chỗ đó. Vì vậy để chất lượng OCR tốt hơn thì cần crop những chỗ đó, hoặc khi chụp thì chụp gọn các khối text.
     
  10. maxiqboy

    maxiqboy Lớp 6

    Anh không xử lý trước OCR ạ ?

    Nhiều khi Abbyy nó quét tự động khối text hay hình không đúng, mình muốn nâng cao chất lượng OCR thì chỉ có làm tay đoạn đó là ổn ạ,
     
  11. 4DHN

    4DHN Tiêu Dao

    Mục đích của post đó chỉ là test để chứng tỏ chất lượng OCR vẫn ở mức chấp nhận được khi resize xuống 70%. Đang kỳ nghỉ nên phải dành thời gian cho gia đình nên chỉ có thể làm vậy, không đủ thời gian cho những ngâm kíu khác, còn không kịp xén ảnh nữa mà.
     
  12. 4DHN

    4DHN Tiêu Dao

    Mà khi làm cả loạt hàng ngàn trang thì còn có Vui lòng đăng nhập hoặc đăng ký để xem link và vẫn giữ lại được các định dạng của sách in. Cái quan trọng nhất của OCR là không bỏ sót dòng text nào, khi dòng text trong ảnh quá nghiêng hoặc quá cong sẽ bị bỏ sót nhiều khi nó vẫn là ảnh khi OCR xong. À, khi chụp quá cận cảnh: giả sử trang đó chỉ có 1/4, chỉ chụp 1/4 trang thì có thể sẽ bỏ sót dòng, khi resize đi thì lại OCR đủ (cần thì tôi sẽ chụp một ảnh như thế thành 1 post). Còn xử lý để không sinh ra nhiều khối text trước OCR thì có thể sẽ tốn nhiều công.

    Thường thì tôi sẽ xử lý ảnh trước để đỡ sinh ra text rác, đặc biệt là khi ảnh chụp có một phần của trang bên cạnh. Nếu đây là một dự án thật thì tôi sẽ crop như khung đỏ. Chữ Kim Dung, số thứ tự trang sẽ xóa sau bằng lệnh.

    IMG_2622 [1600x1200].JPG
     
  13. maxiqboy

    maxiqboy Lớp 6

    Em khi làm thì em bỏ lun header + Number lun,

    Xóa bằng lệnh cũng được mà hay xóa sót nên thôi, lúc làm thì xóa lun cho đỡ vướng về sau ạ

    Mà Abbyy tự động nhận diện đc khung chữ anh ạ, ko nhận lầm sang ô bên cạnh

    [​IMG]

    ffim Dung

    với bản giáo, thành thử chàng phân vân chưa biết nên thuật chuyện như thế nào, dã nghe hoàng diện lâo tăng chột mắt nói:

    - Giáo chủ Ma giáo là Dương Đính Thiên kia mà? Tại sao lại là các hạ?

    Trương Vô Kỵ nói:

    - Dương giáo chủ tạ thế đã ba mươi năm rồi.

    Hoàng diện lão tăng ồ lên một tiếng, không nói thêm, nhưng tiếng ồ của vị lão tăng ấy chứa đựng đầy vẻ thương tâm thất vọng. Trương Vô Kỵ nghĩ thầm: “Lão nghe tin Dương giáo chủ từ trần, xem ra vô cùng đau đớn, có lẽ năm xưa quá thân tình với Dương giáo chủ. Nghĩa phụ là bộ thuộc cũ của Dương giáo chủ, mình thử gợi nhớ tình cô' nhân rồi sẽ nói nguyên do Dương giáo chủ bị Viên Chân chọc tức mà chết, xem thế nào”, bèn nói:

    1 Hẳn là đại sư quen biết Dương giáo chủ?

    Hoàng diện lão tăng nói:

    1 Dĩ nhiên. Lão nạp không biết dại anh hùng Dương Đính Thiên, thì đâu đến nỗi hóa thành lão chột? Ba sư huynh đệ lão đây việc quái gì phải ngồi khô thiền hơn ba chục năm?

    Mấy câu trên nói ra rất thản nhiên, song chứa đựng bên trong nỗi trâm thống và oán hận vừa sâu vừa lớn. Trương Vô Kỵ than thầm: “Khô rồi, khố rồi!” Cứ nghe giọng điệu của vị lão tăng kia thì một mát của lão đã bị Dương Đính Thiên chọc mù, và ba sư huynh
    T5T


    Kết quả ngọt phết ạ @@
     
    Chỉnh sửa cuối: 30/4/17
  14. ntan234

    ntan234 Lớp 1

    Ngoài briss ra thì còn cái PDF scissors, dùng để crop và chia trang rất ổn
    Vui lòng đăng nhập hoặc đăng ký để xem link
     
  15. vudinhthinh

    vudinhthinh Lớp 2

    Phần mềm rất tốt cảm ơn bác.
     
  16. Gassie

    Gassie Sinh viên năm I

    Mỗi lần chạy ABBYY là nó lại chuyển default app đọc pdf của mình từ Foxit Reader thành Edge. Làm sao để nó đừng chuyển vậy mọi người?
     
  17. daibig

    daibig Mầm non

    Ở bước cài bác ko cho nó làm mặc định pdf là đc.
     
  18. daibig

    daibig Mầm non

    Mình hay bị nó nhận diện sai chỗ ko xuống dòng. Ví dụ 1 câu dài 3 dòng, đến khi nó nhận dạng xong, cũng thành 3 dòng. Mọi người biết cài đặt chỗ nào để hết ko ?
     
  19. Gassie

    Gassie Sinh viên năm I

    1. Bản portable không có cài đặt.
    2. Nếu có cài đặt thì nó set bản thân nó thành mặc định, chứ mắc mớ gì nó set thằng Edge của MS?
     
  20. daibig

    daibig Mầm non

    Sao portable ko cài đặt j mà thành mặc định đc nhỉ ? bản portable 12 của em ko bị vậy.
     
: abby

Chia sẻ trang này