Hỏi đáp Xin dữ liệu (sách scan và file đã soát lỗi) như thế nào?

Thảo luận trong 'Hỏi đáp - Góp ý' bắt đầu bởi leebasv, 25/4/19.

  1. leebasv

    leebasv Mầm non

    Chào các bạn,
    Hiện mình đang làm thạc sĩ nghiên cứu về nhận dạng chữ tiếng việt (nhằm mục đích số hóa tài liệu cũ). Dĩ nhiên hiện nay có rất nhiều cả opensource lẫn phần mềm thương mại đang làm việc này như Tesseract hay ABBYY và nhiều phần mềm khác. Họ đều hỗ trợ tiếng việt. Tuy nhiên qua khảo sát và xem nhiều bài báo khoa học (về cơ bản thì các framework đề dựa trên các nghiên cứu của ngành thị giác máy tính nên không khác mấy trừ việc có dữ liệu nhiều hay ít) thì các phần mềm ấy có nhiều nhược điểm. Mình dùng thì để ý là ABBYY thì nhược điểm lớn nhất vẫn là nhận dạng ra những chữ vô nghĩa, hoặc 2 từ gần nhau mà chẳng liên quan gì. Điều này cho thấy họ thiếu một số thành phần mà mình nghĩ là mình có thể cải thiện bằng cách kết hợp một số nghiên cứu khác vào.
    Thôi thì mình đi thẳng vào vấn đề, nhận dạng chữ viết (không phải chữ viết tay, chữ viết được in ra) là bài toán phân tách và phân dạng trong machine learning (nhánh con của AI), nghĩa là phải có nguồn dữ liệu về đặc trưng, và có đích nó là gì thì mới huấn luyện được thuật toán. Ví dụ khá giống đứa trẻ: lúc còn nhỏ nó có thể không biết gì cả, ta chỉ vào quả cam và nói đó là quả cam, nhiều lần, nhiều góc nhìn, trước hết nó phải xem hình quả cam, và sau đó nó phải được người ta dạy rằng đó là quả cam thì dần dần nó mới hình thành tri thức về như thế nào là quả cam. Để 1 ngày có ông nào đó in ra hình quả xoài thì dĩ nhiên nó lắt đầu và ko cho rằng đó là quả cam.
    Tương tự như vậy, điều mình cần để huấn luyện mô hình (và có thể sau này trở thành phần mềm rất hữu ích cho diễn đàn và hệ thống thư viện v.v.) là file scan của sách và bản đã soát lỗi-hoàn tất, giống với bản scan.
    Như mình đã nói ở trên máy thì sử dụng thuật toán nên nó cần rất nhiều dữ liệu để học, để có tri thức về chữ viết. (đặc biệt chữ viết Việt nam có rất nhiều dấu). Hiện tại mình thấy trên diễn đàn có nhiều topic về sách đã số hóa tuy nhiên khi vào xem bài thì mình thấy đôi lúc thì có file scan mà lại ko có file hoàn tất, đôi lúc thì chỉ có file hoàn tất chứ ko có file scan.
    Như vậy, nên chốt lại là nếu mình muốn thu thập thì tự pm cho từng nhóm (trưởng nhóm của quyển sách nào đó mình cần dùng làm dữ liệu) để xin cả file scan lẫn file đã hoàn thành, hay có một super admin nào đó có thể gom dữ liệu về một mối, hoặc một chỗ nào đó tập trung link (dĩ nhiên luôn là phải đủ: scan + đã hoàn tất, thiếu 1 trong 2 thì hiệu suất nhận dạng chương trình rất tệ, hậu quả thì sẽ cho những từ ngớ ngẫn, ngắt trang ngắt dòng chẳng đâu vào đâu) như vậy để mình thu thập, đưa vào máy tính và huấn luyện ?
    Xin trân trọng cảm ơn các bạn, các anh chị.
     
  2. V/C

    V/C Mầm non

    Tóm lại là muốn xin bản scan chứ gì? Còn muốn ”huấn luyện” hay gì gì đấy thì bản scan trên này nhiều và đủ kiểu font, không cần phải xin thêm.
     
  3. Caruri Tlkd

    Caruri Tlkd Sinh viên năm III

    Đôi lời với bạn:

    Thứ nhất, đề tài này nhiều nhóm ở nước ta đã nghiên cứu rồi và có cả sản phẩm từ rất lâu rồi, ví dụ từ hồi Abbyy chưa thông dụng như hiện tại thì tôi đã dùng VnDocR, cách nay khoảng 15 năm (và hồi đó ngoài ra còn một số sản phẩm trong nước khác), không biết luận văn thạc sĩ của bạn có gì mới và đặc sắc không? Ví dụ nâng cao hiệu quả nhận dạng, hay nhận dạng với những văn bản chất lượng kém như sách in thập niên 1980?

    Phần lớn các ebook hiện tại đều dùng Abbyy để nhận dạng, vì vậy bạn chỉ cần có file scan, chứ file đã soát lỗi thì đó chính là ebook sản phẩm cuối cùng, còn file chưa soát lỗi thì bỏ vào Abbyy là đủ. Còn việc thử nghiệm các phần mềm nhận dạng khác thì là việc của bạn.

    Khi nghiên cứu khoa học thì cần có chi phí đầu tư. Những file scan là do họ phải bỏ tiền mua sách mới để scan, mất cả tiền bạc và thời gian công sức scan (thời gian cũng là tiền vậy). Vì vậy bạn có thể phải trả tiền để có thể có được những file đó chứ không chỉ "xin" là được đâu.
     
    Chỉnh sửa cuối: 25/4/19
  4. leebasv

    leebasv Mầm non

    Chắc nhiều bạn chưa rõ lắm, mục đích của mình là làm engine mới, trong bài đã có ghi rõ những nhược điểm của ABBYY hay nhiều tác giả khác, nếu làm không hiệu suất cao hơn thì mình không làm làm gì vì không trội hơn (outperform) thì cũng không thể công bố (publish) được paper (bài báo quốc tế). Mình mới kì đầu thôi, không phải chỉ làm cái này qua loa để lấy bằng ra trường vì yêu cầu của trường không dễ như vậy.
    Chuyện tìm dataset thì mình dùng từ liên hệ thì đúng hơn (vì chuyện dataset thì hiện nay chuyện mua bán là điều bình thường, nếu thấy đáng giá thì mình sẵn sàng mua để phục vụ nghiên cứu, fund của trường).
    Bản scan thì mình thấy nhiều, bản ra file ebook mình cũng thấy nhiều trên này rồi (Đã ghi rõ ở topic). Vấn đề là mình cũng đã giải thích rõ rằng nhiều topic chỉ nội bộ trong nhóm file scan, sau khi hoàn tất thì public ra bản ebook (digitalized file) --> nghĩa là đang thiếu phần file scan. Phải luôn đủ 1 cặp scan file + digitalized file thì mới dùng được bộ dữ liệu đấy. Về chất lượng văn bản thì mình tập trung vào loại văn bản in (không phải chữ viết tay), còn năm xuất bản, chất lượng giấy... thì càng đa dạng càng tốt. (Nghiên cứu thì chủ yếu tinh thần tự giác, nếu muốn ảo số, báo cáo láo thì mình chỉ cần chọn tài liệu chất lượng tốt mà dùng thì kiểu gì không cho kết quả cao :)
    Thôi thì mình tự inbox từng nhóm hỏi vậy. Mình vẫn giữ bài này ở đây để bạn nào cùng hướng nghiên cứu thì tham gia inbox với mình để share data.
     
    tran ngoc anh thích bài này.
  5. Nắng Mùa Thu

    Nắng Mùa Thu Lớp 1

    Khó lắm bạn ạ. Trên mạng hiện nay buôn bán kinh doanh hình thức online rất phổ biến. Và đặc biệt có một số chuyên đi xin sách scan rồi đem đi bán với giá cắt cổ. Ở thư viện này miễn phí sách ebook là ngon lắm rồi. Họ làm từ sách scan hoặc đánh máy ra rất chuyên nghiệp, đẹp và dễ xem. Có những sách có thể chia sẻ scan được nhưng có những sách không thể chia sẻ scan miễn phí được đâu. Vì họ đều biết rằng đó là công sức của họ bỏ ra. Nếu đem ra chia sẻ miễn phí cũng oke thôi. Vì họ đã bỏ công ra làm ebook miễn phí thì chắc rằng họ cũng sẽ có tinh thần chia sẻ. Nhưng vấn đề ở đây là sợ rằng lòng tốt của họ sẽ bị lợi dụng. Và hơn ai hết nếu một ngày nào đó họ nhìn thấy file scan mà họ bỏ công sức làm ra đã chia sẻ miễn phí bị đem ra mua bán trên mạng thì chắc họ cũng thấy bức bối, khó chịu lắm. Nên bạn muốn thì tìm mua sách giấy xong bỏ công ra scan và thử nghiệm thôi bạn ạ. Đó là lời khuyên chân thành nhất mà tôi dành cho bạn. Chúc bạn thành công.
     
  6. tran ngoc anh

    tran ngoc anh Cử nhân

    Mình đóng góp một hướng như thế này nhé, sẽ tiếc kiệm được công sức và tiền bạc, nhưng mình không chắc nó sẽ hữu hiệu cho phương pháp nghiên cứu mới của bạn.
    Bạn lấy những file epub đã post trên đây, chuyển nó thành định dạng PDF text bằng phần mềm Calibre ebook manager, lúc này đây thì bạn có thể chọn rất nhiều font chữ đầu ra cho file PDF, để rèn luyện cho Abbyy. Nhưng có gì đó chưa ổn đúng không, hihi, đúng vậy, bạn cần là file scan mà. Nhưng tiếp theo chúng ta còn một bước nữa, đó là với Abbyy, hình như mình thấy nó không quan tâm mấy đến chuyện PDF đầu vào là text hay scan cả, nên bạn cứ đút file text đó vô, nó nhận thành scan hết, và như thế lúc này nó vẫn dựa vào hình ảnh quang học (không biết đúng từ chuyên ngành hay không) từ file text được cung cấp để nhận dạng, nhưng phải nói rõ là bạn nhập text vào nhưng nó không hiểu đó là text đâu, trước hết nó đã xử lý mớ text đó thành ảnh hết rồi. Đây là cách dân epub chúng tôi hay làm với những file PDF text được share trên mạng mà dùng bảng mã phức tạp mà khi chuyển bảng mã cho text đó để làm epub không mang lại hiệu quả cao, cũng như sẽ mất hết định dạng gốc, nên dùng abbyy để nhận dạng PDF text đó là cách cuối cùng đấy, hiệu quả nhận lại vô cùng cao, vì pdf text rất sạch, chỉ có chữ và nền, không lẫn các vết dơ như trong quá trình scan (cái này cũng cần phải xem xét vì khi cho ra sản phẩm sau này có thể abbyy không nhận dạng được tốt các vết dơ vì chỉ được huấn luyện với file rất sạch).
    Lúc này đây bạn đã có cả text lẫn hình để huấn luyện rồi đấy, chúc bạn thành công!
     
    thanhbinhtran and leebasv like this.
  7. leebasv

    leebasv Mầm non

    Cốt yếu là cần các trường hợp giấy bị dỏm dỏm, dính này nọ, trang giấy cong v.v để nó giống điều kiện thực tế đó bạn. Trong ngành từng có một số kĩ thuật kiểu như tạo "nhiễu" nhân tạo, biến dạng hình bằng phương pháp số học ấy chứ, dính phải vệt máu của giáng, hay mọt gặm 1 phần v.v. nhưng mà trước khi hệ thống quen với dữ liệu nhân tạo đó thì nó cần có 1 số dữ liệu có nhiễu tự nhiên đó bạn, ngoài còn nhiều cái khó có thể tạo nhiễu nhân tạo thí dụ font chữ cũ, một số bố cục v.v.

    Còn về ý kiến bị mua bán bởi nhiều thành phần trục lời thì nhờ bạn mình mới hiểu nguyên nhân tại sao không public ở diễn đàn này. Vấn đề này thì tùy cách nhìn, nói chung đã trục lợi thì ở đâu cũng có ấy bạn. Trong ngành phần mềm thì việc một người nào đó việc code open source, public lên mạng, (tùy kiểu license, mình giải thích sẽ rối thêm, mà sẽ là legal hay illegal nếu copy về xài cho mục đích thương mại) và có nhiều người xài source ấy, thêm thắc vài thứ nhỏ nhặc vào, thậm chí gắn ít adware, mining software để bán, hoặc cho free nhưng thực ra là kiếm tiền ngầm từ quảng cáo hoặc đào coi cho tác giả. Quay lại chuyện sách, theo mình, ít nhất là public ra thì đâu đó người cần tìm sách họ cũng có thể tìm thấy nó ở google dẫn vào trang này. Và dĩ nhiên giữa việc bỏ tiền và free thì người ta chọn free vậy đó bạn. Việc người nào đó mua thì do cả nhiều lý do chủ và khách quan (kĩ năng SEO của mấy anh bán sách nên dễ lái người dùng vào trang của ảnh, kĩ năng google người tìm sách ko tốt nên dễ sa vào mấy trang thu phí chứ ko vào mấy trang ntn v.v.).
    Cá nhân mình vẫn chuộng public ra giống như hệ thống github. Những ai tham gia vào việc contribute cho dự án thì dc grant quyền đẩy lên các thay đổi, chủ dự án thì có quyền xét duyệt hay reject các thay đổi. cộng đồng bên ngoài nhìn vào vẫn thấy nhóm đã thay đổi những gì, dự án dịch của họ dc nhiêu % rồi v.v. cộng đồng có quyền post lên issue để hỏi hay phần nàn về điều gì đó không hợp lý.
    Mình lấy ví dụ nếu dùng git cho dự án scan, số hóa, check lỗi sách đi chẳng hạn. Đầu tiên, trưởng team mở đơn cho ace tham gia, xong xuôi thì chia việc cho từng thành viên (cái này có thể dùng trello để quản lý dự án), rồi mỗi người xong thì có quyền push lên bản đã check lỗi của mình lên cho admin, admin lướt sơ rồi duyệt để nó dc merge vào master branch. Dĩ nhiên có thể còn lỗi đâu đó, và một người xem ghé qua thấy có 1 chỗ sai thì họ có thể issue lại cho mọi người thấy là hiện có một chỗ gõ sai chính tả. Admin hoặc các thành viên tham gia chính có thể xem xét issue đó đúng ko, đúng thì sửa, close issue. còn nếu chỗ gõ mà có tranh cãi tiếp tục giữ cho đến khi thống nhất thì đóng.
    Qua thời gian thì người bên ngoài dự án cũng dễ dàng theo dõi là dự án xong tới đâu bằng việc theo dõi các chapter đã hoàn thành (thì hiện lên), chưa thì chưa hiện lên, việc push lên sớm thì dễ dc cộng đồng bên ngoài report sớm, hoặc ai thích đọc sớm thì cứ kéo về mà dùng. Đỡ phải đợi tới dự án xong mới được xem.
     
  8. NQK

    NQK Lớp 10

    Nếu bạn có kết quả tốt trong nghiên cứu thì hy vọng ứng dụng được vào thực tế.

    Còn đầu vào thì có gì khó. Nếu không xin được file scan ở đây hay ở đâu khác thì ra hàng đồng nát mua giấy vụn - gọi là giấy vụn thôi nhưng các kiểu sách, từ đẹp đến nát, rồi thuê một bạn sinh viên nào đó ngồi scan, ocr thô. Nếu mình làm mình sẽ đi theo hướng đó, giải ngân dễ dàng mà ai cũng có lợi cả.
     
    inno14, leebasv and tran ngoc anh like this.
  9. tran ngoc anh

    tran ngoc anh Cử nhân

    Nhưng mà đã có sẵn rất nhiều bộ như vậy rồi đấy, bạn có thể bắt đầu ngay mà, tùy khả năng search tới đâu thôi. Một số bộ văn học đoạt giải chẳng hạn, thường là có scan trước, rồi có nhóm hoàn thành epub sau đó, rất dễ tìm.
    Mình còn nhớ cuốn “Sức mạnh trên Biển…” mình có post epub, bản scan cũng đã có trước đó. Bạn thử đi.
     
    thanhbinhtran thích bài này.
  10. leebasv

    leebasv Mầm non

    Uhm, mình đang thu thập từ từ. Nào xong sẽ public để anh em nghiên cứu có đồ thực nghiệm :)
     
  11. Dr. No

    Dr. No Không không thấy

    Để xin dữ liệu tôi mà là bạn tôi sẽ tham gia vào một vài dự án ebook trên trang này. Sẽ được giao file scan gốc và file nhận dạng thô.

    Còn file scan pdf ngay trên trang này cũng đầy luôn, tốt có, xấu có do máy scan tạo ra. Có file scan thì sẽ có dữ liệu sau nhận dạng.

    Cách nữa tự tạo dữ liệu: dùng điện thoại, máy ảnh tự chụp sách của mình.
     
    tran ngoc anh thích bài này.
  12. Dr. No

    Dr. No Không không thấy

    Còn xin file scan và file đã soát sạch lỗi khá vô nghĩa vì chẳng gì bằng tự tay mình làm sẽ thấy các kiểu lỗi theo chất lượng sách, chất lượng scan/chụp, độ phân giải hình, vết ố, vết lề....
     
    tran ngoc anh thích bài này.
  13. cxz27

    cxz27 Lớp 7

    Hồi xưa tui có đọc vụ google xài reCaptcha cho người dùng nhập chữ để OCR và dạy cái OCR book, giờ nó lên v3 nhận diện hình ảnh nên google không xài nữa.
     
    tran ngoc anh thích bài này.
  14. maxiqboy

    maxiqboy Lớp 6


    bác kiếm sách scan trên diễn đàn và tự OCR là thấy ngay thôi mà, cũng nhanh, chả mất thời gian lắm đâu
     

Chia sẻ trang này