Hướng dẫn Làm ebook từ sách giấy

Thảo luận trong 'Hướng dẫn chung' bắt đầu bởi machine, 9/2/22.

  1. machine

    machine Lớp 12

    Sau một thời gian làm ebook, tích lũy được một số kinh nghiệm/thủ thuật, mình tạo topic này để những bạn đến sau thêm một nguồn tham khảo và có thể tự tạo ebook của riêng các bạn mà không phải nhờ vả người khác.
    Vì "đối tượng phục vụ" là những bạn chưa từng làm ebook từ sách giấy (hoặc có ít kinh nghiệm) nên có những chỗ mình sẽ viết hơi lan man và dài dòng. Mong được lượng thứ :D
    Vì đây là những kinh nghiệm cá nhân, được viết lại theo ý hiểu của mình, chắc sẽ không tránh khỏi sai sót, mong các bạn góp ý nhiệt tình. Xin cảm ơn trước :D
    Làm ebook từ sách giấy không khó nhưng bao gồm rất nhiều bước nhỏ (mình đếm sơ sơ gồm khoảng trên dưới 30 video hướng dẫn từng bước), viết vào 1 post sẽ rất dài và mình không đủ thời gian hoàn thành ngay 1 lúc nên mình sẽ chia ra thành 3-5 post phía sau và hoàn thiện trong 1 thời gian (1 vài ngày hoặc 1 vài tuần).

    Về cơ bản, có hai cách tạo ebook như lược đồ bên dưới.
    general.jpg

    Cách convert file Word thành ebook: tham khảo Vui lòng đăng nhập hoặc đăng ký để xem link
    Cách đóng gói ebook bằng Sigil như lược đồ bên dưới:
    Luudo.jpg
    Hướng dẫn chi tiết cách tạo ebook từ sách giấy và đóng gói ebook "chuyên nghiệp" bằng Sigil: lần lượt thực hiện từng bước theo thứ tự 4 bước B1 → B2 → B3 → B4 bên dưới.
     
    Chỉnh sửa cuối: 6/3/22
  2. machine

    machine Lớp 12

    [Khái niệm chung về ebook]
    Viết ra sẽ dài.
    Các bạn xem file đính kèm.
    Giải nén để có file pdf.
     

    Các file đính kèm:

    Chỉnh sửa cuối: 6/3/22
    Minhnh, chis, linhlinhdoan98 and 4 others like this.
  3. machine

    machine Lớp 12

    [B1: Hướng dẫn chụp ảnh sách giấy]
    Trang bị: smartphone + kẹp điện thoại + app chụp ảnh + phần mềm đổi tên hàng loạt
    - Kẹp điện thoại: Do vFlat có khả năng "nắn thẳng" trang sách cong nên đồ nghề chụp ảnh trang sách không yêu cầu tấm kính (hoặc tấm mica) để ép thẳng trang sách nữa. Bạn chỉ cần dùng kẹp điện thoại đuôi khỉ là đủ (mua trên Shopee khoảng 15-20k/cái).
    - app chụp ảnh: [update] dùng luôn vFlat. vFlat có tính năng chụp "tự động" 2 trang sách một lần và tự chia ảnh.
     
    Chỉnh sửa cuối: 9/3/22
  4. machine

    machine Lớp 12

    [B2: Soát lỗi chính tả]
    Sau khi chụp ảnh từng trang sách và OCR, ta có được file Word. File Word này sẽ có khá nhiều lỗi chính tả.
    → Phải soát lỗi chính tả để được file Word sạch lỗi chính tả trước khi đóng gói ebook.
    Soát lỗi chính tả là phần việc chiếm nhiều thời gian nhất trong tổng thời gian làm ebook.
    Cách truyền thống là dùng phần mềm Microsoft Word trên máy tính hoặc điện thoại, đọc đến đâu sửa lỗi đến đó. Cách này nhàm chán và tốn nhiều thời gian.
    [Bổ sung video soát lỗi chính tả trên điện thoại ở đây]
    Bên cạnh đó, có một số cách khác giúp giảm bớt công sức soát lỗi chính tả, tạm gọi là công việc xử lý sau OCR.
    Mình thường xử lý sau OCR theo trình tự sau:
    1. Sửa lỗi chính tả bằng Text Crawler
    2. Soát lỗi trong Sigil
    3. Soát lỗi bằng Google Docs
    Sau khi thực hiện xong 3 bước trên, tỷ lệ lỗi chính tả còn lại khoảng 0,2% ÷ 0,3% hoặc ít hơn tùy chất lượng ảnh chụp (hoặc chất lượng bản scan).
    → khi đó có thể đóng gói trên ebook để vừa đọc ebook vừa soát lỗi cho nhanh.
    → có thể bỏ qua bước soát lỗi trên Word

    1. Sửa lỗi chính tả bằng Text Crawler
    Tham khảo Vui lòng đăng nhập hoặc đăng ký để xem link
    - Công việc chuẩn bị:
    xem Vui lòng đăng nhập hoặc đăng ký để xem link này. Video này mô tả cách thêm thẻ p, i, b vào một file Word.
    Giải thích: Sau khi OCR được file Word (thường có nhiều lỗi chính tả) có kiểu chữ nghiêng, chữ đậm.
    TextCrawler hiện nay chỉ làm việc với file text (*.txt) vốn không có định dạng chữ in đậm, in nghiêng.
    → phải thêm thẻ i, thẻ b để sau này khôi phục lại được kiểu chữ in nghiêng, in đậm
    Lưu ý: thêm thẻ p (not Italic, Not Bold) trước để rồi mới thêm thẻ i, b. Nếu thêm thẻ i, b trước thẻ p như Vui lòng đăng nhập hoặc đăng ký để xem link này sẽ xảy ra lỗi khi sau này chuyển vào Sigil.

    - cách sử dụng Text Crawler:
    xem Vui lòng đăng nhập hoặc đăng ký để xem link này.
    Chạy lần lượt Dict1-00 → Dict1-04 → Dict2-01 → Dict2-12 →... → Last.txt
    Nên để file nguồn và file đích ở hai thư mục khác nhau.

    2. Sửa lỗi chính tả bằng Sigil
    Chi tiết xem Vui lòng đăng nhập hoặc đăng ký để xem link này.
    File text tạo thêm thẻ p ở bên trên sẽ thừa/thiếu thẻ p ở dòng đầu và dòng cuối cùng của văn bản. Cần thêm hoặc xóa thẻ p cho dòng đầu tiên và dòng cuối cùng. Sau đó Paste toàn bộ nội dung file text vào Sigil, sửa lỗi nếu có.
    Sigil sau khi cài đặt từ điển chính tả có thể dùng để soát lỗi chính tả sơ bộ cho ebook hoặc kiểm tra nhanh lỗi chính tả trong các ebook sẵn có.
    Khi quan sát cột bên phải bảng lỗi chính tả, nếu phát hiện một lỗi chính tả lặp lại nhiều lần chỉ việc thay thế hàng loạt.
    Hướng dẫn cài đặt từ điển chính tả cho Sigil xem post 5 bên dưới.


    3. Soát lỗi chính tả bằng Google Docs
    Dùng Calibre để chuyển file epub thu được ở bên trên thành file Word, xóa ảnh bìa, đổi font chữ và màu nền phù hợp, upload lên Google Drive sau đó Double click vào file Word vừa upload để mở Google Docs và bắt đầu soát lỗi chính tả theo gợi ý của Google Docs (chỉ việc bấm vào từ gợi ý nếu đồng ý hoặc bấm nút Từ chối).
    Trong khi soát lỗi chính tả có thể mở file scan để đối chiếu nội dung. Tốt nhất là tạo được file pdf có kèm text khi tìm kiếm nội dung sẽ thuận lợi hơn.
    Chi tiết xem Vui lòng đăng nhập hoặc đăng ký để xem link này.
    File đính kèm bên dưới để thực hành.
     

    Các file đính kèm:

    Chỉnh sửa cuối: 6/3/22
  5. machine

    machine Lớp 12

    [Các thao tác chuẩn bị trong Sigil]
    Có 2 thao tác cần chuẩn bị cho Sigil: cài đặt từ điển tiếng Việt (để soát lỗi chính tả) và cài đặt Plug-In AddId (để làm chú thích tự động).
    - Cài đặt từ điển tiếng Việt: xem Vui lòng đăng nhập hoặc đăng ký để xem link này.
    - Cài đặt Plug-In AddId: xem Vui lòng đăng nhập hoặc đăng ký để xem link này
    - Thêm và xóa file html trong Sigil (for newbie): xem Vui lòng đăng nhập hoặc đăng ký để xem link này.
    Từ điển chính tả và Plug-In AddId chỉ phải cài đặt 1 lần đầu, sau này không phải cài đặt nữa.


    Giải thích về liên kết chú thích
    Trong file nd.xhtml có chú thích:
    <a href="gc.xhtml#gc1" id="nd1"><sup>1</sup></a>
    giải thích: vị trí hiện tại là nd1 (trong file nd.xhtml), khi bấm vào chú thích này thì chuyển đến vị trí gc1 trong file gc.xhtml

    Trong file gc.xhtml có chú thích
    <p class="tinyy"><a href="nd.xhtml#nd1" id="gc1">(1)</a><span>Nội dung.</span></p>
    giải thích: vị trí hiện tại là gc1 (trong file gc.xhtml), khi bấm vào chú thích này thì chuyển đến vị trí nd1 trong file nd.xhtml
    Sử dụng file đính kèm để thực hành.
     

    Các file đính kèm:

    Chỉnh sửa cuối: 6/3/22
  6. machine

    machine Lớp 12

    [B3: "Đánh dấu" trong file Word]
    Sau khi soát lỗi chính tả ở B2 (Vui lòng đăng nhập hoặc đăng ký để xem link) đã giảm được khá nhiều lỗi chính tả trong file Word. Có thể soát lỗi thủ công tiếp hoặc dừng lại đóng gói ebook rồi vừa đọc vừa soát chính tả sau.
    Giả sử đã có file Word tương đối sạch lỗi chính tả, trước khi đóng gói ebook cần phải làm một số công việc chuẩn bị sau đây:
    - xác định Heading (tiêu đề chương)
    - đánh dấu vị trí canh lề (phải, giữa, đoạn thơ)
    - đánh dấu vị trí có ảnh
    - đánh dấu vị trí có chú thích (và đánh số thứ tự chú thích)
    Cụ thể như sau:

    1. Xác định Heading
    Căn cứ vào trang mục lục của sách, Mục lục “lớn nhất” sẽ là Heading 1, các mục lục “nhỏ” hơn sẽ tương ứng Heading 2, Heading 3…
    Ví dụ: Mở một cuốn sách, tìm đến trang Mục lục
    mucluc.jpg

    - Heading 1: là lớp ngoài cùng của mục lục, ở ví dụ này bao gồm: “Lời giới thiệu”, “Dẫn luận”, “Đất nước và con người”, Chương I… và Chương II…
    - Heading 2: là lớp thứ 2, ở ví dụ này bao gồm các mục I, II, II, IV: “I. Khung cảnh thiên nhiên”, “II. Dân cư”, “I. Xã hội nguyên thủy”, “II. Những vương quốc Việt đầu tiên”, “III. Vương quốc Nam Việt”, “I. Việc du nhập các thiết chế Trung Hoa”…
    - Heading 3: căn cứ vào nội dung cuốn sách, có thể thêm nếu thích mục lục chi tiết hơn nữa.

    Ngoài ra: thay ngoặc vuông thành ngoặc móc và một số việc khác như Vui lòng đăng nhập hoặc đăng ký để xem link này.
    Do sẽ đánh dấu chú thích bằng ngoặc vuông nên phải thay thế ngoặc vuông hiện tại nếu có ([ → { và ] → })

    2. Đánh dấu canh lề
    - canh lề phải: thêm từ rri vào đầu dòng văn bản canh lề phải
    - canh lề giữa: thêm từ cent vào đầu dòng văn bản canh lề giữa
    - câu thơ: thêm chữ từ vào đầu mỗi câu thơ
    Cụ thể như Vui lòng đăng nhập hoặc đăng ký để xem link này.
    Chú ý: các từ rri, cent, idtt phải đứng đầu dòng và không được có định dạng nghiêng hoặc đậm. Bạn có thể thay đổi bằng các từ khác tùy ý nhưng phải nhớ quy ước thống nhất từ đầu đến cuối file Word.

    3. Đánh dấu Heading
    Heading 1 → đánh dấu h1 ở đầu dòng
    Heading 2 → đánh dấu h2 ở đầu dòng
    Heading 3 (nếu có) → đánh dấu h3 ở đầu dòng
    Heading 4 (nếu có)→ đánh dấu h4 ở đầu dòng
    Heading 5 (nếu có)→ đánh dấu h5 ở đầu dòng
    Xem Vui lòng đăng nhập hoặc đăng ký để xem link này.

    4. Đánh dấu và tách ảnh minh họa
    - Đánh dấu ảnh:
    vị trí có ảnh minh họa bằng dòng chữ jjxy trong đó xy tương ứng với số trang chứa ảnh. Nếu 1 trang có 2 hoặc nhiều ảnh thì lần lượt đánh dấu mỗi dòng ứng với một ảnh như sau
    jjxy-1
    jjxy-2
    jjxy-3
    ...

    - tách ảnh:
    nếu OCR bằng ABBYY, sẽ thu được ảnh minh họa trong file Word, có thể tận dụng ảnh này nếu muốn. Nếu sách được dịch từ tiếng Anh, có thể vào vn1lib để tìm ebook tiếng Anh để lấy ảnh minh họa.
    ảnh minh họa đặt tên theo quy luật xy.jpg trong đó xy là số trang trong sách có ảnh minh họa. Nếu trang sách có nhiều ảnh minh họa, đặt tên ảnh lần lượt là:
    xy-1.jpg
    xy-2.jpg
    xy-3.jpg
    ...

    Chi tiết xem Vui lòng đăng nhập hoặc đăng ký để xem link này.

    5. Đánh dấu và tách chú thích
    - Tạo sẵn file "gc.docx" có các dòng đánh số lần lượt [1], [2], [3]...[100]...[200]...
    duyệt từ đầu đến cuối file Word (file nd.docx) và tách lần lượt từng chú thích vào các dòng [1], [2], [3]... trong file gc.docx. Vị trí có chú thích trong file nd.docx đánh dấu tương ứng [1], [2], [3]...
    Chi tiết xem
    Vui lòng đăng nhập hoặc đăng ký để xem linknày.
     

    Các file đính kèm:

    Chỉnh sửa cuối: 6/3/22
  7. machine

    machine Lớp 12

    [B4: Đóng gói ebook]
    Cảnh báo: Nội dung rất dài, nên có máy tính để thực hành.
    Sau khi đã "đánh dấu" các vị trí cần thiết trong file nd.docx và tách chú thích sang file gc.docx có thể kiểm tra sai sót khi tách ghi chú (nếu có) như Vui lòng đăng nhập hoặc đăng ký để xem link này.
    Sau khi đã có file nd.docx và gc.docx hoàn chỉnh (đính kèm bên dưới để thực hành) cần thực hiện lần lượt theo 14 bước bên dưới để đóng gói ebook bằng Sigil.
    1. Định dạng cho file nd.docx
    Chi tiết xem Vui lòng đăng nhập hoặc đăng ký để xem link này.
    - lần lượt thêm thẻ p, i, b
    - thay thế sơ bộ chú thích:
    thay [ bằng <a><sup>
    thay ] bằng </sup></a>

    khi đó sẽ thu được:
    + chú thích có dạng: <a><sup>1</sup></a>, <a><sup>2</sup></a>...
    + canh lề phải: <p>rri
    + canh lề giữa: <p>cent
    + câu thơ:
    <p>idttCâu thơ 1</p>
    <p>idttCâu thơ 2</p>
    ...

    2. Định dạng cho file gc.docx
    Chi tiết xem Vui lòng đăng nhập hoặc đăng ký để xem link này.
    - lần lượt thêm thẻ p, i, b
    - thay thế sơ bộ chú thích:
    thay <p>[ bằng <p><a>(
    thay ] bằng )</a>
    Khi đó các nội dung chú thích sẽ có dạng:
    <p><a>(1)</a>Nội dung chú thích 1</p>
    <p><a>(2)</a>Nội dung chú thích 2</p>
    <p><a>(3)</a>Nội dung chú thích 3</p>
    ...

    3. Copy file gc.docx vào Sigil và xử lý lỗi trong Sigil
    Chi tiết xem Vui lòng đăng nhập hoặc đăng ký để xem link này.
    Nếu có lỗi trong Sigil, nhìn xem lỗi ở dòng số bao nhiêu để sửa tương ứng. Thường chỉ là lỗi đơn giản như thay & bằng &amp; hoặc có các cặp thẻ không nằm hoàn toàn bên trong hoặc hoàn toàn bên ngoài cặp thẻ khác.
    Nếu Sigil báo lỗi quá khó hiểu, bấm phím F7 rồi Double click vào dòng thông báo lỗi, khi đó Sigil sẽ hướng dẫn cách sửa lỗi cụ thể hơn.

    4. Tạo liên kết chú thích cho file gc.xhtml
    Mục đích là biến chú thích dạng:
    <p><a>(1)</a>Nội dung chú thích 1</p>
    <p><a>(2)</a>Nội dung chú thích 2</p>
    <p><a>(3)</a>Nội dung chú thích 3</p>
    ...
    thành dạng (chú ý màu sắc tương ứng)
    <p class="tinyy"><a href="nd.xhtml#nd1" id="gc1">(1)</a><span>Nội dung chú thích 1</span></p>
    <p class="tinyy"><a href="nd.xhtml#nd2" id="gc2">(2)</a><span>Nội dung chú thích 2</span></p>
    <p class="tinyy"><a href="nd.xhtml#nd3" id="gc3">(3)</a><span>Nội dung chú thích 3</span></p>
    ...

    Khá là phức tạp. Bạn hiểu được thì tốt, không hiểu cũng không sao.
    Chỉ cần làm đúng theo Vui lòng đăng nhập hoặc đăng ký để xem link này là được.
    Yêu cầu: Sigil đã cài đặt Plu-In AddId.
    Trong file gc.html (hoặc gc.xhtml) lần lượt thực hiện theo 4 bước sau:
    a. Thay thế sơ bộ
    Find: <p><a>(.*?)</a>(.*?)</p>
    Replace: <p class="tinyy"><a>\1</a><span>\2</span></p>
    Mode: Regex

    b. Chạy PlugIn AddId lần 1
    Vào Menu Plugins/Edit/AddIDs sẽ hiện ra bảng
    Tag đặt là a
    ID prefix đặt là nd
    Counter đặt là 1
    Còn lại bỏ trống
    Đợi Plug-In AddId chạy xong bấm OK.

    c. Thay thế hàng loạt
    Find: <a id="
    Replace: <a href="../Text/nd.xhtml#
    Mode: Normal
    Replace All

    d. Chạy PlugIn AddId lần 2
    Vào Menu Plugins/Edit/AddIDs sẽ hiện ra bảng
    Tag đặt là a
    ID prefix đặt là gc
    Counter đặt là 1
    Còn lại bỏ trống
    Đợi Plug-In AddId chạy xong bấm OK.

    5. Copy file nd.docx vào Sigil và xử lý lỗi nếu có
    Chi tiết xem Vui lòng đăng nhập hoặc đăng ký để xem link này.

    6. Tạo liên kết chú thích cho file nd.xhtml
    Mục đích là biến chú thích dạng
    <a><sup>1</sup></a>
    <a><sup>2</sup></a>
    <a><sup>3</sup></a>
    ...
    thành dạng (chú ý màu tương ứng)
    <a href="gc.xhtml#gc1" id="nd1"><sup>1</sup></a>
    <a href="gc.xhtml#gc2" id="nd2"><sup>2</sup></a>
    <a href="gc.xhtml#gc3" id="nd3"><sup>3</sup></a>

    Chỉ cần làm đúng theo Vui lòng đăng nhập hoặc đăng ký để xem link này là được.
    Trong file nd.xhtml thực hiện lần lượt theo 3 bước bên dưới:
    a. Chạy PlugIn AddId lần 1
    Vào Menu Plugins/Edit/AddIDs sẽ hiện ra bảng
    Tag đặt là a
    ID prefix đặt là gc
    Counter đặt là 1
    Còn lại bỏ trống
    Đợi Plug-In AddId chạy xong bấm OK.

    b. Thay thế hàng loạt
    Find: <a id="
    Replace: <a href="../Text/gc.xhtml#
    Mode: Normal
    Replace All

    c. Chạy PlugIn AddId lần 2
    Vào Menu Plugins/Edit/AddIDs sẽ hiện ra bảng
    Tag đặt là a
    ID prefix đặt là gc
    Counter đặt là 1
    Còn lại bỏ trống
    Đợi Plug-In AddId chạy xong bấm OK.

    7. Thay thế hàng loạt Heading
    Chi tiết xem Vui lòng đăng nhập hoặc đăng ký để xem linknày.
    Vì đã đánh dấu Heading (tiêu đề, mục lục) theo quy luật sau:
    h1Nội dung1
    h2Nội dung 2
    h3Nội dung 3

    →<p>h1Nội dung 1</p>
    →<p>h2Nội dung 2</p>
    →<p>h3Nội dung 3</p>

    Thay thế hàng loạt ở Mode Regex là được:
    Find: <p>h1(.*?)</p>
    Replace with: <h1>\1</h1>

    Find:<p>h2(.*?)</p>
    Replace with:<h2>\1</h2>

    Find:<p>h3(.*?)</p>
    Replace with:<h3>\1</h3>

    8. Chỉnh sửa Heading dạng dòng to dòng nhỏ
    Chi tiết xem Vui lòng đăng nhập hoặc đăng ký để xem link này.
    Ví dụ: muốn có Heading như sau

    Chương 1
    Nhà khách Mẹ Ngỗng​

    Trong file Word ban đầu, "đánh dấu" Heading dạng dòng to dòng nhỏ theo quy luật: dùng dấu "-" để ngăn cách giữa 2 dòng (chú ý màu sắc)
    <h1>Chương 1-Nhà khách Mẹ Ngỗng</h1>

    Cú pháp cho Heading dạng dòng to dòng nhỏ
    <h1><span style="font-size: 120%">Chương 1</span><br/><span style="font-size: 90%;">Nhà khách Mẹ Ngỗng</span></h1>

    Cách làm:
    Find: <h1>(.*?)-(.*?)</h1>
    Replace with: <h1><span style="font-size: 120%">\1</span><br/><span style="font-size: 90%;">\2</span></h1>
    Mode: Regex trong Sigil

    Tương tự cho Heading 2 (nếu có dạng dòng to dòng nhỏ)
    Find:<h2>(.*?)-(.*?)</h2>
    Replace with:<h2><span style="font-size: 120%">\1</span><br/><span style="font-size: 90%;">\2</span></h2>

    9.Cú pháp thay thế hàng loạt ảnh minh họa
    Chi tiết xem Vui lòng đăng nhập hoặc đăng ký để xem link này.
    Giải thích:
    Đầu tiên phải nhập các file ảnh có tên theo quy luật xy.jpg vào Sigil. Trong đó xy là số trang trong sách giấy hoặc file pdf tương có ảnh minh họa.
    Do đã "đánh dấu" vị trí ảnh minh họa theo quy luật jjxy.
    Khi thêm thẻ p tự động vào file Word sẽ được <p>jjxy</p>
    (xem 1. Định dạng cho file nd.docx)

    Mục đích: thay chuỗi <p>jjxy</p>
    thành chuỗi
    <div style="text-align: center;"><img src="../Images/xy.jpg"/></div>
    Cách làm:
    Find: <p>jj(.*?)</p>
    Replace with: <div style="text-align: center;"><img src="../Images/\1.jpg"/></div>
    Mode: Regex trong Sigil

    10. Cú pháp thay thế hàng loạt canh lề
    Find và Replace lần lượt theo từng cặp
    <p>rri
    <p class="rri">

    <p>imgp
    <p class="imgp">

    <p>cnt
    <p class="cnt">

    <p>idtt
    <p class="idtt">

    Chi tiết xem Vui lòng đăng nhập hoặc đăng ký để xem link này.

    11. Thêm ảnh bìa cho ebook
    Chi tiết xem Vui lòng đăng nhập hoặc đăng ký để xem link này.

    12. Tách file - Tạo mục lục
    Chi tiết xem Vui lòng đăng nhập hoặc đăng ký để xem link này.
    a. Tách file
    Cut dòng 4 và dòng 5 trong Sigil (ở đoạn đầu của file nd.xhtml) để sau này phục hồi lại
    <html xmlns="Vui lòng đăng nhập hoặc đăng ký để xem link">
    <head>

    Sau đó
    Find: <h
    Replace: <hr class="sigil_split_marker" /><h
    Replace All

    Paste trả lại dòng 4 và dòng 5
    Cuối cùng bấm F6 để tách các file tương ứng với các Heading 1, Heading 2, Heading 3

    b. Tạo mục lục
    Bấm Ctrl+T và OK.


    13. Drop Cap trong Sigil
    Chi tiết xem Vui lòng đăng nhập hoặc đăng ký để xem link này.

    14. Kiểm tra chính tả trong Sigil
    Chi tiết xem Vui lòng đăng nhập hoặc đăng ký để xem link này.

    HẾT
    Chúc các bạn làm ebook vui vẻ :D
     

    Các file đính kèm:

    Chỉnh sửa cuối: 6/3/22
  8. TrenConDuongDo

    TrenConDuongDo Mầm non

    Vừa lúc mình đọc được chủ đề sửa lỗi chính tả trên diễn đàn.
    Nếu chủ thớt chưa để ý đã có bài viết này, đây là link: Vui lòng đăng nhập hoặc đăng ký để xem link
     
    linhlinhdoan98 and machine like this.
  9. iamtnl

    iamtnl Lớp 4

    Không rõ trên Android như thế nào chứ trên iOS thì app vFlat có chế độ tự động nhận diện trang sách luôn, chỉ cần giơ trang sách ra trước camera, đợi nhận diện là xong.

    Mình chụp 1k trang sách mất tầm hơn 1h, chủ yếu là công lật trang vs tách trang bị dính.
     
  10. Depressed

    Depressed Lớp 6

    Dùng vflat thử cài trên giả lập trên máy tính xong không biết cách nào ocr file scan luôn.
     
  11. machine

    machine Lớp 12

    Sorry cái này mình không biết gì luôn :D
     
  12. hoangkiss

    hoangkiss Lớp 2

    Gửi bạn một trang convert PDF -> word (hỗ trợ OCR) chuẩn mà ít lỗi nhất mình biết: Vui lòng đăng nhập hoặc đăng ký để xem link
    Kèm file Vietnamese 2021.dic được lưu trong mục kiểm tra chính tả word ...

    upload_2022-5-8_23-22-57.png
     

    Các file đính kèm:

  13. machine

    machine Lớp 12

    Có mấy phần mềm soát lỗi chính tả cùng dựa vào file Vietnamese.dic: Word, Notepad++ (DSpellCheck plugin), Sigil, Calibre.
    Soát lỗi chính tả bằng Sigil thuận tiện hơn một chút vì Sigil tự tìm kiếm và liệt kê các lỗi chính tả (là các từ không có trong file từ điển Vietnamese.dic) bao gồm cả thống kê số lượng của từng lỗi chính tả theo dạng bảng. Dựa vào đó người sử dụng có thể thay thế hàng loạt hoặc thay thế từng lỗi. Chi tiết xem Vui lòng đăng nhập hoặc đăng ký để xem link này.

    Nói thêm về các phần mềm hỗ trợ soát lỗi chính tả đã giới thiệu:
    - Text Crawler: tự động thay thế các lỗi chính tả theo danh sách, người dùng chỉ việc click chuột
    - Sigil: tự động liệt kê các lỗi chính tả và số lượng theo dạng bảng, người dùng chỉ cần nhìn vào bảng liệt kê và click chuột để đến vị trí có lỗi chính tả.
    - Google Docs: tự động tìm lỗi chính tả và đưa ra gợi ý (đa phần là gợi ý chính xác) người dùng hầu như chỉ phải click chuôt "Đồng ý" hoặc "Từ chối".
    Nếu phần mềm chỉ highlight lỗi chính tả để người dùng dễ phân biệt hơn thì không thuận tiện bằng các phần mềm bán tự động nêu trên (vì mặc dù các lỗi chính tả đã được đánh dấu để dễ phát hiện nhưng người dùng vẫn mất công đọc/tìm kiếm để phát hiện ra lỗi chính tả).

    Cảm ơn các bạn đã giới thiệu.
     
    hoangkiss thích bài này.
  14. machine

    machine Lớp 12

    Mình đã thử OCR trang Vui lòng đăng nhập hoặc đăng ký để xem link bằng ABBYY 15 và web site Fileeagle.com để so sánh, có mấy nhận xét như sau:
    Ưu điểm:
    - web site Fileeagle (sau đây gọi tắt là Fileeagle) nhận dạng được chữ nghiêng, chữ đậm
    - Fileeagle cho phép OCR cả những file pdf lớn (file pdf mình thử có 262 trang, 20Mb), tốc độ OCR cao (tương đương ABBYY 15 chạy trên máy tính).
    Nhược điểm:
    - không tự động loại bỏ được Header và Footer của sách (ABBYY tự loại bỏ được)
    - không nhận dạng đa ngôn ngữ được như ABBYY nên sách có tiếng cả tiếng Anh tiếng Việt sau khi OCR bằng Fileeagle có nhiều lỗi chính tả tiếng Anh
    - độ chính xác dường như kém hơn so với ABBYY. Ví dụ: Sigil (ấn tổ hợp phím Alt Q) thống kê được file Word sau OCR từ Fileeagle có 4 lỗi "sủ" và 123 lỗi "sũa" trong khi file Word sau OCR từ ABBYY có 3 lỗi "sủ" và 117 lỗi "sũa"

    Kết luận: Fileeagle còn phải cố gắng để đuổi kịp ABBYY 15 (ra mắt từ 2-3 năm trước), so với vFlat chắc còn kém xa nữa.

    2 file đính kèm để so sánh.
     

    Các file đính kèm:

  15. Depressed

    Depressed Lớp 6

    Sao mình dùng ABBYY 15 thấy nó lỗi nhiều thế nhỉ, dùng mà bị lỗi nhiều chán quá chả muốn dùng nữa. Để nguyên file pdf scan chứ lỗi như kiểu đánh mới lại. Còn có chữ nó tự thay bằng chữ khác vào nữa.
     
    hoangkiss thích bài này.
  16. machine

    machine Lớp 12

    Bạn tự tạo file pdf từ ảnh bạn tự chụp hay lấy file pdf từ nguồn nào?
    File pdf của bạn đã tẩy trắng nền chưa?
    Độ phân giải của ảnh trong file pdf là bao nhiêu? Ảnh có "nét" không?
    Bạn xử lý ảnh chụp bằng Scan Tailor hay gì?
    Phần Language thiết lập trong ABBYY đã có Vietnamese chưa?
     
  17. Depressed

    Depressed Lớp 6

    Mình không chụp mà dùng máy scan trực tiếp nên chất lượng rất tốt, phần ngôn ngữ mình cũng đã thiết lập rồi. Thử với một số file pdf của nhà xuất bản trẻ thì cũng thấy bị như vậy.
     
  18. machine

    machine Lớp 12

    Mặc dù ABBYY có độ chính xác kém hơn vFlat nhưng mình chụp ảnh bằng điện thoại cùi sau đó xử lý bằng Scan Tailor rồi OCR bằng ABBYY và chạy Text Crawler thì độ chính xác cũng khá cao.
    Chạy Text Crawler sau OCR bằng ABBYY thường giảm được vài trăm đến vài nghìn lỗi chính tả.
    Bạn upload một file pdf bất kỳ của bạn mình thử xem sao.
     
    hoangkiss and Depressed like this.
  19. Depressed

    Depressed Lớp 6

    Ví dụ như một trang này,
    upload_2022-5-11_7-21-0.png

    Trước mình ocr có sách nó tự động thay nội dung khác vào, giờ chưa nhớ là ocr cuốn nào.
     
  20. tran ngoc anh

    tran ngoc anh Cử nhân

    Abbyy Finereader vẫn đáng tin cậy nhất cái khoản không thêm bậy bạ vào như Vflat hay Google. Em í cũng đáng tin cậy nhất hay nói khác đi là lựa chọn duy nhất để giữ tốt được cấu trúc trang phức tạp, nghiêng đậm đầy đủ.
     
    Chỉnh sửa cuối: 17/5/22

Chia sẻ trang này