Log in or Sign up

Hướng dẫn Làm ebook từ sách giấy

Discussion in 'Hướng dẫn chung' started by machine, Feb 9, 2022.

Page 1 of 2

machine Sinh viên năm I

Sau một thời gian làm ebook, tích lũy được một số kinh nghiệm/thủ thuật, mình tạo topic này để những bạn đến sau thêm một nguồn tham khảo và có thể tự tạo ebook của riêng các bạn mà không phải nhờ vả người khác.

Vì "đối tượng phục vụ" là những bạn chưa từng làm ebook từ sách giấy (hoặc có ít kinh nghiệm) nên có những chỗ mình sẽ viết hơi lan man và dài dòng. Mong được lượng thứ
Vì đây là những kinh nghiệm cá nhân, được viết lại theo ý hiểu của mình, chắc sẽ không tránh khỏi sai sót, mong các bạn góp ý nhiệt tình. Xin cảm ơn trước
Làm ebook từ sách giấy không khó nhưng bao gồm rất nhiều bước nhỏ (mình đếm sơ sơ gồm khoảng trên dưới 30 video hướng dẫn từng bước), viết vào 1 post sẽ rất dài và mình không đủ thời gian hoàn thành ngay 1 lúc nên mình sẽ chia ra thành 3-5 post phía sau và hoàn thiện trong 1 thời gian (1 vài ngày hoặc 1 vài tuần).

Về cơ bản, có hai cách tạo ebook như lược đồ bên dưới.

Cách convert file Word thành ebook: tham khảo Please login or register to view links
Cách đóng gói ebook bằng Sigil như lược đồ bên dưới:

Hướng dẫn chi tiết cách tạo ebook từ sách giấy và đóng gói ebook "chuyên nghiệp" bằng Sigil: lần lượt thực hiện từng bước theo thứ tự 4 bước B1 → B2 → B3 → B4 bên dưới.

Last edited: Mar 6, 2022

machine, Feb 9, 2022

#1

Heoconmtv, Chu Loan, Nhẫn nại and 13 others like this.
machine Sinh viên năm I
[Khái niệm chung về ebook]
Viết ra sẽ dài.
Các bạn xem file đính kèm.
Giải nén để có file pdf.
Attached Files:
- rar
  
  Kiến thức chung.rar
  
  File size:
  
  835.2 KB
  
  Views:
  
  209
Last edited: Mar 6, 2022

machine, Feb 9, 2022

#2

Heoconmtv, Minhnh, chis and 5 others like this.
machine Sinh viên năm I

[B1: Hướng dẫn chụp ảnh sách giấy]
Trang bị: smartphone + kẹp điện thoại + app chụp ảnh + phần mềm đổi tên hàng loạt
- Kẹp điện thoại: Do vFlat có khả năng "nắn thẳng" trang sách cong nên đồ nghề chụp ảnh trang sách không yêu cầu tấm kính (hoặc tấm mica) để ép thẳng trang sách nữa. Bạn chỉ cần dùng kẹp điện thoại đuôi khỉ là đủ (mua trên Shopee khoảng 15-20k/cái).
- app chụp ảnh: [update] dùng luôn vFlat. vFlat có tính năng chụp "tự động" 2 trang sách một lần và tự chia ảnh.

Last edited: Mar 9, 2022

machine, Feb 9, 2022

#3

Heoconmtv, Chu Loan, Minhnh and 5 others like this.
machine Sinh viên năm I
[B2: Soát lỗi chính tả]
Sau khi chụp ảnh từng trang sách và OCR, ta có được file Word. File Word này sẽ có khá nhiều lỗi chính tả.
→ Phải soát lỗi chính tả để được file Word sạch lỗi chính tả trước khi đóng gói ebook.
Soát lỗi chính tả là phần việc chiếm nhiều thời gian nhất trong tổng thời gian làm ebook.

Cách truyền thống là dùng phần mềm Microsoft Word trên máy tính hoặc điện thoại, đọc đến đâu sửa lỗi đến đó. Cách này nhàm chán và tốn nhiều thời gian.
[Bổ sung video soát lỗi chính tả trên điện thoại ở đây]
Bên cạnh đó, có một số cách khác giúp giảm bớt công sức soát lỗi chính tả, tạm gọi là công việc xử lý sau OCR.
Mình thường xử lý sau OCR theo trình tự sau:
1. Sửa lỗi chính tả bằng Text Crawler
2. Soát lỗi trong Sigil
3. Soát lỗi bằng Google Docs
Sau khi thực hiện xong 3 bước trên, tỷ lệ lỗi chính tả còn lại khoảng 0,2% ÷ 0,3% hoặc ít hơn tùy chất lượng ảnh chụp (hoặc chất lượng bản scan).
→ khi đó có thể đóng gói trên ebook để vừa đọc ebook vừa soát lỗi cho nhanh.
→ có thể bỏ qua bước soát lỗi trên Word

1. Sửa lỗi chính tả bằng Text Crawler
Tham khảo Please login or register to view links
- Công việc chuẩn bị:
xem Please login or register to view links này. Video này mô tả cách thêm thẻ p, i, b vào một file Word.
Giải thích: Sau khi OCR được file Word (thường có nhiều lỗi chính tả) có kiểu chữ nghiêng, chữ đậm.
TextCrawler hiện nay chỉ làm việc với file text (*.txt) vốn không có định dạng chữ in đậm, in nghiêng.
→ phải thêm thẻ i, thẻ b để sau này khôi phục lại được kiểu chữ in nghiêng, in đậm
Lưu ý: thêm thẻ p (not Italic, Not Bold) trước để rồi mới thêm thẻ i, b. Nếu thêm thẻ i, b trước thẻ p như Please login or register to view links này sẽ xảy ra lỗi khi sau này chuyển vào Sigil.

- cách sử dụng Text Crawler:
xem Please login or register to view links này.
Chạy lần lượt Dict1-00 → Dict1-04 → Dict2-01 → Dict2-12 →... → Last.txt
Nên để file nguồn và file đích ở hai thư mục khác nhau.

2. Sửa lỗi chính tả bằng Sigil
Chi tiết xem Please login or register to view links này.
File text tạo thêm thẻ p ở bên trên sẽ thừa/thiếu thẻ p ở dòng đầu và dòng cuối cùng của văn bản. Cần thêm hoặc xóa thẻ p cho dòng đầu tiên và dòng cuối cùng. Sau đó Paste toàn bộ nội dung file text vào Sigil, sửa lỗi nếu có.
Sigil sau khi cài đặt từ điển chính tả có thể dùng để soát lỗi chính tả sơ bộ cho ebook hoặc kiểm tra nhanh lỗi chính tả trong các ebook sẵn có.
Khi quan sát cột bên phải bảng lỗi chính tả, nếu phát hiện một lỗi chính tả lặp lại nhiều lần chỉ việc thay thế hàng loạt.
Hướng dẫn cài đặt từ điển chính tả cho Sigil xem post 5 bên dưới.

3. Soát lỗi chính tả bằng Google Docs
Dùng Calibre để chuyển file epub thu được ở bên trên thành file Word, xóa ảnh bìa, đổi font chữ và màu nền phù hợp, upload lên Google Drive sau đó Double click vào file Word vừa upload để mở Google Docs và bắt đầu soát lỗi chính tả theo gợi ý của Google Docs (chỉ việc bấm vào từ gợi ý nếu đồng ý hoặc bấm nút Từ chối).
Trong khi soát lỗi chính tả có thể mở file scan để đối chiếu nội dung. Tốt nhất là tạo được file pdf có kèm text khi tìm kiếm nội dung sẽ thuận lợi hơn.
Chi tiết xem Please login or register to view links này.

File đính kèm bên dưới để thực hành.
Attached Files:
- docx
  
  Giadinh.docx
  
  File size:
  
  98.9 KB
  
  Views:
  
  61
- epub
  
  Simple.epub
  
  File size:
  
  2.9 KB
  
  Views:
  
  46
- rar
  
  Dict.rar
  
  File size:
  
  467.3 KB
  
  Views:
  
  69
Last edited: Mar 6, 2022

machine, Feb 9, 2022

#4

Heoconmtv, Anan Két, Minhnh and 2 others like this.
machine Sinh viên năm I
[Các thao tác chuẩn bị trong Sigil]
Có 2 thao tác cần chuẩn bị cho Sigil: cài đặt từ điển tiếng Việt (để soát lỗi chính tả) và cài đặt Plug-In AddId (để làm chú thích tự động).
- Cài đặt từ điển tiếng Việt: xem Please login or register to view links này.
- Cài đặt Plug-In AddId: xem Please login or register to view links này
- Thêm và xóa file html trong Sigil (for newbie): xem Please login or register to view links này.

Từ điển chính tả và Plug-In AddId chỉ phải cài đặt 1 lần đầu, sau này không phải cài đặt nữa.

Giải thích về liên kết chú thích
Trong file nd.xhtml có chú thích:
<a href="gc.xhtml#gc1" id="nd1"><sup>1</sup></a>
giải thích: vị trí hiện tại là nd1 (trong file nd.xhtml), khi bấm vào chú thích này thì chuyển đến vị trí gc1 trong file gc.xhtml

Trong file gc.xhtml có chú thích
<p class="tinyy"><a href="nd.xhtml#nd1" id="gc1">(1)</a><span>Nội dung.</span></p>
giải thích: vị trí hiện tại là gc1 (trong file gc.xhtml), khi bấm vào chú thích này thì chuyển đến vị trí nd1 trong file nd.xhtml

Sử dụng file đính kèm để thực hành.
Attached Files:
- zip
  
  AddIDs_v0.4.4.zip
  
  File size:
  
  121.4 KB
  
  Views:
  
  87
- rar
  
  Vietnamese.rar
  
  File size:
  
  14.3 KB
  
  Views:
  
  111
Last edited: Mar 6, 2022

machine, Feb 9, 2022

#5

Heoconmtv, sucsongmoi, tran ngoc anh and 2 others like this.
machine Sinh viên năm I
[B3: "Đánh dấu" trong file Word]
Sau khi soát lỗi chính tả ở B2 (Please login or register to view links) đã giảm được khá nhiều lỗi chính tả trong file Word. Có thể soát lỗi thủ công tiếp hoặc dừng lại đóng gói ebook rồi vừa đọc vừa soát chính tả sau.
Giả sử đã có file Word tương đối sạch lỗi chính tả, trước khi đóng gói ebook cần phải làm một số công việc chuẩn bị sau đây:
- xác định Heading (tiêu đề chương)
- đánh dấu vị trí canh lề (phải, giữa, đoạn thơ)
- đánh dấu vị trí có ảnh
- đánh dấu vị trí có chú thích (và đánh số thứ tự chú thích)

Cụ thể như sau:

1. Xác định Heading
Căn cứ vào trang mục lục của sách, Mục lục “lớn nhất” sẽ là Heading 1, các mục lục “nhỏ” hơn sẽ tương ứng Heading 2, Heading 3…
Ví dụ: Mở một cuốn sách, tìm đến trang Mục lục

- Heading 1: là lớp ngoài cùng của mục lục, ở ví dụ này bao gồm: “Lời giới thiệu”, “Dẫn luận”, “Đất nước và con người”, Chương I… và Chương II…
- Heading 2: là lớp thứ 2, ở ví dụ này bao gồm các mục I, II, II, IV: “I. Khung cảnh thiên nhiên”, “II. Dân cư”, “I. Xã hội nguyên thủy”, “II. Những vương quốc Việt đầu tiên”, “III. Vương quốc Nam Việt”, “I. Việc du nhập các thiết chế Trung Hoa”…
- Heading 3: căn cứ vào nội dung cuốn sách, có thể thêm nếu thích mục lục chi tiết hơn nữa.

Ngoài ra: thay ngoặc vuông thành ngoặc móc và một số việc khác như Please login or register to view links này.
Do sẽ đánh dấu chú thích bằng ngoặc vuông nên phải thay thế ngoặc vuông hiện tại nếu có ([ → { và ] → })

2. Đánh dấu canh lề
- canh lề phải: thêm từ rri vào đầu dòng văn bản canh lề phải
- canh lề giữa: thêm từ cent vào đầu dòng văn bản canh lề giữa
- câu thơ: thêm chữ từ vào đầu mỗi câu thơ
Cụ thể như Please login or register to view links này.
Chú ý: các từ rri, cent, idtt phải đứng đầu dòng và không được có định dạng nghiêng hoặc đậm. Bạn có thể thay đổi bằng các từ khác tùy ý nhưng phải nhớ quy ước thống nhất từ đầu đến cuối file Word.

3. Đánh dấu Heading
Heading 1 → đánh dấu h1 ở đầu dòng
Heading 2 → đánh dấu h2 ở đầu dòng
Heading 3 (nếu có) → đánh dấu h3 ở đầu dòng
Heading 4 (nếu có)→ đánh dấu h4 ở đầu dòng
Heading 5 (nếu có)→ đánh dấu h5 ở đầu dòng
Xem Please login or register to view links này.

4. Đánh dấu và tách ảnh minh họa
- Đánh dấu ảnh:
vị trí có ảnh minh họa bằng dòng chữ jjxy trong đó xy tương ứng với số trang chứa ảnh. Nếu 1 trang có 2 hoặc nhiều ảnh thì lần lượt đánh dấu mỗi dòng ứng với một ảnh như sau
jjxy-1
jjxy-2
jjxy-3
...

- tách ảnh:
nếu OCR bằng ABBYY, sẽ thu được ảnh minh họa trong file Word, có thể tận dụng ảnh này nếu muốn. Nếu sách được dịch từ tiếng Anh, có thể vào vn1lib để tìm ebook tiếng Anh để lấy ảnh minh họa.
ảnh minh họa đặt tên theo quy luật xy.jpg trong đó xy là số trang trong sách có ảnh minh họa. Nếu trang sách có nhiều ảnh minh họa, đặt tên ảnh lần lượt là:
xy-1.jpg
xy-2.jpg
xy-3.jpg
...

Chi tiết xem Please login or register to view links này.

5. Đánh dấu và tách chú thích
- Tạo sẵn file "gc.docx" có các dòng đánh số lần lượt [1], [2], [3]...[100]...[200]...
duyệt từ đầu đến cuối file Word (file nd.docx) và tách lần lượt từng chú thích vào các dòng [1], [2], [3]... trong file gc.docx. Vị trí có chú thích trong file nd.docx đánh dấu tương ứng [1], [2], [3]...
Chi tiết xem Please login or register to view linksnày.
Attached Files:
- docx
  
  gc sample.docx
  
  File size:
  
  12.2 KB
  
  Views:
  
  50
Last edited: Mar 6, 2022

machine, Feb 9, 2022

#6

Heoconmtv, sucsongmoi, tran ngoc anh and 1 other person like this.
machine Sinh viên năm I
[B4: Đóng gói ebook]
Cảnh báo: Nội dung rất dài, nên có máy tính để thực hành.
Sau khi đã "đánh dấu" các vị trí cần thiết trong file nd.docx và tách chú thích sang file gc.docx có thể kiểm tra sai sót khi tách ghi chú (nếu có) như Please login or register to view links này.
Sau khi đã có file nd.docx và gc.docx hoàn chỉnh (đính kèm bên dưới để thực hành) cần thực hiện lần lượt theo 14 bước bên dưới để đóng gói ebook bằng Sigil.

1. Định dạng cho file nd.docx
Chi tiết xem Please login or register to view links này.
- lần lượt thêm thẻ p, i, b
- thay thế sơ bộ chú thích:
thay [ bằng <a><sup>
thay ] bằng </sup></a>

khi đó sẽ thu được:
+ chú thích có dạng: <a><sup>1</sup></a>, <a><sup>2</sup></a>...
+ canh lề phải: <p>rri
+ canh lề giữa: <p>cent
+ câu thơ:
<p>idttCâu thơ 1</p>
<p>idttCâu thơ 2</p>
...

2. Định dạng cho file gc.docx
Chi tiết xem Please login or register to view links này.
- lần lượt thêm thẻ p, i, b
- thay thế sơ bộ chú thích:
thay <p>[ bằng <p><a>(
thay ] bằng )</a>
Khi đó các nội dung chú thích sẽ có dạng:
<p><a>(1)</a>Nội dung chú thích 1</p>
<p><a>(2)</a>Nội dung chú thích 2</p>
<p><a>(3)</a>Nội dung chú thích 3</p>
...

3. Copy file gc.docx vào Sigil và xử lý lỗi trong Sigil
Chi tiết xem Please login or register to view links này.
Nếu có lỗi trong Sigil, nhìn xem lỗi ở dòng số bao nhiêu để sửa tương ứng. Thường chỉ là lỗi đơn giản như thay & bằng & hoặc có các cặp thẻ không nằm hoàn toàn bên trong hoặc hoàn toàn bên ngoài cặp thẻ khác.
Nếu Sigil báo lỗi quá khó hiểu, bấm phím F7 rồi Double click vào dòng thông báo lỗi, khi đó Sigil sẽ hướng dẫn cách sửa lỗi cụ thể hơn.

4. Tạo liên kết chú thích cho file gc.xhtml
Mục đích là biến chú thích dạng:
<p><a>(1)</a>Nội dung chú thích 1</p>
<p><a>(2)</a>Nội dung chú thích 2</p>
<p><a>(3)</a>Nội dung chú thích 3</p>
...
thành dạng (chú ý màu sắc tương ứng)
<p class="tinyy"><a href="nd.xhtml#nd1" id="gc1">(1)</a><span>Nội dung chú thích 1</span></p>
<p class="tinyy"><a href="nd.xhtml#nd2" id="gc2">(2)</a><span>Nội dung chú thích 2</span></p>
<p class="tinyy"><a href="nd.xhtml#nd3" id="gc3">(3)</a><span>Nội dung chú thích 3</span></p>
...

Khá là phức tạp. Bạn hiểu được thì tốt, không hiểu cũng không sao.
Chỉ cần làm đúng theo Please login or register to view links này là được.
Yêu cầu: Sigil đã cài đặt Plu-In AddId.
Trong file gc.html (hoặc gc.xhtml) lần lượt thực hiện theo 4 bước sau:
a. Thay thế sơ bộ
Find: <p><a>(.*?)</a>(.*?)</p>
Replace: <p class="tinyy"><a>\1</a><span>\2</span></p>
Mode: Regex

b. Chạy PlugIn AddId lần 1
Vào Menu Plugins/Edit/AddIDs sẽ hiện ra bảng
Tag đặt là a
ID prefix đặt là nd
Counter đặt là 1
Còn lại bỏ trống
Đợi Plug-In AddId chạy xong bấm OK.

c. Thay thế hàng loạt
Find: <a id="
Replace: <a href="../Text/nd.xhtml#
Mode: Normal
Replace All

d. Chạy PlugIn AddId lần 2
Vào Menu Plugins/Edit/AddIDs sẽ hiện ra bảng
Tag đặt là a
ID prefix đặt là gc
Counter đặt là 1
Còn lại bỏ trống
Đợi Plug-In AddId chạy xong bấm OK.

5. Copy file nd.docx vào Sigil và xử lý lỗi nếu có
Chi tiết xem Please login or register to view links này.

6. Tạo liên kết chú thích cho file nd.xhtml
Mục đích là biến chú thích dạng
<a><sup>1</sup></a>
<a><sup>2</sup></a>
<a><sup>3</sup></a>
...
thành dạng (chú ý màu tương ứng)
<a href="gc.xhtml#gc1" id="nd1"><sup>1</sup></a>
<a href="gc.xhtml#gc2" id="nd2"><sup>2</sup></a>
<a href="gc.xhtml#gc3" id="nd3"><sup>3</sup></a>

Chỉ cần làm đúng theo Please login or register to view links này là được.
Trong file nd.xhtml thực hiện lần lượt theo 3 bước bên dưới:
a. Chạy PlugIn AddId lần 1
Vào Menu Plugins/Edit/AddIDs sẽ hiện ra bảng
Tag đặt là a
ID prefix đặt là gc
Counter đặt là 1
Còn lại bỏ trống
Đợi Plug-In AddId chạy xong bấm OK.

b. Thay thế hàng loạt
Find: <a id="
Replace: <a href="../Text/gc.xhtml#
Mode: Normal
Replace All

c. Chạy PlugIn AddId lần 2
Vào Menu Plugins/Edit/AddIDs sẽ hiện ra bảng
Tag đặt là a
ID prefix đặt là gc
Counter đặt là 1
Còn lại bỏ trống
Đợi Plug-In AddId chạy xong bấm OK.

7. Thay thế hàng loạt Heading
Chi tiết xem Please login or register to view linksnày.
Vì đã đánh dấu Heading (tiêu đề, mục lục) theo quy luật sau:
h1Nội dung1
h2Nội dung 2
h3Nội dung 3

→<p>h1Nội dung 1</p>
→<p>h2Nội dung 2</p>
→<p>h3Nội dung 3</p>

Thay thế hàng loạt ở Mode Regex là được:
Find: <p>h1(.*?)</p>
Replace with: <h1>\1</h1>

Find:<p>h2(.*?)</p>
Replace with:<h2>\1</h2>

Find:<p>h3(.*?)</p>
Replace with:<h3>\1</h3>

8. Chỉnh sửa Heading dạng dòng to dòng nhỏ
Chi tiết xem Please login or register to view links này.
Ví dụ: muốn có Heading như sau

Chương 1
Nhà khách Mẹ Ngỗng

Trong file Word ban đầu, "đánh dấu" Heading dạng dòng to dòng nhỏ theo quy luật: dùng dấu "-" để ngăn cách giữa 2 dòng (chú ý màu sắc)
<h1>Chương 1-Nhà khách Mẹ Ngỗng</h1>

Cú pháp cho Heading dạng dòng to dòng nhỏ
<h1><span style="font-size: 120%">Chương 1</span><br/><span style="font-size: 90%;">Nhà khách Mẹ Ngỗng</span></h1>

Cách làm:
Find: <h1>(.*?)-(.*?)</h1>
Replace with: <h1><span style="font-size: 120%">\1</span><br/><span style="font-size: 90%;">\2</span></h1>
Mode: Regex trong Sigil

Tương tự cho Heading 2 (nếu có dạng dòng to dòng nhỏ)
Find:<h2>(.*?)-(.*?)</h2>
Replace with:<h2><span style="font-size: 120%">\1</span><br/><span style="font-size: 90%;">\2</span></h2>

9.Cú pháp thay thế hàng loạt ảnh minh họa
Chi tiết xem Please login or register to view links này.
Giải thích:
Đầu tiên phải nhập các file ảnh có tên theo quy luật xy.jpg vào Sigil. Trong đó xy là số trang trong sách giấy hoặc file pdf tương có ảnh minh họa.
Do đã "đánh dấu" vị trí ảnh minh họa theo quy luật jjxy.
Khi thêm thẻ p tự động vào file Word sẽ được <p>jjxy</p>
(xem 1. Định dạng cho file nd.docx)

Mục đích: thay chuỗi <p>jjxy</p>
thành chuỗi
<div style="text-align: center;"><img src="../Images/xy.jpg"/></div>
Cách làm:
Find: <p>jj(.*?)</p>
Replace with: <div style="text-align: center;"><img src="../Images/\1.jpg"/></div>
Mode: Regex trong Sigil

10. Cú pháp thay thế hàng loạt canh lề
Find và Replace lần lượt theo từng cặp
<p>rri
<p class="rri">

<p>imgp
<p class="imgp">

<p>cnt
<p class="cnt">

<p>idtt
<p class="idtt">

Chi tiết xem Please login or register to view links này.

11. Thêm ảnh bìa cho ebook
Chi tiết xem Please login or register to view links này.

12. Tách file - Tạo mục lục
Chi tiết xem Please login or register to view links này.
a. Tách file
Cut dòng 4 và dòng 5 trong Sigil (ở đoạn đầu của file nd.xhtml) để sau này phục hồi lại
<html xmlns="Please login or register to view links">
<head>

Sau đó
Find: <h
Replace: <hr class="sigil_split_marker" /><h
Replace All

Paste trả lại dòng 4 và dòng 5
Cuối cùng bấm F6 để tách các file tương ứng với các Heading 1, Heading 2, Heading 3

b. Tạo mục lục
Bấm Ctrl+T và OK.

13. Drop Cap trong Sigil
Chi tiết xem Please login or register to view links này.

14. Kiểm tra chính tả trong Sigil
Chi tiết xem Please login or register to view links này.

HẾT

Chúc các bạn làm ebook vui vẻ
Attached Files:
- docx
  
  nd.docx
  
  File size:
  
  39.2 KB
  
  Views:
  
  32
- docx
  
  gc.docx
  
  File size:
  
  19.7 KB
  
  Views:
  
  24
- epub
  
  Sample.epub
  
  File size:
  
  262.6 KB
  
  Views:
  
  28
Last edited: Mar 6, 2022

machine, Feb 9, 2022

#7

Heoconmtv, bamagachu, linhlinhdoan98 and 1 other person like this.
TrenConDuongDo Mầm non

Vừa lúc mình đọc được chủ đề sửa lỗi chính tả trên diễn đàn.
Nếu chủ thớt chưa để ý đã có bài viết này, đây là link: Please login or register to view links

TrenConDuongDo, Feb 21, 2022

#8

linhlinhdoan98 and machine like this.
iamtnl Lớp 4

Không rõ trên Android như thế nào chứ trên iOS thì app vFlat có chế độ tự động nhận diện trang sách luôn, chỉ cần giơ trang sách ra trước camera, đợi nhận diện là xong.

Mình chụp 1k trang sách mất tầm hơn 1h, chủ yếu là công lật trang vs tách trang bị dính.

iamtnl, Feb 21, 2022

#9

TrungKien2101, machine and tran ngoc anh like this.
Depressed Lớp 6

Dùng vflat thử cài trên giả lập trên máy tính xong không biết cách nào ocr file scan luôn.

Depressed, Mar 19, 2022

#10
machine Sinh viên năm I

Depressed said: ↑

Dùng vflat thử cài trên giả lập trên máy tính xong không biết cách nào ocr file scan luôn.
Click to expand...

Sorry cái này mình không biết gì luôn

machine, May 8, 2022

#11
hoangkiss Lớp 2
Gửi bạn một trang convert PDF -> word (hỗ trợ OCR) chuẩn mà ít lỗi nhất mình biết: Please login or register to view links
Kèm file Vietnamese 2021.dic được lưu trong mục kiểm tra chính tả word ...
Attached Files:
- zip
  
  Vietnamese 2021.zip
  
  File size:
  
  14.9 KB
  
  Views:
  
  69
- upload_2022-5-8_23-21-37.png
  
  File size:
  
  121 KB
  
  Views:
  
  17
hoangkiss, May 8, 2022

#12

DinhDucAnh, nevertoolate, tran ngoc anh and 4 others like this.
machine Sinh viên năm I

hoangkiss said: ↑

Kèm file Vietnamese 2021.dic được lưu trong mục kiểm tra chính tả word ...

View attachment 90657
Click to expand...

TrenConDuongDo said: ↑

Vừa lúc mình đọc được chủ đề sửa lỗi chính tả trên diễn đàn.
Nếu chủ thớt chưa để ý đã có bài viết này, đây là link: Please login or register to view links
Click to expand...

Có mấy phần mềm soát lỗi chính tả cùng dựa vào file Vietnamese.dic: Word, Notepad++ (DSpellCheck plugin), Sigil, Calibre.
Soát lỗi chính tả bằng Sigil thuận tiện hơn một chút vì Sigil tự tìm kiếm và liệt kê các lỗi chính tả (là các từ không có trong file từ điển Vietnamese.dic) bao gồm cả thống kê số lượng của từng lỗi chính tả theo dạng bảng. Dựa vào đó người sử dụng có thể thay thế hàng loạt hoặc thay thế từng lỗi. Chi tiết xem Please login or register to view links này.

Nói thêm về các phần mềm hỗ trợ soát lỗi chính tả đã giới thiệu:
- Text Crawler: tự động thay thế các lỗi chính tả theo danh sách, người dùng chỉ việc click chuột
- Sigil: tự động liệt kê các lỗi chính tả và số lượng theo dạng bảng, người dùng chỉ cần nhìn vào bảng liệt kê và click chuột để đến vị trí có lỗi chính tả.
- Google Docs: tự động tìm lỗi chính tả và đưa ra gợi ý (đa phần là gợi ý chính xác) người dùng hầu như chỉ phải click chuôt "Đồng ý" hoặc "Từ chối".
Nếu phần mềm chỉ highlight lỗi chính tả để người dùng dễ phân biệt hơn thì không thuận tiện bằng các phần mềm bán tự động nêu trên (vì mặc dù các lỗi chính tả đã được đánh dấu để dễ phát hiện nhưng người dùng vẫn mất công đọc/tìm kiếm để phát hiện ra lỗi chính tả).

Cảm ơn các bạn đã giới thiệu.

machine, May 10, 2022

#13

hoangkiss likes this.
machine Sinh viên năm I
hoangkiss said: ↑

Gửi bạn một trang convert PDF -> word (hỗ trợ OCR) chuẩn mà ít lỗi nhất mình biết: Please login or register to view links

View attachment 90657
Click to expand...

Mình đã thử OCR trang Please login or register to view links bằng ABBYY 15 và web site Fileeagle.com để so sánh, có mấy nhận xét như sau:
Ưu điểm:
- web site Fileeagle (sau đây gọi tắt là Fileeagle) nhận dạng được chữ nghiêng, chữ đậm
- Fileeagle cho phép OCR cả những file pdf lớn (file pdf mình thử có 262 trang, 20Mb), tốc độ OCR cao (tương đương ABBYY 15 chạy trên máy tính).
Nhược điểm:
- không tự động loại bỏ được Header và Footer của sách (ABBYY tự loại bỏ được)
- không nhận dạng đa ngôn ngữ được như ABBYY nên sách có tiếng cả tiếng Anh tiếng Việt sau khi OCR bằng Fileeagle có nhiều lỗi chính tả tiếng Anh
- độ chính xác dường như kém hơn so với ABBYY. Ví dụ: Sigil (ấn tổ hợp phím Alt Q) thống kê được file Word sau OCR từ Fileeagle có 4 lỗi "sủ" và 123 lỗi "sũa" trong khi file Word sau OCR từ ABBYY có 3 lỗi "sủ" và 117 lỗi "sũa"

Kết luận: Fileeagle còn phải cố gắng để đuổi kịp ABBYY 15 (ra mắt từ 2-3 năm trước), so với vFlat chắc còn kém xa nữa.

2 file đính kèm để so sánh.
Attached Files:
- epub
  
  Ăn gì - ABBYY.epub
  
  File size:
  
  172.7 KB
  
  Views:
  
  12
- epub
  
  Ăn gì - Fileeagle.epub
  
  File size:
  
  171.5 KB
  
  Views:
  
  12
machine, May 10, 2022

#14
Depressed Lớp 6

Sao mình dùng ABBYY 15 thấy nó lỗi nhiều thế nhỉ, dùng mà bị lỗi nhiều chán quá chả muốn dùng nữa. Để nguyên file pdf scan chứ lỗi như kiểu đánh mới lại. Còn có chữ nó tự thay bằng chữ khác vào nữa.

Depressed, May 10, 2022

#15

hoangkiss likes this.
machine Sinh viên năm I

Depressed said: ↑

Sao mình dùng ABBYY 15 thấy nó lỗi nhiều thế nhỉ, dùng mà bị lỗi nhiều chán quá chả muốn dùng nữa. Để nguyên file pdf scan chứ lỗi như kiểu đánh mới lại. Còn có chữ nó tự thay bằng chữ khác vào nữa.
Click to expand...

Bạn tự tạo file pdf từ ảnh bạn tự chụp hay lấy file pdf từ nguồn nào?
File pdf của bạn đã tẩy trắng nền chưa?
Độ phân giải của ảnh trong file pdf là bao nhiêu? Ảnh có "nét" không?
Bạn xử lý ảnh chụp bằng Scan Tailor hay gì?
Phần Language thiết lập trong ABBYY đã có Vietnamese chưa?

machine, May 10, 2022

#16
Depressed Lớp 6

machine said: ↑

Bạn tự tạo file pdf từ ảnh bạn tự chụp hay lấy file pdf từ nguồn nào?
File pdf của bạn đã tẩy trắng nền chưa?
Độ phân giải của ảnh trong file pdf là bao nhiêu? Ảnh có "nét" không?
Bạn xử lý ảnh chụp bằng Scan Tailor hay gì?
Phần Language thiết lập trong ABBYY đã có Vietnamese chưa?
Click to expand...

Mình không chụp mà dùng máy scan trực tiếp nên chất lượng rất tốt, phần ngôn ngữ mình cũng đã thiết lập rồi. Thử với một số file pdf của nhà xuất bản trẻ thì cũng thấy bị như vậy.

Depressed, May 10, 2022

#17
machine Sinh viên năm I

Mặc dù ABBYY có độ chính xác kém hơn vFlat nhưng mình chụp ảnh bằng điện thoại cùi sau đó xử lý bằng Scan Tailor rồi OCR bằng ABBYY và chạy Text Crawler thì độ chính xác cũng khá cao.
Chạy Text Crawler sau OCR bằng ABBYY thường giảm được vài trăm đến vài nghìn lỗi chính tả.
Bạn upload một file pdf bất kỳ của bạn mình thử xem sao.

machine, May 10, 2022

#18

hoangkiss and Depressed like this.
Depressed Lớp 6

Ví dụ như một trang này,

Trước mình ocr có sách nó tự động thay nội dung khác vào, giờ chưa nhớ là ocr cuốn nào.

Depressed, May 11, 2022

#19
tran ngoc anh Cử nhân

Abbyy Finereader vẫn đáng tin cậy nhất cái khoản không thêm bậy bạ vào như Vflat hay Google. Em í cũng đáng tin cậy nhất hay nói khác đi là lựa chọn duy nhất để giữ tốt được cấu trúc trang phức tạp, nghiêng đậm đầy đủ.

Last edited: May 17, 2022

tran ngoc anh, May 11, 2022

#20

maiminh06, ngo tuan, machine and 1 other person like this.

(You must log in or sign up to reply here.)

Page 1 of 2

Share This Page