Monday 4 June 2018

Đánh máy lại sách in xưa kia bằng OCR tiếng Việt

Kính thưa quí bạn

Tôi dành cái email nầy giới thiệu cùng các bạn một chuyện mà tôi tin rằng có ích cho nhiều người.
Các quyển sách xuất bản trước đây thường được tác giả đưa bản thảo viết tay cho nhà in. Thợ nhà in sẽ sắp chữ "chì" vào khuôn và in thành sách. Như vậy sau khi in xong tác giả chỉ có quyển sách giấy trên tay.

Ngày nay muốn mang sách xưa in lại thì thường người ta chọn một trong hai chuyện:

1. Scan từng trong sách xưa thành hình xong mang in. Ngày xưa quyển sách ra sao thì in lại cũng giống y chang như vậy. Tức gần như là photocopy.
Các bạn có thể vào đây xem hàng trăm sách xưa có quyển in trước năm 1900.
Kho Sách Xưa của Quán Ven Đường  

Chứa những quyển sách khó kiếm.
Những trang sách nơi đây đều là hình scan, không thể sửa chính tả hay sửa nội dung như là một bài viết Microsoft Word hay một email.


2. Hoặc là tác giả mướn người dùng computer đánh máy lại từng trang sách thành dạng text (dạng electronic, thí dụ như Microsoft Word) và tác giả có thể edit, update, sửa lỗi chính tả do thợ sắp chữ sai... lại trong lần in kế,  
Một quyển sách năm ba trăm trang có khi cần cả tháng mới đánh máy xong.

Hôm nay tôi bày các bạn cách dùng computer để đánh máy lại nguyên quyển sách mất vài phút. Thêm chùng một buổi ngồi đọc lại và chỉnh những chỗ computer đánh sai, đó là dùng phương pháp OCR.

Ngày xưa cách nay năm ba năm thì chữ Anh, chữ Pháp được nhận diện chính xác tới 98%, nhưng chữ Việt thì sai quá nhiều, ngồi sửa mất thì giờ, tự tay đánh máy lại có khi nhanh hơn.

Nhưng ngày nay khác rồi, software OCR nhận mặt chữ trên Việt in trên tờ giấy (thí dụ trang sách, hay tờ báo in) chính xác tới 98%.. Có khi cả trang sách in rõ không sai chữ nào hết. Software nầy có loại có luôn tự điển Việt để check chữ sai để sửa tự động.

Đây là cái video mới làm, tôi nhận diện nguyên quyển sách scan 260 trang chỉ mất vài phút, biến nó thành dạng Microsoft Word để có thể tự do edit hay search từ chủ đề. Dưới dạng sách scan, chúng ta không search được.


8:00 
Biến sách scan thành dạng edit được (thí dụ thành Microsoft Word) 
Nhận mặt chữ in trên giấy bằng OCR tiếng Việt. 
Tôi tin là tương lai sẽ có nhiều tác giả, nhiều văn thi sĩ, học già, sửa gia, nhà nghiên cứu... có sách in lâu năm trước đây cần tái bản hay cần bản electronic dạng Microsoft Word hay PDF sẽ biếu tôi một ly cà phê bắp rang pha cau khô thêm chút "ký ninh", hoặc tân tiến hơn thì pha thêm ruột pin.

Câu chót: Khi quí bạn thấy sách in lại dưới dạng đã edit thì nên cẩn thận, coi chừng những kẻ đốt sách sửa nội dung của tiền nhân. 


HCD 1-Jun-2018