Chương 4: Tạo siêu dữ liệu: từ các ảnh số đến cơ sở dữ liệu của các tư liệu

Thứ sáu - 12/04/2013 01:02 1.141 0
Chương này sẽ nghiên cứu cách tổ chức các ảnh số trên đĩa, những khái niệm và kỹ thuật sách dẫn ảnh và các siêu dữ liệu kèm theo. Những vấn đề chung nhất liên quan đến sách dẫn, các cơ sở dữ liệu và thu hồi thông tin cũng sẽ được bàn đến.

Lời giới thiệu

Các chương I và II đã mô tả kỹ thuật, các phương pháp và những vấn đề có liên quan đến việc chuyển đổi các tư liệu nguồn sang dạng số. Tuy nhiên, những ảnh được quét dù có hoàn hảo đến mấy cũng sẽ trở nên vô dụng nếu chúng được lưu vào đĩa không theo một tổ chức nào và không phù hợp với mục đích sử dụng cuối cùng của nó.

Bạn hãy cân nhắc đôi chút về tính hữu ích của một thư mục với các tệp ảnh số được đặt tên lung tung và không hề có một cơ chế liên kết trực giác nào giữa ảnh này với ảnh khác. Những ảnh nào sẽ cùng thuộc về một tư liệu? Trật tự đúng của chúng trong tư liệu đó thế nào? Các ảnh được quét khi nào và do ai (để đặt ra chỉ tiêu chất lượng)? Danh mục dữ liệu của tư liệu ở đâu? Câu trả lời có thể là dễ hiểu đối với người quét ảnh và lưu chúng vào đĩa, song lại là điều khó hiểu đối với một người khác phải sử dụng đến hàng MB, thậm chí GB dữ liệu đã được lưu trữ lộn xộn.

Giải pháp cho vấn đề này nằm trong 3 chiến lược có liên quan chặt chẽ đến nhau sau đây:

Sắp xếp các tệp ảnh số trong đĩa theo trật tự phù hợp với cấu trúc tự nhiên của nguyên bản

Đặt tên cho các tệp ảnh số sao cho phản ánh được quan hệ logic giữa các ảnh

Mô tả bên trong các tệp ảnh số - sử dụng header của ảnh, và mô tả bên ngoài - sử dụng các tệp siêu dữ liệu mô tả được kết nối với nhau.

Một yếu tố cơ bản của cả ba chiến lược này là phải nhận thấy rằng mục đích đầu tiên của bạn phải là đọc và dịch được bằng máy các dữ liệu bạn đã ghi vào đĩa, tức là sử dụng những chương trình máy tính chỉ biết làm theo đúng một trình tự nhất định và sẵn sàng bị nhầm lẫn do các phụ đề để nhận ra và gọi được dữ liệu. Ví dụ, bạn có thể dễ dàng nhận ra rằng các tệp doc1.page1 và Document1.Page2 có thể chứa các trang 1 và 2 của cùng một tư liệu có tên là document1, nhưng một chương trình máy tính thì sẽ không thể hiểu được liên hệ giữa 2 tệp đó. Vì vậy, khi thực hiện những chiến dịch được trình bày ở chương này, bạn hãy lưu ý đến yêu cầu phải chuẩn hoá và kiểm tra chặt chẽ.

Vài lời về siêu dữ liệu (metadata)

Trật tự các số nhị phân trong các tệp số bạn đã quét là dữ liệu của sưu tập số. Bản thân các số nhị phân chẳng có ý nghĩa gì cả. Chúng ta mang lại cho dữ liệu đó ý nghĩa, văn cảnh và tổ chức bằng cách kết hợp những dữ liệu mô tả, hay siêu dữ liệu, với những con số như vậy.

Mặc dù một vài thuật ngữ xung quanh vấn đề siêu dữ liệu có thể là mới, nhưng khái niệm siêu dữ liệu thì hoàn toàn không có gì lạ đối với các chuyên viên thư viện và lưu trữ, đặc biệt là các nhà danh mục học. Liệt kê mô tả là một bộ môn nghệ thuật lâu đời, trong đó một cấu trúc có trật tự được dùng thay cho một khối dữ liệu hỗn loạn. Bằng cách xác lập cho mỗi đơn vị của sưu tập những đặc tính riêng của cùng một số thuộc tính nhất định (ví dụ: tên, tác giả, những chủ đề then chốt), nhà danh mục học giúp người sử dụng có thể tìm và tra cứu các yếu tố của sưu tập đó theo cách thức đã được chuẩn hoá. Ví dụ, bảng liệt kê MACR được coi là một bước tiến lớn trong bộ môn này vì nó đưa ra cú pháp và ngữ nghĩa học chuẩn mực cho việc liệt kê một tập hợp siêu dữ liệu. Nhờ cú pháp chuẩn mực này, các hệ thống liệt kê trực tuyến có thể đọc và dịch được dữ liệu.

Mặc dù liệt kê mô tả là dạng siêu dữ liệu thông dụng nhất, ta vẫn cần phải nhận biết và sử dụng một số dạng siêu dữ liệu khác:

Siêu dữ liệu quản lý (Administrative metadata) - Là loại siêu dữ liệu mang thông tin liên quan đến việc quản lý dữ liệu ở một cơ sở lưu trữ nhất định. Những thông tin thường thấy trong các siêu dữ liệu quản lý như: ngày tạo ra tệp, tên người tạo ra tệp và đặc điểm kỹ thuật của ảnh (ví dụ: kích thước, độ phân giải).

Siêu dữ liệu nguồn gốc (Provenence metadata) - Loại siêu dữ liệu này mang thông tin về nguồn gốc của một hay một vài đối tượng dữ liệu. Đối với ảnh số, loại siêu dữ liệu này có thể cho biết ảnh đã được tạo ra từ những nguyên tác thuộc một sưu tập nào đó.

Siêu dữ liệu liên kết (Linkage metadata) - Loại siêu dữ liệu này mang thông tin về quan hệ giữa các tệp trong một tập hợp nào đó. Ví dụ siêu dữ liệu liên kết của một ảnh số có thể cho biết ảnh nằm ở trang thứ 3 trong một tư liệu gồm 15 trang.

Siêu dữ liệu giới hạn và điều kiện (Terms and conditions metadata) - Loại siêu dữ liệu này xác định quy ước về "giấy phép" và các quy định khác khi khai thác dữ liệu. Ví dụ, siêu dữ liệu quy định rằng những ảnh thuộc về một tư liệu đặc biệt mà bạn đã quét chỉ cho phép truy cập đối với những người thuộc cơ sở của bạn.

Siêu dữ liệu cấu trúc (Structural metadata) - Loại siêu dữ liệu này mô tả cấu trúc bên trong của một đối tượng. Ví dụ: mục lục hoặc danh mục các hình và bảng minh hoạ.

Phần sau của chương này, chúng tôi sẽ mô tả phương pháp lưu siêu dữ liệu dưới nhiều dạng khác nhau và bàn về các hệ thống sách dẫn và truy cập.

Những nguyên tắc định hướng khi tạo siêu dữ liệu

Một số siêu dữ liệu chỉ liên quan đến một tệp, hay một ảnh. Số khác lại liên quan đến cả nhóm tệp hoặc ảnh - hay gọi một cách lôgíc là một tư liệu (cũng có thể là một cuốn sách gồm nhiều tập, một tạp chí định kỳ). Chúng ta sẽ tập trung vào việc tổ chức các siêu dữ liệu ở từng mức độ phù hợp theo trật tự này.

Hệ quả quy tắc trên là phải tránh mô tả lặp lại các siêu dữ liệu. Ví dụ, nếu yếu tố siêu dữ liệu này tương ứng với mức độ một nhóm tệp hay một tập ảnh, thì không lặp lại nó ở mức độ từng tệp hay từng ảnh. Sự lặp lại sẽ tạo ra vấn đề trong quản lý bởi vì sau đó những thay đổi trong siêu dữ liệu sẽ bị lặp lại ở tất cả các vị trí.

Chúng ta sẽ tập trung vào các tập hợp siêu dữ liệu đồng nhất, tức là những tệp hoặc tập hợp siêu dữ liệu chỉ gồm một loại siêu dữ liệu. Ví dụ, tập hợp siêu dữ liệu liệt kê mô tả, tập hợp siêu dữ liệu quản lý, v.v... Bằng cách phân chia như vậy, ta loại bỏ được tính phức tạp của một tệp tổng hợp rất khó quản lý đối với chúng ta và khó phân tích đối với các chương trình máy tính. Trách nhiệm về mỗi tập hợp siêu dữ liệu cũng có thể được trao cho những người có chuyên môn trong lĩnh vực có liên quan đến mục đích của tập hợp siêu dữ liệu đó.

Chúng ta sẽ tập trung vào cú pháp chuẩn đối với các siêu dữ liệu đi kèm với ảnh. ở đây chúng ta chỉ lặp lại điều đã nói ở trên - tức là mục tiêu đặt ra phải là những dữ liệu và mô tả đọc được bằng máy, phòng khi phải vận hành tự động sưu tập của bạn.

Nghiên cứu cụ thể: một tác phẩm nhiều tập

Đây là một thí dụ thực hành của những quy tắc trên. Ta sẽ tạo ra các siêu dữ liệu cho một tạp chí giả thuyết nào đó được tổ chức như sau:

mỗi trang (page) được ghi vào một tệp TIFF.

mỗi bài viết (article) dài từ 1 trang trở lên; có tên bài và tên tác giả (hoặc các tác giả).

mỗi số của tạp chí (issue) gồm nhiều bài viết và mục lục các bài, được đánh dấu bằng một số chỉ thứ tự, ví dụ 1, 2, v.v...

mỗi quyển (volume) là tập hợp các số phát hành trong vòng một năm, được đánh dấu bằng một số La mã, ví dụ: I, II, III, v.v...

tạp chí (periodical hay journal) bao gồm tất cả các quyển và phân biệt với các tạp chí khác có cấu trúc tương tự.

Tạo ra trật tự đĩa (disk hierarchy)

Bước đầu tiên khi chuẩn bị ghi ảnh đã quét vào đĩa là phải tạo ra một trật tự đĩa để bố trí ngăn nắp các phần của tạp chí. Ví dụ, tạo ra một thư mục gốc có tên là ScannedImages. Trong thư mục này, bạn lại tạo ra một thư mục nữa mang tên của tạp chí, ví dụ Journal of Ridiculous Results. Trong thư mục đó, bạn tạo ra các thư mục con dành cho mỗi quyển, đặt tên một cách thống nhất, ví dụ volume_I, volume_II,... Tương tự, bạn lập ra các thư mục cho mỗi số báo trong mỗi thư mục quyển, và lại sử dụng một loại tên nhất định, ví dụ: issue_1, issue_2,... Cuối cùng, trong mỗi thư mục số báo, bạn tạo ra các thư mục cho từng bài báo. Nhưng thay vì lấy tên bài báo (có thể rất dài) để đặt cho thư mục, bạn có thể dùng tên tác giả hoặc tổ hợp tên 2 tác giả đầu tiên, Ví dụ: gingrich, clinton_dole, v.v...

Đây là hình minh hoạ ví dụ của một cây thư mục:

Đặt tên tệp

Sau khi đã tạo ra một trật tự thư mục như vậy, bạn đã có chỗ chứa với cấu trúc đơn giản dành cho các ảnh đã quét. Ghi các trang của mỗi bài báo vào thư mục của bài báo đó và đặt tên tệp theo số trang tương ứng. Bạn nên sử dụng một con số có chiều dài nhất định, ví dụ: 0001, 0002, ..., 0010, v.v... thì hơn là đặt tên kiểu 1, 2, ..., 10, ... Có thể bạn sẽ muốn đưa thêm thông tin vào tên tệp, chẳng hạn như tên của bài báo và/ hoặc số báo. Điều này chỉ tổ làm tên tệp trở nên cồng kềnh và chỉ lặp lại thông tin đã được ngầm định ở tên của các thư mục trên. Tuy nhiên, chúng ta cũng sẽ sử dụng siêu dữ liệu để ghi thêm một số thông tin như sẽ được trình bày sau đây.

Khi quét một số báo, có thể bạn sẽ quét những trang không thuộc về một bài viết nào. Ví dụ, như trang mục lục, trang bìa, hoặc mục lục, quảng cáo. Bạn xếp từng loại ảnh (ví dụ các tệp TIFF) vào thư mục tương ứng, và đặt tên tệp theo số trang trong tạp chí, ví dụ: 0001, 0002, v.v... Có thể bạn sẽ muốn đặt cho mỗi tệp như vậy một cái tên lôgic như table_of_contents (mục lục) hoặc index (bảng sách dẫn), nhưng trong trường hợp này, sự khác nhau quá mức giữa những trang báo đó khiến cho những cái tên chỉ làm rối thêm. Lúc này, chúng ta có thể để dành những tên đó cho các tệp siêu dữ liệu tương ứng, như sẽ được mô tả sau đây.

Hình dưới trình bày cấu trúc thư mục của một số báo mẫu thuộc về tờ tạp chí chúng ta đang xét đến. Trong ví dụ này, các tệp 0001, 0002 và 0104 trong thư mục issue_1 là những trang "có vấn đề" của số báo 1.

Tạo ra siêu dữ liệu

Đến đây, chúng ta đã tạo ra một cây thư mục và đưa các tệp TIFF vào đó. Hãy lưu ý rằng đã có một lượng lớn siêu dữ liệu được "ngụ ý" trong tên của các tệp, các thư mục và trình tự sắp xếp các thư mục và tệp đó. Những thông tin này giúp chúng ta tái tạo được nguyên tác từ các ảnh số.

Cuối cùng, chúng ta sẽ thêm vào một số dữ liệu vào cây thư mục để tất cả mọi thông tin cần thiết về nguyên tác được thể hiện trong bản sao dạng số. Các siêu số liệu này sẽ được ghi vào những tệp nằm ở những vị trí trên cây thư mục tương ứng với vị trí của đối tượng liên quan đến các siêu số liệu đó. Tên của các tệp sẽ có cú pháp nhất quán cho biết siêu số liệu của tệp đó.

Trong ví dụ này, chúng ta chỉ ghi 4 loại siêu dữ liệu: liệt kê, quản lý, cấu trúc và nguồn gốc.

Tạo ra siêu số liệu liệt kê

Chắc bạn không muốn đưa toàn bộ thông số trên bản liệt kê MARC vào cây thư mục. Bạn có thể sử dụng nhiều dạng liệt kê tắt. Trong ví dụ này, ta sẽ gắn các bản liệt kê Dublin Core vào các mức bài viết và tạp chí. Thông tin trên Dublin Core có thể lấy từ http:// www.oclc.org:5046/oclc/research/conferences/metadata/ dublin_core_ report.html.

Mỗi bản liệt kê Dublin Core sẽ được lưu trong một tệp riêng có tên dublin_core. Ví dụ, bản liệt kê Dublin Core cho một bài viết có thể như sau:

Tiêu đề: How to Run For President

Tác giả: Bill Clinton

Tác giả: Bob Dole

Chủ đề: Politics, Money, Vanity

Ghi những thông tin này vào tệp dublin_core và đưa vào thư mục tương ứng của bài viết này, cùng với các ảnh đã quét. Thư mục ví dụ này sẽ như sau:

Bạn cũng có thể muốn đưa một bản liệt kê vào mức độ tạp chí của cây thư mục. Ví dụ, tạp chí của chúng ta sẽ có bản liệt kê Dublin Core như sau:

Tên: Journal of Ridiculous Results

Chủ đề: Foolishness, Silliness

Quan hệ: bản liệt kê tương ứng với MARC trong danh mục trực tuyến

Lưu ý rằng mục cuối cùng cho phép chúng ta tạo ra quan hệ giữa bản liệt kê này với bản liệt kê MARC đã có sẵn. Hãy ghi thông tin vào tệp dublin_core và đưa chúng vào thư mục tương ứng với tạp chí. Thư mục này sẽ như sau:

Tạo ra siêu dữ liệu nguồn gốc

Siêu dữ liệu nguồn gốc mô tả nguyên tác của thông tin số hoá. Nguyên tác có thể vẫn còn hoặc đã mất. Trong ví dụ này ta giả sử các siêu số liệu là cần thiết ở mức độ số báo, vì một vài số báo nằm ở những nơi không khai thác được. Hiện chưa có một dạng chuẩn nào cho siêu dữ liệu nguồn gốc. Chúng ta sẽ tạo ra một dạng đơn giản được mô tả trong ví dụ sau:

nguồn: bản photocopy từ nguyên bản

vị trí: Trường Đại học Cornell, thư viện Olin

điện thoại: ZZ8510.5

Ghi thông tin này vào tệp có tên provenance trong thư mục của số báo tương ứng. Thư mục này như sau :

Tạo siêu dữ liệu cấu trúc

Siêu dữ liệu cấu trúc mô tả tổ chức logic của một tập hợp tệp. Trong ví dụ này, ta sẽ sử dụng siêu dữ liệu cấu trúc cho mục lục của một số báo. Cú pháp đơn giản cho mục lục này như sau:

Tác giả: Newt Gingrich

Tiêu đề: Contracts and America

Trang: 5

Tác giả: Bob Dole và Bill Clinton

Tiêu đề: Running for President

Trang: 10

Ghi những thông tin này vào tệp có tên TOC và vào thư mục của số báo tương ứng. Thư mục này như sau:

Tạo ra siêu dữ liệu quản lý

Siêu dữ liệu quản lý cung cấp thông tin về ngày quét, tên người quét và những thông tin tương tự. Những thông tin này tương ứng với từng tệp TIFF. Do đó phải ghi thông tin này vào phần header của từng tệp tương ứng. Phần lớn các phần mềm quét cho phép ghi như vậy.

Trong trường hợp không thể, bạn hãy tạo ra một tệp riêng cho mỗi ảnh đã quét, với hậu tố là admin. ở đây ta cũng không có một chuẩn nào cho siêu dữ liệu, vì vậy ta sẽ tạo ra một dạng chuẩn đơn giản. Ví dụ, siêu dữ liệu quản lý của một ảnh được ghi vào tệp 0001 như sau:

người quét: Jane Doe

ngày quét: 1/ 1/ 1996

độ phân giải: 600 dpi, 1- bit

thiết bị: Xerox XDOD

Vì đây là siêu dữ liệu cho tệp 0001, nó có thể được ghi vào tệp 001.admin.

Tổng kết

Qua nghiên cứu này, chúng tôi đã chỉ ra cách thức tổ chức một tập hợp các ảnh và siêu số liệu kèm theo. Mục đích chính của chúng tôi là:

ghi ảnh theo một trình tự thư mục theo cấu trúc của nguyên tác

gắn siêu số liệu vào vị trí tương ứng với nó trên cây thư mục

lưu giữ các kiểu siêu dữ liệu khác nhau một cách logic

đặt tên tệp theo cách thức thống nhất

chuẩn hoá cú pháp của chính siêu dữ liệu

Có thể tư liệu mà bạn quét không giống với ví dụ đưa ra, hoặc bạn đang lưu các kiểu siêu số liệu khác, nhưng các nguyên tắc thì vẫn không thay đổi. Những phương pháp chúng tôi đã đề xuất có thể phần nào cần nhiều nỗ lực, nhưng bạn sẽ được đền bù bằng một cây thư mục mang nhiều thông tin và các chương trình máy tính sẽ hiểu được dữ liệu.

Sách dẫn (Indexing)

Sau khi đã tổ chức được các ảnh riêng lẻ và các siêu dữ liệu kèm theo thành một hệ thống cấp bậc tự mang thông tin, chúng ta chuyển sang vấn đề sách dẫn ảnh và truy cập. Nhu cầu sử dụng và cơ sở hạ tầng kỹ thuật giữ vai vò quan trọng trong cấu trúc của một hệ thống truy cập thông tin, nhưng vẫn cần cân nhắc đến một số vấn đề kỹ thuật then chốt sau đây:

các cơ sở dữ liệu thông thường và truy cập thông tin toàn văn (full-text) có gì khác nhau?

cấu trúc máy tính đóng vai trò gì trong tính hiệu quả của những hệ thống này?

có những loại cơ sở dữ liệu nào? lợi ích của mỗi loại?

xét một nhóm tư liệu chưa được số hoá: bạn làm thế nào để cung cấp đầu vào cho một thiết bị sách dẫn?

Ngoài những câu hỏi tổng quát này, còn có những vấn đề đặc biệt và những rắc rối xảy ra khi sách dẫn những ảnh không có dạng thông tin số: Vì sao các ảnh không khớp với các cơ sở dữ liệu thông thường? Các ảnh khớp với từng loại bộ nhớ cấu trúc của cơ sở dữ liệu ở đâu? Tại sao lại cần ghi và quản lý nhiều bản sao của tư liệu? Vai trò của các bản sao khác nhau như thế nào? Mặt trái và mặt phải của dịch vụ mạng và dịch vụ cục bộ đối với các ảnh được sách dẫn? Các nghiên cứu trường hợp cụ thể sẽ trình bày về vấn đề dịch vụ mạng và cục bộ. Mô hình cho dịch vụ cục bộ sẽ được bàn đến là sản phẩm Shoebox của Kodak. Đối với dịch vụ mạng, ta sẽ thảo luận mô hình độc quyền và mô hình mở của World Wide Web.

Thế nào là sách dẫn và vì sao phải sách dẫn?

Sách dẫn (Indexing) là quá trình làm giản tiện việc tìm và gọi các đối tượng - vấn đề mà chúng ta phải đối đầu hàng ngày. Khi ta phải quản lý một lượng thông tin cực lớn, làm sao để ta tìm được từng nhóm dữ liệu nhỏ? Công việc này quá quen thuộc với các chuyên viên thư viện mà vốn dĩ là "những nhà quản lý cơ sở dữ liệu". Thẻ ghi (card catalog) cũng là một ví dụ điển hình về sách dẫn thông tin. Trong lĩnh vực máy tính, thuật ngữ "indexing" gắn với 2 kỹ thuật: cơ sở dữ liệu và gọi thông tin. Quản lý cơ sở dữ liệu là một trong những tính năng khởi đầu của máy tính, và đến nay vẫn là một trong những tính năng cơ bản - hệ thống đặt trước vé ở các hãng hàng không là một ví dụ điển hình. Gọi thông tin, hay sách dẫn toàn văn, mới ra đời 30 năm trước đây và từ đó ngày càng trở nên thông dụng, bởi vì phần cứng hỗ trợ cho nó ngày càng dễ sử dụng hơn.

Khái quát về cơ sở dữ liệu và gọi thông tin

Hệ thống cơ sở dữ liệu thông thường sách dẫn trên siêu dữ liệu, còn các hệ thống gọi thông tin sách dẫn trên chính dữ liệu.

Như đã mô tả ở trên, siêu dữ liệu là hình thức rút gọn và được chuẩn hoá của dữ liệu thực. Nó có ích cho cả người và thiết bị duyệt của máy tính. Đối với con người, siêu dữ liệu là biểu hiện đã được chuẩn hoá của các dữ liệu vốn lộn xộn. Đối với thiết bị duyệt của máy tính, siêu dữ liệu làm giảm tổng chi phí về cả không gian và thời gian duyệt.

Siêu dữ liệu của thiết bị cơ sở dữ liệu thông thường được mô tả thông qua một giản đồ (schema). Giản đồ này mô tả các yếu tố trong siêu dữ liệu như tên, kiểu, cách tra cứu. Tính hữu hiệu của cơ sở dữ liệu, cả về tính hữu dụng và tính hiệu quả, phụ thuộc chủ yếu vào giản đồ của nó. Giản đồ quá sơ sài sẽ làm cho cơ sở dữ liệu được hiểu không đầy đủ và hoạt động chậm chạp. Việc tạo ra giản đồ đòi hỏi nhiều nỗ lực và tính sáng tạo của con người.

Gọi thông tin hay duyệt toàn văn không cần dùng đến giản đồ hay một vật thay thế nào cho dữ liệu khi sách dẫn dữ liệu. Xét toàn bộ dữ liệu thì bản thân nó đã đủ cung cấp thông tin cho sách dẫn và tra cứu. (Trong kỹ thuật hiện nay, toàn bộ dữ liệu chỉ có nghĩa là dữ liệu nguồn, mặc dù chúng ta đang bắt đầu xem xét đến các hệ thống duyệt ảnh.) Người sử dụng hệ thống tra cứu toàn văn không những không bị lệ thuộc vào quyết định đúng hay sai của người tạo ra giản đồ hoặc người lập danh mục mà còn tra cứu được bất kỳ đối tượng nào có trong dữ liệu nguồn.

Gọi thông tin ngày nay đã trở nên thuận tiện hơn với nhiều tiến bộ đáng kể trong công nghệ về phần cứng:

Kỹ thuật quét cho phép số hoá toàn bộ nội dung của dữ liệu.

OCR (bộ nhận biết ký tự bằng phương tiện quang) cho phép chuyển đổi các ảnh số thành dạng gần tương đương với nguyên bản.

Các ổ đĩa lớn, không đắt tiền cho phép duy trì các bản sao trực tuyến của những sưu tập lớn

Bộ xử lý nhanh, rẻ (PowerPC, Pentium) cho phép duyệt nhanh các sưu tập.

Một số người coi duyệt toàn văn là "viên đạn bạc" làm cho cơ sở dữ liệu thông thường trở thành lạc hậu. Vậy thì, tại sao lại cần duyệt trên vật thay thế của một đối tượng khi bạn có thể sách dẫn chính đối tượng đó? Vì mỗi phương pháp đều có mặt mạnh của nó, và vì vậy cả hai phương pháp chắc sẽ tiếp tục cùng tồn tại. Một biểu tượng có tổ chức chặt chẽ, một danh mục thông tin là cách tiếp cận tốt nhất với thế giới thông tin lộn xộn. Mặt khác, tra cứu toàn văn lại là công nghệ lý tưởng để "mò được kim dưới đáy bể". Phương pháp duyệt này có thể được bổ sung bằng cách tạo ra và sử dụng thumbnails để đọc ảnh.

Vài lời tản mạn ngoài lề về khoa học máy tính và cấu trúc máy tính

Các thuật toán duyệt (Search algorithms)

Tất cả các thiết bị duyệt, dù nằm ở cơ sở dữ liệu thông thường hay hệ thống gọi thông tin muốn hoạt động hiệu quả đều phải dựa vào các thuật toán thông minh. Thuật toán (algorithm) là tập hợp những bước làm nhất định cần phải theo khi giải quyết một vấn đề. Bạn có thể hình dung thuật toán như công thức làm một món ăn. Xét đôi chút về mặt từ nguyên học, thuật ngữ "algorithm" ra đời từ thế kỷ thứ 9 bởi nhà toán học Arập Al-Khowarizmi.

Ta có thể lấy ví dụ, quyển danh bạ điện thoại là một ví dụ về sách dẫn. Nếu không dùng một thuật toán nào để tra số điện thoại của ông "Carl Lagoze", tức là bạn dùng phương pháp tra cứu đầy đủ - bạn sẽ bắt đầu từ đầu và tìm từng dòng một, xem từng tên một cho đến khi bạn nhìn thấy cái tên cần tìm. Đối với một số lượng tên cực lớn thì phương pháp này hoàn toàn không hiệu quả. Ví dụ, danh mục toàn bộ tên của tất cả các tư liệu trong Thư viện Quốc hội vào khoảng 5 000 000 000 000. Hãy hình dung xem bạn sẽ mất bao lâu để tra được từ "zwieback"!!

Thuật toán tra cứu đôi (binary search) là một phương pháp hiệu quả hơn nhiều để tìm ra đối tượng trong một danh sách phân loại như danh bạ điện thoại (hoặc danh sách tên của sưu tập). Thuật toán này gồm các bước như sau:

bắt đầu từ giữa danh sách (mở trang giữa của danh bạ)

nếu đối tượng tra cứu nằm ở điểm này thì thuật toán chấm hết

nếu đối tượng nằm trước điểm này: bỏ toàn bộ mục từ phía sau

nếu đối tượng nằm sau điểm này: bỏ toàn bộ mục từ phía trước

quay lại bước đầu tiên đối với phần danh mục còn lại

Lưu ý: áp dụng thuật toán này vào tra cứu danh mục giả thuyết nêu trên của Thư viện Quốc, bạn chỉ phải xem danh mục ở 42 điểm!!

Bộ nhớ của máy tính

Tra cứu hiệu quả trên những danh mục lớn phải dựa vào nguyên tắc sắp xếp của danh mục và dữ liệu về các mức độ khác nhau của bộ nhớ trong máy tính. Có 3 mức bộ nhớ mà dữ liệu sách dẫn và ảnh có thể khu trú:

bộ nhớ sơ cấp (primary storage) - là một nhớ chính của máy tính (RAM). Bộ nhớ chính của máy tính có 2 đặc điểm cơ bản: thứ nhất là hoạt động rất nhanh vì có thể được tiếp cận trực tiếp nhờ bộ xử lý máy tính (trong đó diễn ra quá trình xử lý bằng thuật toán duyệt thực); thứ hai là tạm thời - dữ liệu chỉ tồn tại khi máy tính đang hoạt động.

bộ nhớ cấp hai (secondary storage) - là hệ thống phụ mang các đĩa của máy tính. Các đĩa máy tính tương đối rẻ, ổn định và chậm hơn bộ nhớ chính khoảng 3 lần.

bộ nhớ cấp ba (tertiary storage) - bộ nhớ này có sức chứa cực lớn, tương đối chậm (tốc độ truy cập tính bằng giây), thường dùng phương tiện bộ nhớ chỉ đọc. (CD Jukebox là một ví dụ điển hình.) Thông thường, trong các cơ sở dữ liệu ảnh kích thước lớn, các tệp số chủ được ghi vào bộ nhớ cấp 3.

Các thuật toán, bộ nhớ và sách dẫn

Một thiết bị được sử dụng để duyệt các bản sách dẫn lớn hoạt động bằng cách lưu càng nhiều thông tin sách dẫn vào bộ nhớ sơ cấp càng tốt. Điều này thực hiện được bằng cách nén thông tin sách dẫn bằng các thuật toán nén rất hiệu quả. Thông tin sách dẫn được sắp xếp sao cho có thể duyệt toàn bộ bảng sách dẫn bằng một thuật toán thông minh (ví dụ: thuật toán tra cứu đôi). Chỉ ở những giai đoạn tiếp theo thiết bị duyệt mới tìm đến bộ nhớ cấp hai, và chỉ với những đối tượng tra cứu thực thì thiết bị duyệt mới đến bộ nhớ cấp ba.

Cơ sở dữ liệu: là gì, làm thế nào để tạo cơ sở dữ liệu, chúng hoạt động như thế nào

Phần mềm cơ sở dữ liệu là một công nghệ đã có nhiều ứng dụng với hàng ngàn loại sản phẩm trên thị trường. Phần này sẽ thảo luận về cơ sở dữ liệu trong mối quan hệ với siêu dữ liệu.

Các kiểu cơ sở dữ liệu (database)

Hiện có rất nhiều loại cơ sở dữ liệu. Chúng khác nhau ở cách thức thể hiện siêu dữ liệu. Có 3 loại cơ sở dữ liệu phổ biến.

Cơ sở dữ liệu đồng nhất (flat-file database)

Là dạng cơ sở dữ liệu đơn giản nhất, nhưng lại rất hữu ích. ở loại này, siêu dữ liệu được thể hiện một cách đơn giản qua các bản liệt kê dạng bảng. Bản liệt kê mang thông tin về một thực thể trong cơ sở dữ liệu. Ví dụ, toàn bộ nhân viên là một thực thể trong cơ sở dữ liệu cá nhân của một công ty. Mỗi bản liệt kê gồm nhiều trường, mỗi trường chứa một loại dữ liệu của một thực thể, Ví dụ, "địa chỉ" là một loại dữ liệu cá nhân, được trình bày trong 1 ô. Mỗi trường được trình bày theo một kiểu riêng để xác định các đặc tính của dữ liệu có thể được ghi vào ô. Ví dụ: kiểu số, kiểu ký tự hoặc ngày tháng. Về mặt sử dụng, kiểu cho biết loại phép tính có thể áp dụng đối với một dữ liệu. Ví dụ, bạn có thể cộng các đối tượng kiểu số, hoặc ghép nối các đối tượng kiểu ký tự.

Rất nhiều trường hợp, người lập cơ sở dữ liệu cần xác định đâu là những trường "then chốt" sẽ được dùng trong tra cứu. Trường then chốt là những trường được máy tính ghi theo một cách nào đó thuận tiện cho tra cứu (ví dụ: ghi vào bảng phân loại). Phần lớn các dữ liệu đồng nhất cho phép duyệt trên tất cả các trường, song duyệt cả những trường không có tính then chốt là một phương pháp tốn công vô ích.

Một phần mềm cơ sở dữ liệu động đều phổ biến là FileMaker Pro. Phần mềm này chạy trong cả Macintosh và Windows, đồng thời cung cấp cho bạn một giao diện rất dễ sử dụng.

Cơ sở dữ liệu quan hệ (Relational database)

Cơ sở dữ liệu quan hệ cho bạn khả năng linh hoạt vì nó cho phép xác định quan hệ giữa các bảng dữ liệu. Về cơ bản, loại cơ sở dữ liệu này cũng giống như loại đồng nhất: gồm các bảng với các bản liệt kê và các trường đã được định loại. Mỗi bảng, ví dụ, các nhân viên của một công ty, nằm trong một tệp cơ sở dữ liệu. Một mối quan hệ đơn giản là một bản liệt kê mới được tạo ra qua liên kết giữa hai tệp. Ví dụ, giả sử tệp "nhân viên" gồm một trường cho biết bộ phận làm việc của một nhân viên, và tệp "phòng ban" gồm một trường chứa tên của phòng ban, và các trường khác cho biết tên trưởng phòng, địa chỉ phòng,v.v... Một nhóm bản liệt kê khác với các trường "nhân viên" và "trưởng phòng" có thể được tạo ra qua mối liên hệ giữa hai hồ sơ này bằng cách ghép các trường "phòng ban" với nhau. Các cơ sở dữ liệu quan hệ là một loại ngôn ngữ có hiệu quả nhằm xác định các mối quan hệ và tạo ra các mô hình trừu tượng từ các nhóm hồ sơ cơ sở dữ liệu.

dBase là một sản phẩm phần mềm cơ sở dữ liệu quan hệ rất phổ biến. Ban đầu, dBase chỉ chạy trên MS-DOS, song đến nay đã chuyển sang Windows. Trên Macintosh, loại cơ sở dữ liệu quan hệ thông dụng là 4th Dimension. Rất nhiều phần mềm như Ingres và M-SQL, sử dụng loại ngôn ngữ thông dụng dùng các câu hỏi và giản đồ được gọi là SQL.

Cơ sở dữ liệu định hướng theo đối tượng

Cơ sở dữ liệu định hướng theo đối tượng (OODBMS) là loại cơ sở dữ liệu mới ra đời song đang thu hút ngày càng nhiều sự chú ý. Cả hai loại cơ sở dữ liệu nói trên đều hạn chế ở chỗ dữ liệu cần phải đồng nhất theo cả hàng và cột. Tức là, tất cả các bản liệt kê đều có cùng các đặc tính (các loại trường) dành cho các thực thể, trong đó mỗi loại thuộc tính (mỗi trường) lại có được viết cùng một kiểu. Đây là vấn đề mà các chuyên viên thư viện luôn gặp phải mỗi khi họ muốn đưa một loại thông tin mới vào bản liệt kê USMARC.

Công nghệ OODBMS cho khả năng linh hoạt cao bằng cách trình bày các thực thể của cơ sở dữ liệu dưới dạng các đối tượng phức, mỗi đối tượng gồm một tập hợp thuộc tính và hoạt động (phương pháp) có thể thao tác trên đối tượng đó. Một khái niệm quan trọng gắn với loại cơ sở dữ liệu này là sự kế thừa (inheritance), tức là một kiểu đối tượng này có thể trở thành một loại của kiểu đối tượng khác bằng cách kế thừa một số thuộc tính và phương pháp của đối tượng đó rồi thêm vào một số đặc tính riêng. Ví dụ, một cuốn sách chuyên ngành trong cơ sở dữ liệu của thư viện mang nhiều đặc tính chung với một cuốn sách, nhưng nó còn một số thuộc tính riêng như có "loạt bài giảng".

OODBMS là một công nghệ đầy hứa hẹn, cho phép quản lý các dữ liệu không đồng nhất, các đối tượng phức (như các ảnh) và kỷ yếu của các thư viện số. Mô hình cơ sở dữ liệu này phản ánh "thế giới khách quan" một cách chính xác hơn mô hình dạng bảng có tính áp đặt của các loại hình cơ sở dữ liệu đồng nhất và quan hệ.

Ví dụ: cơ sở dữ liệu của Versant Object Technology Corporation.

Lựa chọn mô hình cơ sở dữ liệu là làm cân bằng giữa tính linh hoạt với dễ sử dụng. Song nhiều cơ sở không áp dụng được các mô hình quan hệ và định hướng theo đối tượng vì cần đến cả kinh phí đào tạo cán bộ kỹ thuật và thời gian xây dựng giản đồ mức cao. Thông thường, ở những bước khởi đầu, mô hình đồng nhất là phù hợp.

Xây dựng giản đồ cơ sở dữ liệu

Chất lượng của một cơ sở dữ liệu cũng chính là chất lượng giản đồ của nó. Hãy nhớ rằng xây dựng một giản đồ tức là áp đặt một cấu trúc có chức năng đưa ra các quy tắc duyệt cơ sở dữ liệu. Theo tôi, có 3 tiêu chuẩn quan trọng để xác định một giản đồ tốt.

Đúng cú pháp - Phần lớn các hệ thống cơ sở dữ liệu cho phép bạn xác định những giá trị có thể đưa vào trường chứ không cho phép đưa vào các bản văn tự do. Những trường được kiểm soát này nên được sử dụng càng nhiều càng tốt. Những trường không được kiểm soát có thể bị đọc sai và đưa vào dữ liệu sai do đó không được duyệt. Phần lớn các thiết bị cơ sở dữ liệu đơn giản không được cài từ điển đồng nghĩa, vì vậy cần phải sử dụng những thuật ngữ chung cho các giá trị khác nhau của trường.

Tổng quát - Khi xây dựng cơ sở dữ liệu, chúng ta thường muốn làm việc với các tập hợp dữ liệu riêng rẽ. Ví dụ, bạn sẽ tìm thấy rất nhiều vị trí với một cơ sở dữ liệu (cùng với giản đồ của chính nó) cho phim và một cơ sở dữ liệu khác (cùng với giản đồ của chính nó) cho sưu tập nghệ thuật, v.v... Phương pháp tốt nhất là dành thời gian để xây dựng một giản đồ cơ sở dữ liệu phản ánh được các đặc tính chung của các đối tượng trong sưu tập của bạn. Hãy cố gắng tìm ra những điểm tương đồng giữa những đối tượng khác nhau và sử dụng những điểm chung đó để xây dựng giản đồ. Bạn vẫn có thể có nhiều giản đồ cho các kiểu đối tượng khác nhau, nhưng từng giản đồ phải phản ánh được điểm tương đồng giữa các đối tượng. Như vậy bạn đã được chuẩn bị tốt khi cần chuyển lên một mức cao hơn.

Đơn giản - Một sai lầm thường gặp là tạo ra một giản đồ với 30 - 40 trường, trong đó rất nhiều trường bản văn tự do. Những cơ sở dữ liệu này không cho phép duyệt. Giản đồ càng đơn giản thì cơ sở dữ liệu càng dễ được duyệt. Bạn hãy cố gắng đặt mình vào địa vị người sử dụng khi lập giản đồ!!

Gọi thông tin: duyệt trên bản văn đầy đủ

Gọi thông tin toàn văn là một công nghệ đang ngày càng phổ biến và đã có nguồn gốc lịch sử lâu đời.

Khái niệm về bảng chỉ mục (concordance)

Các thiết bị duyệt toàn văn sử dụng một danh mục gọi là bảng chỉ mục của một sưu tập. Nguồn gốc của từ concordance gắn với lịch sử của nghệ thuật. Từ gốc concord có nghĩa là sự thống nhất. Người ta bắt đầu lập ra bảng chỉ mục từ khi có quan niệm cho rằng tính thống nhất của kinh thánh được phản ánh bằng tính nhất quán giữa kinh Cựu ước và kinh Tân ước. Rất nhiều người đã cố gắng tìm ra tính nhất quán này bằng cách liệt kê tất cả các từ ở cả hai kinh ước và phát hiện cách dùng thông dụng của các thuật ngữ. Nhiều người đã bỏ ra nhiều thời gian để xây dựng bản chỉ mục cho một số sưu tập khác; ví dụ, Lan Cooper đã cần đến 7 năm và 67 nhân công để xây dựng bản chỉ mục thơ của William Wordsworth. (Ba người đã thiệt mạng trong quá trình đó!) Những quá trình với nhân lực và thời gian như vậy ngày nay được thực hiện trên máy tính chỉ trong vòng vài giờ.

Thiết bị duyệt toàn văn hoạt động như thế nào

Một thiết bị duyệt toàn văn trước hết cần đến sự sách dẫn, tức là tạo ra một bản chỉ mục của tập hợp tư liệu. Dạng thiết bị duyệt toàn văn đơn giản nhất đưa mỗi từ vào một chuỗi câu hỏi, kiểm tra các từ bằng cách duyệt bảng chỉ mục và hoàn trả các văn bản có chứa các từ. Những thiết bị duyệt toàn văn trong thực tế có áp dụng rất nhiều kỹ thuật để cải tiến hiệu suất và tính hiệu quả gọi thông tin. Tính hiệu quả được đo bằng độ chính xác (precision), là tổng số phần phù hợp với câu hỏi của các văn bản được thu hồi và phần gọi lại (recall), tức là tỉ lệ số văn bản phù hợp thực tế đã được thu hồi.

Gốc từ (Stemming) - là việc cắt bỏ 1 hay nhiều hậu tố của từ nhằm làm giảm các dạng từ trung gian, tránh xét đến thì hoặc số, do đó dễ dàng làm tương xứng các thuật ngữ của câu hỏi với bản sách dẫn, đồng thời làm giảm kích thước của bảng chú dẫn - có lợi cho thiết bị duyệt cả về mặt không gian và thời gian.

Các từ dừng (Stop words) - không sách dẫn các từ như "the", "a", v.v... Logic của việc này là những từ này quá chung nên không phù hợp cho duyệt. Không sách dẫn những từ này giúp làm giảm kích thước bản sách dẫn. Tuy nhiên, có những trường hợp sự có mặt các từ dừng trong bản sách dẫn lại có ích.

Từ điển đồng nghĩa (Thesauri) - liệt kê các từ đồng nghĩa dưới dạng một thuật ngữ chung, hoặc mở rộng chuỗi câu hỏi để chứa tất cả các từ đồng nghĩa - tức là thêm một số ngữ nghĩa có liên quan vào một câu hỏi. Tuy nhiên, phải lưu ý rằng các từ điển đồng nghĩa đưa ra những nghĩa rất hẹp. Ngoài ra, soạn thảo từ điển vẫn thường do người làm (soạn thảo từ điển qua máy tính vẫn còn ở giai đoạn non trẻ).

Các câu hỏi theo trình tự (Ranked Queries) - xử lý bằng một câu hỏi để nhận được những từ phù hợp. Về mặt lý thuyết, điều đó hợp với ý muốn của người sử dụng. Song có hai nhân tố làm cho phương pháp đơn giản này không phù hợp với các câu hỏi theo trình tự. Thứ nhất, phương pháp này phù hợp với văn bản dài. Thứ hai, nó phù hợp với những từ thông dụng nhất trong một sưu tập chứ không mấy phù hợp với những từ dùng để phân biệt sưu tập này với sư tập khác. Những thiết bị duyệt tinh vi sử dụng phương pháp cân thuật ngữ (term weighting) và các phương pháp khác để xử lý vấn đề này.

Nén bản sách dẫn (Index compression) - cho phép các thiết bị duyệt ghi phần lớn bản sách dẫn vào bộ nhớ sơ cấp. Điều này gây ảnh hưởng lớn đến thao tác duyệt vì truy cập đĩa sẽ trở nên rất chậm chạp.

Các thiết bị gọi thông tin thường cho phép nhiều đặc tính mạnh trong chuỗi câu hỏi:

Phép toán Boolean (Boolean operator) - phép toán và-hoặc-đảo (and, or and not) cho phép duyệt chọn lọc hơn.

wildcard - cho phép người duyệt sử dụng nhiều phần mềm soát lỗi chính tả, hậu tố, tiền tố.

bộ kiểm soát tính liên tục (adjacency) - cho phép người duyệt khẳng định rằng các từ được xuất hiện liên tục trong một văn bản.

Sau rất nhiều nghiên cứu tập trung vào truy hồi thông tin, ta phải thừa nhận những hạn chế của nó. Việc ghép các câu hỏi với các văn bản vẫn phải dựa vào phương pháp thống kê và kinh nghiệm. Máy tính không "hiểu" cả văn bản lẫn câu hỏi. Những kinh nghiệm rút ra từ các thiết bị duyệt toàn văn như WAIS cho thấy chúng không phải là phương thuốc chữa bách bệnh để duyệt văn bản.

Sử dụng dữ liệu vào sách dẫn

Chuyển từ dữ liệu gốc sang dữ liệu sách dẫn là một việc rất phức tạp.

Trích dữ liệu cho truy hồi thông tin toàn văn

OCR (bộ nhận biết ký tự bằng phương tiện quang) - Như đã nói đến ở phần trên, OCR là một trong những công nghệ chính giúp cho duyệt toàn văn trở nên phổ biến. (Phần cơ học của OCR sẽ được trình bày kỹ hơn ở phần Phụ lục của chương này.) Tuy nhiên, chúng ta phải lưu ý rằng, OCR không phải là một thiết bị hoàn hảo. Tỉ lệ nhận dạng của OCR đối với những văn bản chất lượng tốt có thể vượt quá 99% - nghĩa là ở những trang gồm khoảng 2000 ký tự, sẽ còn lại 20 ký tự có thể chứa lỗi ở văn bản sau xử lý OCR. Thực tế, nghiên cứu ở UNLV cho thấy độ chính xác của OCR chỉ ở mức 94% cũng không ảnh hưởng đáng kể đến hiệu suất của thiết bị duyệt. Tuy nhiên, đối với những tư liệu được bảo quản không tốt và không phải dạng đánh máy, tính hiệu quả của OCR không được như vậy. Nghiên cứu ở Xerox PARC và một số nơi khác cho thấy triển vọng của lĩnh vực này cũng khá lớn, nhưng chưa phải là trong một tương lai gần.

Chuyển đổi dữ liệu trong tương lai - Càng có nhiều tư liệu là sản phẩm điện tử, triển vọng của công nghệ duyệt toàn văn lại càng sớm trở thành hiện thực. Ví dụ, ở Cornell, các báo cáo kỹ thuật về khoa học máy tính được lưu giữ trong thư viện dưới dạng điện tử.

Nhập dữ liệu bằng tay (manual entry) - mặc dù rất đắt nhưng đây thường là giải pháp duy nhất đối với một sưu tập không thể duyệt được bằng OCR hoặc duyệt với độ chính xác thấp dưới 95%.

Trích siêu dữ liệu

Trích siêu dữ liệu từ các nguồn còn phức tạp hơn.

OCR - chỉ có thể trích siêu dữ liệu từ một tư liệu thông qua OCR khi tư liệu gốc đã được đánh dấu (marked-up). Đánh dấu cho phép máy tính trích thông tin siêu dữ liệu từ văn bản "đọc được" bằng hệ thống OCR. Một trong những ngôn ngữ đánh dấu đang ngày càng trở nên thông dụng là SGML (Standard Generalized Markup Language). Cấu trúc của một tư liệu SGML được xác định bằng bộ nhận dạng dạng văn bản DTD (Document Type Definition). Ngoài ra còn có loại DTD sách dẫn thông tin siêu dữ liệu.

Trích và nhập dữ liệu bằng tay.

Sách dẫn dữ liệu ảnh

Dữ liệu ảnh lại là một vấn đề phức tạp nữa trong sách dẫn. Bản thân các ảnh không thể được duyệt bằng những công nghệ đã giới thiệu. Ta chỉ có thể đưa một câu lệnh đối với một cơ sở dữ liệu ảnh theo kiểu "hãy đưa ra những ảnh có màu vàng". Hiện nay, chỉ có thể ghi các ảnh dưới dạng bitmap và nối chúng với siêu dữ liệu duyệt được.

BLOBs và con trỏ (pointer) - loại cơ sở dữ liệu quan hệ được sử dụng rộng rãi được thiết kế cho các dạng dữ liệu có cấu trúc và giá trị đủ nhỏ, ví dụ, những biểu thức ngắn hoặc giá trị nguyên. Tính hiệu quả của phần lớn các hệ thống quan hệ được dựa vào khả năng ghi những bản liệt kê mới được sử dụng vào bộ nhớ sơ cấp. Hiệu suất sẽ bị ảnh hưởng nghiêm trọng với trường là một ảnh kích thước lớn (ví dụ, ảnh của một nhân viên). Những đối tượng như ảnh, âm thanh được xếp vào loại BLOBs (Binary Large OBjects) trong các cơ sở dữ liệu quan hệ. Rất nhiều hệ thống đã vượt qua trở ngại về BLOBs bằng cách đặt các ảnh vào một cơ sở dữ liệu riêng với một dặc điểm nhận dạng duy nhất cho mỗi ảnh. Sau đó sẽ có một cơ sở dữ liệu có thể duyệt được để duy trì các vật chỉ điểm loại cơ sở dữ liệu thứ cấp đó. Phương pháp này có thể khó quản lý song lại hiệu quả hơn.

OCR của các ảnh bản văn - Các ảnh thường có phần chú thích, header, v.v... Ta lại hay có nhu cầu tách phần nội dung văn qua OCR và sử dụng OCR để sách dẫn toàn văn. Những bản văn không liền mạch như vậy sẽ gây khó khăn cho các hệ thống OCR, bởi vì OCR thường dựa vào các dòng chữ có thể nhận dạng, liền mạch để đăng ký từ đầu. Rất nhiều hệ thống OCR lúc đầu có một pha phân tách (segmentation phase) làm nhiệm vụ tách các ảnh khỏi phần chữ. Tuỳ vào thuật toán tách và tính chất của ảnh, chương trình OCR cũng có thể hoàn toàn bỏ qua phần chữ trong ảnh. Công nghệ OODBMS cũng có một vài hứa hẹn đối với việc quản lý BLOBs.

Siêu dữ liệu ẩn (Embedded metadata) - như đã nói từ trước, một số kiểu ảnh, nhất là ảnh TIFF thường mang các thông tin ở phần header. (Các thông tin này có thể là độ phân giải của ảnh; ảnh đen trắng, xám hay màu; kiểu nén ảnh.) Ngoài ra, các siêu dữ liệu cũng có thể được ghi ở đây, sau đó được thiết bị duyệt tách ra để sách dẫn. Ví dụ, một số chương trình quét cho phép đưa thêm những dữ liệu bổ sung của ảnh TIFF ở phần header. Lợi ích của điều này là dữ liệu (ảnh) và siêu dữ liệu (thông tin ở phần header) trở thành một đơn vị duy nhất nên gần như không bao giờ bị thất lạc nhau.

Một chút tản mạn nữa - tầm quan trọng của nhân bản ảnh

Vì sao cần nhiều nhân bản của ảnh?

Kinh nghiệm của tôi trong lĩnh vực này cho thấy việc duy trì nhiều nhân bản của ảnh là cần thiết vì hai lý do:

Tư liệu xuất phát từ nhiều nguồn khác nhau - các chuyên viên lưu trữ phải thực hiện cả việc chuyển đổi về quá khứ lẫn tương lai. Chuyển đổi về quá khứ nhìn chung liên quan đến việc số hoá hay quét. Còn tư liệu mới lại là dạng ảnh số. Vì vậy giải pháp tốt là bảo quản dạng số (chỉ với mục đích lưu trữ) và chuyển đổi các tư liệu mới thành dạng thông dụng hơn.

Những ảnh phái sinh khác nhau dành cho những mục đích khác nhau, không một dạng tư liệu nào phù hợp với tất cả mọi mục đích sử dụng. Ví dụ, một ảnh TIFF có độ phân giải cao thì phù hợp với các mục đích lưu trữ và in, nhưng lại thường quá lớn để có thể di chuyển. Ảnh GIF hoặc JPEG có độ phân giải thấp hơn lại có thể được truyền nhanh hơn và có thể sử dụng được ở hầu hết các trình xem lướt trên World Wide Web. Các dạng ASCII lại phù hợp với những người sử dụng màn hình không có tính năng đồ hoạ.

Mẫu tư liệu

Rất ít, nếu như không nói là không có một hệ thống nào có khả năng giải quyết cùng một lúc nhiều dạng tư liệu khác nhau. Biện pháp quản lý phù hợp trong trường hợp này là một "mẫu tư liệu" cho phép hệ thống sách dẫn nhóm rất nhiều dạng vào một tập hợp và cho phép người sử dụng hệ thống tuỳ ý sử dụng cả nhóm hay từng dạng một.

Sách dẫn và truy hồi ảnh cục bộ - Mô hình Kodak Shoebox

Sản phẩm Shoebox của Kodak là một hệ thống lưu trữ và khai thác ảnh đơn giản làm việc trên một máy trạm (single workstation). Những phần mềm kiểu như Shoebox là điểm khởi đầu tuyệt vời đối với những người lần đầu tiên thử sách dẫn một sưu tập ảnh. Shoebox có những đặc tính sau:

là một kiểu cơ sở dữ liệu đồng nhất trực giác

dễ xây dựng giản đồ cơ sở dữ liệu và các quy định với danh sách từ vựng được kiểm tra

duyệt đơn giản với phép toán Boolean

xem ảnh nhanh nhờ thumbnails trên bộ nhớ thứ cấp

liên kết tự động thiết bị duyệt với các ảnh có độ phân giải đầy đủ được lưu ở bộ nhớ thứ hai hoặc thứ ba

Phần lạc đề cuối cùng - clients, servers và protocols

Mặc dù là phương pháp đơn giản đầu tiên cho phép số hoá và sách dẫn ảnh, Shoebox vẫn bị hạn chế ở chỗ nó không hoạt động được trên mạng. Thay vào đó có hai phương pháp mạng, một độc quyền, một để ngỏ được mô tả sau đây. Gắn liền với hai phương pháp này là một số thuật ngữ liên quan đến dịch vụ mạng:

"servers" là những chương trình có chức năng đợi lệnh về một dịch vụ nào qua mạng và trả lời cho lệnh đó bằng đối tượng được yêu cầu hoặc một thông điệp sai. Trên mạng Internet, servers nằm ở địa chỉ chủ (host address) (là tên duy nhất trên mạng dành cho thiết bị nơi server cư trú) và một cổng (port) (có thể có nhiều server trên một máy chủ, vì vậy mỗi server có một "số nhánh" riêng.

"clients" là những chương trình cung cấp một giao diện sử dụng và đưa ra các lệnh đối với server. Sau đó, client sẽ đọc câu trả lời từ server và chuyển nó thành dạng đọc được đối với người sử dụng. Mặc dù server chỉ được viết cho một cấu trúc (ví dụ UNIX), các client lại thường tồn tại với nhiều kiểu cấu trúc máy tính thông thường.

"protocols" là ngôn ngữ giao tiếp giữa client và server. Từ định nghĩa, ta thấy protocol là một cấu trúc độc lập bởi vì client chạy trên nhiều máy tính khác nhau phải đưa ra những lệnh như nhau đối với server. Protocol phải được thiết kế sao cho hiệu quả và ngắn gọn (không cần phải dễ đọc và truyền thụ đối với người sử dụng).

Mạng độc quyền

Một số hệ thống cơ sở dữ liệu độc quyền sử dụng một kiểu mạng độc quyền. Trong kiểu mạng này, thiết bị duyệt hoạt động như một chương trình server trên một máy. Các chương trình client độc quyền hoạt động trên những máy khác trên cùng một mạng cục bộ sẽ giao tiếp với server qua protocol phù hợp. Ưu điểm của kiểu mạng này là:

các bộ phận của chương trình được hỗ trợ và được bán bởi một hãng duy nhất.

tạo ra và tổ chức cơ sở dữ liệu dễ dàng như ở mạng cục bộ

hệ thống đủ đảm bảo an toàn vì server không cho phép khai thác qua mạng Internet và protocol cũng không mở.

Dịch vụ mạng toàn bộ - mô hình World Wide Web

World Wide Web đã nhanh chóng trở nên phổ biến theo hướng tích cực. Mạng này (tức là gồm servers, clients và protocol) đã trở thành một phương tiện lý tưởng khi cần tiếp cận các nguồn đa phương tiện qua Internet. Rất nhiều kiểu cấu trúc khác nhau có thể tự do sử dụng Web clients. Các client hiển thị ảnh GIF tự động (Nescape còn hiển thị ảnh JPEG). Ngoài ra, các client được nối với các ứng dụng hỗ trợ (help applications) và nhờ vậy chúng có thể hiển thị bất kỳ loại đối tượng nào (ví dụ TIFF) có kiểu MIME (một hệ thống chuẩn hoá để phân loại các đối tượng trên Internet).

Hiện nay đã có công nghệ liên kết các Web server với các thiết bị duyệt, hơn nữa lại dễ sử dụng. Nhờ công nghệ này, người sử dụng ở bất kỳ vị trí nào trên Internet đều có thể đưa ra lệnh đối với cơ sở dữ liệu của bạn và xem ảnh của bạn trên màn hình của chính họ. Mặc dù công nghệ này không được phù hợp lắm với những loại tư liệu có bản quyền, nhưng lại rất có ích về nhiều mặt đối với sưu tập số trong thư viện. Công nghệ này gồm các yếu tố:

bất kỳ một Web client nào, ví dụ Mosaic, Netscape

một Web server có khả năng hoạt động như đường dẫn tới các thiết bị bên ngoài. Phần lớn các Web server hoạt động trên Unix, Macs và Windows đều có khả năng này. Trong thế giới Unix có một giao diện chuẩn có chức năng này là CGI (Common Gateway Interface).

một thiết bị duyệt có khả năng chấp nhận các lệnh viết bằng một loại chữ viết nào đó (lệnh được WWW server đưa ra). Ví dụ, FileMaker Pro có chức năng trả lời các lệnh AppleScript, MacHTTP server có thể gửi và nhận các lệnh AppleScript đến thiết bị FileMaker Pro.

Dạng đầu vào được viết bằng ngôn ngữ HTLM cho phép người sử dụng đưa ra các lệnh duyệt cho cổng vào WWW (WWW gateway) (và rốt cục là cho chính thiết bị duyệt của bạn).

Ngày càng nhiều hãng đưa ra loạt phần mềm này dưới dạng khối chương trình cho phép giao diện giữa các bộ phận. Apple là một chương trình dịch vụ mạng bao gồm phần mềm được mô tả ở trên.

Phụ lục chương IV

Xử lý ảnh số bằng OCR

Phần phụ lục này sẽ trình bày những khái niệm, từ vựng, thiết kế hệ thống và các tính năng cơ bản của công nghệ OCR ngày nay; các bước trước và sau xử lý; mối quan hệ giữa chất lượng ảnh và độ chính xác của OCR; và sử dụng OCR để trích dữ liệu sách dẫn để duyệt ảnh số.

Sử dụng OCR khi nào?

Thay cho việc sử dụng bàn phím để nạp các siêu dữ liệu, OCR cho phép tự động hoá quá trình khai thác nội dung của ảnh số qua các ký hiệu quy ước. Nhờ tốc độ xử lý nhanh của các microcomputer ngày nay và các tính năng được cải thiện đáng kể của công nghệ nhận dạng, OCR mang lại hiệu quả kinh tế cao hơn hẳn bàn phím. 3 công nghệ được sử dụng khi in tư liệu nhằm tạo khả năng duyệt cho phần chữ viết của tư liệu gồm:

quét

nhận dạng

sách dẫn

Trong các công trình số của thư viện như Dự án Gutenberg, các trang được quét riêng để tạo ra các văn bản OCR đã được sửa lỗi và định dạng, còn các ảnh số bị loại bỏ. Trong "phương pháp trích dữ liệu để sách dẫn" này (xem tr.119), dữ liệu sách dẫn và văn bản điện tử của tư liệu nguồn là như nhau.

Ưu điểm của các tệp văn bản tạo ra từ OCR

kích thước tệp nhỏ

chi phí lưu trữ thấp

tốc độ khai thác nhanh

dễ vận chuyển

Bảng 1. So sánh các kích thước tệp của một trang văn bản cỡ 8,5" x 11"

dạng kích thước tệp (xấp xỉi) tăng trên ASCII
ASCII 3 KB (nén ITU) -
HTML 3,15 KB (nén ITU) 105 %
300 dpi 1-bít TIFF 26 KB (nén ITU) 867 %
400 dpi 1-bít TIFF 47 KB (nén ITU) 1567 %
600 dpi 1-bít TIFF 105 KB (nén ITU) 3500 %

 

Nhược điểm của các tệp văn bản tạo ra qua OCR

không có dạng đồ hoạ

tính năng OCR không đủ để xử lý các tư liệu viết tay và rất hạn chế với các hệ chữ viết phi Latin

phiên bản ảnh số được chỉnh sửa hoàn chỉnh nhờ OCR về cả kiểu trình bày và kiểu in cần chi phí gấp 10 - 50 lần chi phí quét ảnh.

Trong những dự án chuyển đổi trong đó kiểu trình bày, kiểu in, đặc biệt là các ảnh minh hoạ của nguyên bản là yếu tố được quan tâm, các ảnh số sẽ cần được giữ lại. Phương pháp này đòi hỏi phải cẩn trọng khi quét nếu muốn đạt được chất lượng tối đa, và các văn bản được tạo ra qua OCR được sử dụng làm siêu dữ liệu của cơ sở dữ liệu ảnh.

Ưu điểm của việc sử dụng OCR trong sách dẫn

định hướng trang, cách trình bày (bảng và ảnh minh hoạ) và kiểu in được thể hiện trung thực trong ảnh số

phần chữ trong ảnh số có sẵn chức năng sách dẫn

không cần sách dẫn bằng tay

các thiết bị duyệt cho phép dữ liệu sách dẫn sai lệch ở một số mức độ nhất định (gọi là "fuzzy searching") nhờ đó làm giảm nhu cầu về sửa lỗi.

Nhược điểm của việc sử dụng OCR trong sách dẫn

không sách dẫn được các tư liệu đồ hoạ

OCR không hiệu quả với các bản viết tay

khi có yêu cầu về độ chính xác cao thì phải sửa các lỗi trình bày và nhận dạng bằng tay.

Tiền xử lý (Pre - processing)

Quét tư liệu là bước đầu tiên để gọi toàn bộ thông tin trực tuyến nằm trên các tư liệu giấy hoặc phim. Chất lượng văn bản, thể hiện ở nguyên văn và/ hoặc ảnh quét sẽ là những yếu tố chủ yếu ảnh hưởng đến độ chính xác của OCR. Các trang tư liệu có độ tương phản cao, đặc biệt là những văn bản gồm các dòng chữ cùng một phông là dễ xử lý nhất vì vậy thường được sử dụng để đánh giá độ chính xác của các sản phẩm OCR. Tuy nhiên, kết quả thử nghiệm hàng năm của Trường Đại học Nevada ở Las Vegas cho thấy việc đánh giá chất lượng "trên quan điểm OCR" thường không hợp với cảm giác trực giác; các trang tư liệu dễ đọc đối với mắt người có khi lại khó đọc với các chương trình OCR. Ví dụ, độ lệch (skew) >1o làm giảm tính chính xác của OCR trong nhiều trường hợp (UNLV "Thử nghiệm hàng năm lần thứ 3", 34) song những chương trình mới như TextBridge Pro cũng đã có khả năng làm thay đổi độ lệch tới 10o.

Độ chính xác thường bị ảnh hưởng bởi:

những ký tự quá sáng hoặc quá tối

những ký tự không liền nét

những ký tự viết chồng chéo lên nhau

độ tương phản giữa mực và giấy quá thấp

các phương tiện không phải là mực

nhiễu (vết ố, bẩn, nhoè)

các phông chữ nhỏ hoặc phức tạp

sử dụng nén mất

Có thể giảm bớt nhiều trở ngại đối với quá trình nhận dạng ký tự bằng cách đưa ra những đánh giá chính xác ngay từ khi quét. Việc nhận dạng ký tự cũng được nâng cấp đáng kể bằng cách tối ưu hoá độ phân giải khi quét hoặc khi chuyển đổi sang các tệp phái sinh để xử lý OCR. Phần lớn các chương trình OCR hoạt động ở độ phân giải tối thích nằm trong khoảng 300 - 400 dpi. Những độ phân giải cao hơn hay thấp hơn mức tối thích đều có thể làm giảm độ chính xác. Các chương trình OCR không có khả năng xử lý những ảnh trên 400 dpi, hoặc xử lý chúng rất chậm.

Tốc độ nhận dạng cũng như độ chính xác còn được đảm bảo khi các ngưỡng được xác định chính xác. Thêm màu xám vào ảnh đen trắng, hoặc quét bản văn theo kiểu quét xám trong tương lai cũng có thể giúp cải thiện quá trình xử lý OCR. (Các công nghệ tách các đặc tính mới và nhận dạng hoạ tiết đối với ảnh xám đang được phát triển; xem Donald P. Amato, ed., C-haracter Recognition Technologies, nhà xuất bản AIIM số B926). Các chương trình hiện nay được tối thích hoá với các ảnh đen trắng.

Đặt độ phân giải tối ưu, điều chỉnh ngưỡng và/ hoặc quét xám sẽ không giúp ích gì quá trình nhận dạng những trang có chứa:

nhiều loại ngôn ngữ (Latin và phi Latin)

có kích thước ký tự nhỏ hơn 6 point

những phông chữ có trang trí.

Các hệ thống OCR

Phần mềm OCR hoạt động trên tất cả các hệ điều hành (Windows, Macintosh, Unix) và có thể chạy trên cả cấu hình độc lập hoặc mạng. Quá trình nhận dạng ký tự có thể hoạt động cùng quá trình quét hoặc hoạt động độc lập xử lý lô. Tốc độ xử lý phụ thuộc vào nội dung và chất lượng ảnh số, phần mềm hệ thống hỗ trợ và số lượng thẻ hoặc chương trình được sử dụng để xử lý ảnh. Trong một hệ thống mạng gồm nhiều bộ phận xử lý, ta có thể sử dụng nhiều chương trình OCR để xử lý các ảnh nhằm đạt được độ chính xác cao hoặc để xử lý nhiều trang một lúc.

Các kiểu đầu ra/ đầu vào

OCR không chuyển ảnh bitmapped thành tệp văn bản, nhưng tạo ra từ tệp ảnh một tệp văn bản độc lập với tệp ảnh đó và có khả năng đọc được bằng máy (như ASCII, HTML, RTF, WordPerfect,...). Tất cả các chương trình OCR chính đều có thể xử lý các dạng ảnh thông thường (TIFF) và các kỹ thuật nén (ITU).

Các quy trình xử lý OCR

Trên góc độ quản lý, xử lý OCR là có lợi nhất khi các ảnh cần được xử lý ngoài giờ với số lượng lớn. Khi các cơ sở tự xử lý các ảnh số bằng OCR, sản phẩm được sử dụng phải có đặc tính đó. Nếu một số lượng lớn ảnh cần được xử lý cả khối thì phải cần đến các máy tính vận hành nhanh với RAM tối thiểu là 32 MB, vì mỗi ảnh số phải được giải nén để xử lý, sau đó lại được ghi vào đĩa.

Chiều của ảnh

Ngay sau khi mở ảnh, các chương trình OCR quay ảnh về đúng chiều của nó.

Phân chia khối ("phân vùng")

Trước khi nhận dạng ký tự, chương trình OCR phân tích cấu trúc trình bày của trang giấy. Các cột, bảng và các khoảng cách dòng được định vị, và phần đồ hoạ được tách khỏi phần chữ. Muốn bảo đảm trật tự đọc đúng những trang chứa nhiều cột, kỹ thuật viên phải can thiệp và tự mình phân vùng trang. Sau đó từng vùng của văn bản lại được phân chia thành các dấu mực tương tứng với các chữ. Ngoài ra, việc phân vùng có thể được làm tự động. Khi phân vùng tự động, tính chính xác có thể bị giảm. Phân vùng bằng tay đảm bảo trình tự đọc đúng, nhưng lại đòi hỏi nhiều thời gian và nhân lực, vì vậy chỉ cần áp dụng khi phân vùng tự động không nhận dạng được những vùng chữ quá nhỏ (ví dụ: phụ chú và chú thích) hoặc thường xuyên đọc sai trình tự.

Nhận dạng ký tự

Trong bước xử lý này, các thuật toán nhận dạng tương ứng sẽ dịch từng vùng bằng cách đọc từng ký tự. Danh mục nhận dạng OCR gồm các chữ cái, số, dấu chính tả và những biểu tượng khác thuộc về bản văn. Tất cả các thiết bị OCR sẽ hiểu từng ký tự theo hình dạng của ký tự đó tạo ra bởi các pixel màu đen trên nền các pixel màu trắng. Quá trình phân tích và dịch các ảnh bitmap thành mã máy tính được thực hiện theo 2 cách:

Ghép ma trận (những chương trình có nhiều phông chữ)

Trong phương pháp này, hình dạng pixel được đặt vào dấu mực, dấu mực này sau đó được xác định bằng cách tìm mẫu tương thích nhất trong danh mục các phông chữ được ghi trong đĩa cứng của microcomputer. Độ chính xác của phương pháp ghép ma trận phụ thuộc vào khả năng của tệp phông chữ tương ứng.

- ví dụ sản phẩm: ExperVision (sử dụng 2100 phông chữ)

Nhận dạng chữ dựa vào đặc điểm riêng (các chương trình mọi phông chữ)

Mỗi dấu mực được tách thành một loạt các "đặc điểm" bằng cách xác định những vị trí có nối hoặc đường cong đáng kể.

- ví dụ sản phẩm Xerox TextBridge; WordScan Plus của Calera.

Hai phương pháp này đã được tìm ra để đạt được những kết quả tương tự nhau, nhưng các cơ sở dịch vụ lại thường sử dụng nhiều chương trình OCR với một ảnh số để đạt được độ chính xác cao.

Nhận dạng ký tự thông minh (ICR)

ICR có khả năng phân tích ngữ cảnh (những từ thông thường và các kiểu sử dụng), tra từ điển và các kỹ thuật khác bổ sung vào vốn từ nhận diện của máy và làm tăng khả năng đạt được độ chính xác cao của quá trình nhận dạng chữ. (Đa số các chương trình OCR off-the-shelf cũng có những tính năng bổ sung này, vì vậy khả năng của ICR và OCR ngày nay không mấy chênh lệch nữa.) Các chương trình này có khả năng "học" các phông chữ và kiểu trình bày trang, với tốc độ và tính chính xác được cải thiện theo, chừng nào phông chữ và/ hoặc kiểu trình bày của các tệp ảnh chưa thay đổi. Tuỳ theo mức độ tin cậy được đặt sẵn trong quá trình xử lý, nếu chương trình không có khả năng nhận diện ký tự nào đó thì chữ đó sẽ bị đánh dấu để người điều hành có thể xem và tự sửa lỗi.

Hậu xử lý (Post-processing)

Sửa lại những lỗi của quá trình sửa lỗi sẽ là khâu tốn kém và mất thời gian nhất của OCR, và lại không thể tránh khỏi. Cũng có khả năng con người mắc lỗi ở bước này. Hãy xét xem liệu độ chính xác 100% có phải là cần thiết không và có đạt được không. Cần cân nhắc giữa mức độ cần thiết của những nỗ lực nhằm làm tăng tính chính xác với chi phí nhân lực cho khâu này.

Tính chính xác và chi phí

Tính chính xác của OCR trước hết và chủ yếu là phụ thuộc vào chất lượng của ảnh số được xử lý. Giả sử có 65-75% lỗi xảy ra ở mức tồi tệ nhất là 20% số ảnh. Độ chính xác 100% sẽ không thể đạt được, và ta phải chọn lọc cẩn thận một chương trình chú dẫn với thiết bị duyệt không đòi hỏi sự chính xác tuyệt đối khi gọi thông tin.

Tổng chi phí của xử lý OCR phải thấp hơn chi phí sách dẫn bằng tay. Hãy thử tính:

Giả sử mỗi trang gồm 2000 ký tự: với tỉ lệ lỗi là 5% và tốc độ chữa mỗi lỗi là 5 giây, ta sẽ mất 8,33 phút để chữa hết một trang @ 50wpm, như vậy toàn bộ trang sẽ được đánh máy trong khoảng 8 phút

Nếu cần độ chính xác 100%: Thư viện Nông nghiệp Quốc gia (NAL) đã kết luận rằng OCR không hiệu quả bằng đánh máy bằng tay vì độ chính xác không vượt quá mức 95% (Eaton)

Chi phí sẽ tăng gấp đôi khi độ chính xác tăng lên 1% sau lần duyệt OCR đầu tiên

Theo kinh nghiệm của NAL, chi phí tạo ra các tệp văn bản có thể duyệt được toàn văn gấp gần 4 lần chi phí quét và sách dẫn ở mức tối thiểu. Kết quả nghiên cứu của dự án Cornell/ Michigan Making of America củng cố cho kết luận trên, bởi vì chi phí của một lần duyệt OCR với kiểu chữa lỗi "pop-up" gấp 1,5 đến 18 lần chi phí quét với sách dẫn tối thiểu.

Ngay cả khi chi phí độ chính xác của OCR tương đương với chi phí quét, ta vẫn phải cân nhắc kỹ lưỡng trước khi theo phương pháp duyệt toàn văn để sách dẫn sưu tập ảnh. Như đã lưu ý từ trước (tr. 117-118), duyệt toàn văn chưa chắc đã mang lại kết quả thoả mãn. Tốc độ gọi thông tin có thể cao, nhưng độ chính xác lại thấp. Hãy tưởng tượng một nhà nghiên cứu sẽ thế nào nếu ông ta duyệt từ "civil war" và nhận được hàng ngàn từ đó trong một văn bản.

Sách dẫn

Để các chương trình OCR đọc và đưa ra dữ liệu sách dẫn một cách tự động, các tư liệu nguồn phải được sắp xếp có tổ chức. (Ví dụ, xử lý định dạng cho phép các chương trình OCR cung cấp các bản văn tới những trường đặc biệt của bản ghi cơ sở dữ liệu).

Khi xử lý OCR những tệp văn bản sẽ được dùng để thay thế nguyên bản, toàn văn có thể được sử dụng để sách dẫn:

OCR được sử dụng để đưa ra những văn bản ở dạng xử lý từ - như RTF (Rich Text Format) được Microsoft Word for Windows nhận dạng - để giữ lại những đặc tính đã được xử lý như in nghiêng, gạch chân, là những đặc tính có thể bị loại bỏ trong các tệp văn bản ASCII. Đặc tính soát lỗi chính tả của chương trình xử lý từ sau đó có thể được sử dụng để tự động hoá việc chữa các lỗi OCR trong quá trình hậu xử lý.

Sau các bước sửa lỗi, các tệp văn bản được sinh ra sau xử lý OCR được chuyển vào một cơ sở dữ liệu sách dẫn có chức năng chỉ ra vị trí của các ảnh số. Mức độ sách dẫn và gọi thông tin chính xác và được xác định bằng độ chính xác của các tệp văn bản OCR và các tính năng duyệt của phần mềm sách dẫn; rất nhiều hãng (như Excalibur, ZyINDEX) đưa công nghệ "duyệt fuzzy" vào các sản phẩm của họ. Những hệ thống này làm giảm ảnh hưởng của các lỗi OCR xuống mức tối thiểu bằng cách nhận dạng những từ trong các ảnh số giống với từ hoặc câu hỏi được đưa vào.

Các pointer phải được đưa vào tệp văn bản đã được xử lý OCR để liên kết các dữ liệu chú dẫn với những ảnh bitmap tương ứng. Tuỳ vào nguồn chương trình được sử dụng mà việc này có thể làm thủ công hoặc thảo ra trong C hoặc một chương trình tương tự. Một vài chương trình sách dẫn ảnh off-the-shelf có khả năng tương thích với các chương trình OCR và sự kết nối được thực hiện tự động. Ví dụ, ZyIMAGE nối với Calera Wordscan.

Những điều cân nhắc khi lựa chọn một chương trình OCR

sản phẩm dự định (ASCII, HTLM,...)

những độ phân giải quét cho phép/ độ phân giải quét tối ưu

các dạng ảnh và các kỹ thuật nén cho phép, ví dụ: ảnh TIFF được nén Group 4.

các ngôn ngữ có thể được nhận dạng (Recognita Plus có thể nhận dạng hơn 70 ngôn ngữ, trong đó có cả Blackfoot và Quechua) và số lần duyệt cần thiết để nhận dạng một trang chứa nhiều ngôn ngữ khác nhau.

số lượng hệ thống "đào tạo" có thể cần đến

phân vùng trang tự động

tính năng duy trì các thuộc tính văn bản/ cách trình bày trang

nhận dạng tất cả các phông chữ hay theo kiểu ghép ma trận

những kích cỡ chữ được chấp nhận

tính năng xử lý số lượng lớn

các tính năng hậu xử lý (chữa lỗi chính tả)

chất lượng giao diện sử dụng.

Nguồn tin: www.nlv.gov.vn

 Tags: chương

Tổng số điểm của bài viết là: 0 trong 0 đánh giá

Click để đánh giá bài viết

  Ý kiến bạn đọc

NHỮNG HOẠT ĐỘNG NỔI BẬT NĂM 2020
Danh mục
Đọc và suy ngẫm
Danh Mục
Thăm dò ý kiến

Bạn đánh giá thế nào về website thư viện tỉnh Sơn La?

Thống kê truy cập
  • Đang truy cập40
  • Máy chủ tìm kiếm4
  • Khách viếng thăm36
  • Hôm nay0
  • Tháng hiện tại242,545
  • Tổng lượt truy cập8,924,874
CHUYÊN MỤC SÁCH BÁO VỚI CUỘC SỐNG: Trường Sa - Hoàng Sa trong tâm thức người Việt
LIÊN KẾT THƯ VIỆN CÁC TỈNH
Bạn đã không sử dụng Site, Bấm vào đây để duy trì trạng thái đăng nhập. Thời gian chờ: 60 giây