Gần đây, hướng tới xu thế phát triển văn phòng điện tử, chính phủ điện tử và thành phố thông minh, nhiều ứng dụng công nghệ thông tin (CNTT) và truyền thông đã được ứng dụng hiệu quả trong các cơ quan nhà nước. Trong đó, vấn đề điện tử hóa, CNTT hóa để lưu trữ và trao đổi văn bản, tài liệu, thông tin trong môi trường mạng Internet được đặc biệt quan tâm thúc đẩy và một số ứng dụng với giá trị tích hợp cao, có nhiều tính năng ưu việt và đặc biệt có thể đáp ứng hiệu quả công tác quản lý trong bối cảnh cách mạng công nghệ 4.0. Phần mềm SmartDoc số hóa và rút trích thông tin tài liệu của Đại học Huế là một trường hợp như vậy cần được nhà nước quan tâm hỗ trợ để chuyển giao rộng rãi.

Văn bản giấy hiện vẫn là một phương tiện quan trọng trong mọi hoạt động quản lý và điều hành. Việc lưu trữ và sử dụng tài liệu giấy bất tiện từ khâu bảo quản, quản lý, khai thác cho đến truy xuất, sử dụng tài liệu, từ đó không chỉ tốn kém mà còn khó khăn và chậm trễ không nên có. Vì thế, việc sử dụng phần mềm số hóa và quản lý tài liệu là một trong những giải pháp giúp các tổ chức và doanh nghiệp có thể tăng hiệu suất và giảm chi phí.

Hiện nay, nhiều đơn vị hành chính đã triển khai sử dụng phần mềm quản lý văn bản điều hành nhằm lưu trữ, quản lý văn bản, tài liệu một cách khoa học, hiệu quả. Tuy nhiên, các phần mềm hiện vẫn gặp phải một số bất cập như: chưa có chức năng tự động rút trích thông tin, lập chỉ mục nội dung tài liệu, gây khó khăn cho việc nhập thông tin, xử lý và lưu trữ văn bản, tài liệu; chưa có chức năng nhận dạng, tra cứu toàn bộ nội dung văn bản, tài liệu. Do các hệ thống hiện hành mới chỉ dừng ở mức độ nên đã hạn chế tới khả năng sử dụng, khai thác văn bản, tài liệu và chưa đáp ứng được nhu cầu nảy sinh trong quá trình quản lý các thông tin cần thiết.

Xây dựng các chức năng thông minh

Tích hợp các công nghệ tiên tiến, SmartDoc tập trung xây dựng các chức năng thông minh hướng đến giải quyết các vấn đề cơ bản trong bài toán số hóa và rút trích thông tin tài liệu. Cụ thể là: i) Chức năng tự động số hóa và rút trích thông tin văn bản hành chính: số ký hiệu, cơ quan ban hành, trích yếu…; ii) Chức năng nhận dạng và rút trích thông tin tài liệu có cấu trúc hoặc bán cấu trúc, nhằm hỗ trợ tốt hơn việc nhận dạng và bóc tách thông tin đa dạng ảnh văn bản; iii) Chức năng số hóa toàn bộ nội dung văn bản, tự động chuẩn hóa, lập chỉ mục nội dung hỗ trợ công tác quản lý, tra cứu tìm kiếm tài liệu.

Số hóa và rút trích thông tin tài liệu có cấu trúc hoặc bán cấu trúc: với các mẫu tài liệu có cấu trúc như các văn bằng, giấy chứng nhận, phiếu khảo sát…, SmartDoc hỗ trợ việc cấu hình tài liệu và dễ dàng tích hợp chức năng tự động nhận dạng và rút trích thông tin. SmartDoc dựa vào vị trí tương đối, các từ khóa đặc trưng để tự động nhận dạng và rút trích nội dung các trường thông tin; hỗ trợ khả năng sửa lỗi chính tả và chuẩn hóa lại định dạng cho từng trường thông tin đặc thù. Bên cạnh đó, một chức năng rất quan trọng và có tính ứng dụng cao của SmartDoc là hỗ trợ người dùng tự định nghĩa cấu hình tài liệu với giao diện trực quan; hỗ trợ việc bóc tách thông tin tài liệu tự động không phụ thuộc mẫu tài liệu và sẵn sàng tích hợp với các hệ thống cho phù hợp.

Tự động số hóa và rút trích thông tin văn bản hành chính: SmartDoc đảm bảo khả năng xử lý với mọi văn bản được soạn thảo theo chuẩn quy định của Bộ Nội vụ với mức độ chính xác lên tới 95%. Một số văn bản có chất lượng ảnh scan xấu đều được xử lý hiệu quả kèm hình ảnh các con dấu… SmartDoc còn ứng dụng công nghệ nhận dạng chữ số viết tay trong các trường thông tin “số ký hiệu”, “ngày ban hành” nhằm đáp ứng nhu cầu thực tế trong công tác xử lý văn bản hành chính.

Số hóa và lập chỉ mục nội dung tài liệu: ngoài hỗ trợ chức năng rút trích thông tin tài liệu, SmartDoc đã xây dựng chức năng nhận dạng nội dung tài liệu kết hợp chức năng tự động lập chỉ mục, chuẩn hóa nội dung tài liệu. Nhờ đó, SmartDoc hỗ trợ người dùng tự động chuyển ảnh tài liệu sang các định dạng phổ biến như Word, PDF và quan trọng là hỗ trợ các phần mềm quản lý, tra cứu và tìm kiếm nội dung tài liệu.

Hình 1. Kết quả nhận dạng và rút trích thông tin quyết định (tài liệu bán cấu trúc).
Hình 1. Kết quả nhận dạng và rút trích thông tin quyết định (tài liệu bán cấu trúc).

Bên cạnh đó, về mặt kỹ thuật, SmartDoc đảm bảo nhận dạng các ảnh văn bản có định dạng: PDF, TIFF, JPEG, BMP, PNG…, nhận dạng toàn bộ hay từng vùng văn bản với tốc độ 5-7 giây/trang. Sơ đồ hóa mô hình như sau:

Mô hình vật lý SmartDoc Mô hình logic SmartDoc
Hình 2. Mô hình vật lý và mô hình logic SmartDoc.

Triển khai tích hợp vào hệ thống quản lý văn bản điều hành

Để sẵn sàng tích hợp vào hệ thống quản lý văn bản điều hành, SmartDoc sẽ gồm 4 thành phần chính với 3 bước: 1) Thu thập văn bản nhận dạng/rút trích các loại ảnh tài liệu: PDF, Tiff, JPEG… là các dữ liệu đầu vào; 2) Tiến hành nhận dạng/rút trích thông tin tài liệu thông qua module nhận dạng và rút trích thông tin tài liệu; 3) Hiển thị kết quả thông tin rút trích ra giao diện người dùng; hỗ trợ chức năng kiểm tra lại thông tin rút trích cho người dùng; lưu thông tin rút trích của văn bản vào cơ sở dữ liệu của hệ thống. Với các tính năng vượt trội, SmartDoc bên cạnh sử dụng cho việc quản lý văn bản của đơn vị thì SmartDoc cũng đã được áp dụng hiệu quả tại hệ thống quản lý văn bản của Đại học Huế, Sở Thông tin - Truyền thông tỉnh Thừa Thiên - Huế và thành phố Đà Nẵng.

Theo quan sát của chúng tôi, trong hệ thống các đơn vị quản lý, nhu cầu số hóa và rút trích thông tin tài liệu, gồm: hồ sơ, tài liệu (mẫu đăng ký, phiếu kê khai…), văn bản hành chính (quyết định, thông báo, tờ trình…) là rất lớn. Hiện nhóm nghiên cứu đã nhắm tới việc chuyển giao cho một số sở/ban/ngành của tỉnh Thừa Thiên - Huế song kinh phí dành cho hạng mục này của các đơn vị chỉ dừng lại ở áp dụng một số mẫu nhất định trong quy mô nhỏ hẹp. Mặt khác, công việc đòi hỏi cần có nhân lực trong khi số người có thể tham gia hướng dẫn chuyển giao là còn hạn chế. Muốn phát triển, mở rộng ứng dụng SmartDoc phục vụ cho cộng đồng rộng rãi, sau đây là 2 hướng mà chúng tôi cho rằng cần được các cấp hữu quan quan tâm: Một là, hỗ trợ kinh phí thông qua các dự án phát triển ứng dụng CNTT giúp Trung tâm nghiên cứu và phát triển thêm các chức năng, hoàn thiện SmartDoc. Khi có nguồn lực, nhóm sẽ nghiên cứu mở rộng để đáp ứng số lượng lớn các mẫu hồ sơ, tài liệu hướng đến xây dựng hệ thống quản lý dữ liệu số đáp ứng nhu cầu ứng dụng thực tế và định hướng phát triển trong công cuộc CMCN 4.0 về lâu dài; Hai là, với các tính năng vượt trội, SmartDoc sẽ được ưu tiên tham gia triển khai các dự án số hoá và thu thập dữ liệu từ các kho hồ sơ, tài liệu lớn của nhiều đơn vị, hướng đến xây dựng dữ liệu tập trung từ trung ương đến địa phương. Nếu làm được điều này, tin rằng sẽ góp phần giảm tải cho công tác lưu trữ, tiết kiệm diện tích sử dụng và bảo quản tài liệu, tìm kiếm thuận tiện và lưu trữ lâu dài.

Hy vọng rằng, để tiết kiệm thời gian, không gian và tạo điều kiện thuận lợi cho công tác quản lý văn phòng và thư viện, sẽ có nhiều đơn vị được hỗ trợ sử dụng phần mềm, từ đó tạo điều kiện để thống nhất trong hệ thống quản lý văn bản nhà nước, văn bản, sách báo ở các địa phương cũng như ở các trường đại học trong cả nước.