Kho ngữ liệu và ứng dụng của kho ngữ liệu
Corpus - Ngôn ngữ học khối ngữ liệu và ứng dụng của kho ngữ liệu

Từ khi khoa học máy tính và các ứng dụng trong lĩnh vực công nghệ thông tin phát triển thì việc xây dựng kho ngữ liệu có ý nghĩa vô cùng quan trọng và liên quan đến nhiều lĩnh vực như nghiên cứu như ngôn ngữ, xử lý ngôn ngữ tự nhiên, khai phá dữ liệu, phân tích quan điểm, và các lĩnh vực khác.

Kho ngữ liệu (corpus) hay kho văn bản là tập hợp các dữ liệu văn bản được lựa chọn một cách có hệ thống theo những tiêu chí nhất định nhằm đại diện cho một thể loại ngôn ngữ cụ thể với mục đích nghiên cứu ngôn ngữ hay một ứng dụng nào đó. Một tập hợp gồm nhiều kho ngữ liệu thường được gọi là Corpora [1].  

Trên thế giới, kho ngữ liệu đã được nghiên cứu từ rất sớm và hầu hết các ngôn ngữ của các nước đều đã được nghiên cứu để xây dựng kho ngữ liệu của mình, điển hình như kho ngữ liệu tiếng Anh gồm 100 triệu từ được xây dựng từ năm 1991 bởi tổ chức Oxford University Press (OUP) và các tổ chức khác; Kho ngữ liệu quốc gia Mỹ xây dựng vào năm 1998 phục vụ cho việc nghiên cứu song ngữ Anh - Mỹ; các kho ngữ liệu của các quốc gia khác như tiếng Nga, tiếng Đức, tiếng Pháp [2].  Đối với tiếng Việt, mặc dù phát triển muộn nhưng cũng khá đầy đủ và đa dạng. Điển hình như kho ngữ liệu đơn ngữ Vietnamese Corpus của Trung tâm Dữ liệu Đa ngữ Kim Từ Điển với hơn 17 triệu câu, 346 triệu từ và 443 triệu âm tiết thuộc 42 lĩnh vực khác nhau [3], vv. Theo thống kê đến tháng 7 năm 2012 đã có hơn 130 kho ngữ liệu trên thế giới với các ngôn ngữ khác nhau [4].

            Để có được một kho ngữ liệu có chất lượng và đảm bảo để có thể thực hiện trong các nghiên cứu hay ứng dụng thì khi xây dựng cần phải đảm bảo một số các yêu cầu cơ bản sau đây [5]:

- Tiêu chí chung: đó là các tiêu chí cần đảm bảo khi tiến hành thu thập dữ liệu để xây dựng kho ngữ liệu chẳng hạn như loại ngôn ngữ, thể loại, dạng thức, lĩnh vực nghiên cứu, phạm vi…

- Phương pháp lấy mẫu: mẫu phải phổ quát, đảm bảo tính đại diện và tổng quát, đặc biệt là nguồn văn bản lấy mẫu cần đảm bảo tính chuẩn xác và khoa học, mẫu phải phù hợp với mục tiêu của bài toán đang xây dựng.

- Tiêu chí tính đại diện: Khi xây dựng kho ngữ liệu cần đảm bảo tính đại diện của ngôn ngữ mà chúng đang thể hiện đó là tốt nhất.

- Tiêu chí tính cân bằng: dữ liệu của kho ngữ liệu cần đảm bảo tính cân bằng giữa các mẫu, số lượng và nội dung dữ liệu và dạng thức. Thông thường tiêu chí này phải xem xét cụ thể trong mỗi bài toán khác nhau.  

- Tiêu chí chủ đề: dựa vào mục tiêu của bài toán và dữ liệu thực tiễn để xác định số lượng chủ đề khi thu thập ngữ liệu. Trong thực tế khi lựa chọn chủ đề có thể xảy ra tình trạng một tiêu chí có thể bao hàm nhiều chủ đề hoặc nhiều tiêu chí có thể giao nhau ở một số chủ đề nhưng cơ bản là đảm bảo mục tiêu của bài toán.

- Kích thước kho ngữ liệu: đây là tiêu chí quan trọng và quyết định đến hiệu quả của bài toán. Kích thước nhỏ hay lớn phụ thuộc mục tiêu bài toán và đảm bảo tính cân bằng với các tiêu chí khác.

- Tính đồng nhất: thể hiện khi lựa chọn văn bản phổ biến của thể loại và lĩnh vực đang nghiên cứu, đảm bảo được độ bao phủ, không lựa chọn những văn bản quá đặc biệt để đảm bảo tính đồng nhất.

- Tiêu chí ngoài: là những tiêu chí phi ngôn ngữ, liên quan đến chức năng giao tiếp của văn bản trong bài toán đang xét.

- Tiêu chí trong: là những tiêu chí cơ bản về ngôn ngữ như từ vựng, cú pháp, văn phạm, …của ngôn ngữ đang xét.

Việc sử dụng và khai thác các kho ngữ liệu trong thực tế sẽ mang lại nhiều kết quả hữu ích trong các ứng dụng trên nhiều lĩnh vực khác nhau. Dưới đây là một số lĩnh vực ứng dụng của kho ngữ liệu.

- Lĩnh vực khai phá dữ liệu: Kho ngữ liệu được sử dụng để thực hiện các ứng dụng liên quan đến khai phá văn bản, chẳng hạn như được khai thác trong quá trình phân loại văn bản. 

- Lĩnh vực dịch tự động: đó là ứng dụng để tạo ra chương trình dịch tự động từ ngôn ngữ này sang ngôn ngữ khác. 

- Trong tính toán ngôn ngữ học: khai thác và sử dụng các kho ngữ liệu song ngữ và có thể được sử dụng với nhiều ứng dụng khác nhau như so sánh ngôn ngữ học, tìm kiếm thông tin xuyên ngữ, dịch máy .v.v. 

- Tìm kiếm thông tin: khi xử lý các vấn đề liên quan đến ngôn ngữ, có thể cần tìm kiếm các thông tin để phục vụ các ứng dụng thì kho ngữ liệu là nơi có thể sử dụng để thực hiện quá trình tìm kiếm này vì nó đã được xây dựng và chuẩn hóa hoàn chỉnh và sẽ cho kết quả tìm kiếm hiệu quả hơn.

- Nhận dạng chữ viết: nhận dạng chữ in và nhận dạng chữ viết tay. Nhận dạng chữ viết có thể ứng dụng mở rộng cho các vấn đề khoa học ngôn ngữ hay quân sự, vai trò của kho ngữ liệu sẽ quyết định đến hiệu quả quá trình nhận dạng.

- Một số lĩnh vực cụ thể khác như thương mại, điều tra, công tác xã hội, vv.

Kho ngữ liệu là nguồn tài nguyên cần thiết cho nhiều ứng dụng trong thực tiễn. Hiệu quả của các ứng dụng phụ thuộc rất nhiều vào độ lớn và chất lượng của kho ngữ liệu được sử dụng. Vì vậy, xây dựng, phát triển và hoàn thiện kho ngữ liệu là mục tiêu của các nhà nghiên cứu để từ đó có thể ngày một hoàn thiện hơn kho ngữ liệu của các ngôn ngữ cả về số lượng và chất lượng.

Tài liệu tham khảo

1. John Sinclair, Corpus Concordance Collocation, Oxford University Press, 1991

2. Lou Burnard, Reference Guide for the British National Corpus (XML Edition), http://www.natcorp.ox.ac.uk/docs/URG/, 2007

3. Đinh Điền, Ngôn ngữ học ngữ liệu, Nxb ĐHQG Tp. HCM, Tp. HCM, 2018.

4. Vũ Xuân Lương, Xây dựng kho ngữ liệu áp dụng cho phân tích, xử lí ngôn ngữ và biên soạn từ điển, http://www.vietlex.com/xu-li-ngon-ngu/123-Xay_dung_kho_ngu_lieu_ap_dung_cho_phan_tich

5. Võ Diệp Như, Đinh Điền, Các tiêu chí ngôn ngữ trong việc xây dựng kho ngữ liệu tiếng Việt. Trung tâm Ngôn ngữ học Tính toán, Đại học Khoa học Tự nhiên, ĐHQG TP. HCM.



Từ loa phường, e-Phường đến e-Government
Để e-Governmet (chính phủ điện tử) thành công thì ngoài chuyện “hiện đại”, cần phải “chính quy” - tư duy phải thay đổi