Truy cập nội dung luôn

Tên nhiệm vụ: Xây dựng Cơ sở dữ liệu điện tử tiếng đồng bào dân tộc thiểu số Việt - Hrê, Việt - Co.

07/11/2023 16:54    97

.

- Cơ quan chủ trì: Trung tâm Công nghệ thông tin và Truyền thông Quảng Ngãi.

- Đồng chủ nhiệm dự án: ThSTrần Duy Linh - ThS. Trần Văn Mẫn

- Mục tiêu và nội dung chính của nhiệm vụ:

Mục tiêu chung: Nghiên cứu, xây dựng Cơ sở dữ liệu điện tử tiếng đồng bào dân tộc thiểu số Việt - Hrê, Việt - Co và ngược lại nhằm hỗ trợ công tác giảng dạy, học tập, nghiên cứu về tiếng nói, chữ viết của người Hrê, người Co được thuận lợi, góp phần thu hẹp khoảng cách phát triển về kinh tế, văn hoá, xã hội giữa các vùng dân tộc thiểu số với các địa bàn trong tỉnh, đặc biệt là khoảng cách về giao tiếp giữa đồng bào các dân tộc; thúc đẩy phát triển kinh tế, xã hội; gìn giữ và giới thiệu bản sắc văn hóa, phong tục tập quán của người đồng bào dân tộc Hrê, Co.

- Tóm tắt nội dung nghiên cứu chính:

1. Xây dựng hệ thống dữ liệu - kho ngữ vựng Việt - Hrê, Việt - Co: Trên cơ sở nguồn dữ liệu tiếng Hrê và tiếng Co tại 02 bộ tài liệu đã được UBND phê duyệt: “Tài liệu Đào tạo, bồi dưỡng tiếng Hrê” (dùng cho cán bộ công chức tại miền núi và công tác dân tộc tỉnh Quảng Ngãi) của UBND tỉnh Quảng Ngãi (ban hành tạm thời kèm theo Quyết định số 893/QĐ-UBND ngày 27/4/2007 của UBND tỉnh Quảng Ngãi) và tài liệu “BAI HOC APOK KOOL (Bài học tiếng CO” (được UBND tỉnh cho phép tại công văn số 4796/UBND-NC ngày 27/8/2019), đề tài sẽ tiếp cận và nghiên cứu toàn bộ vốn từ Việt, Hrê và Co cơ bản thường xuyên sử dụng trong cuộc sống trong 02 bộ tài liệu. Từ đó, thực hiện việc số hóa đồng nhất giữa các từ tương ứng để thành lập một kho dữ liệu Việt - Hrê, Việt - Co. Cơ sở dữ liệu gồm:

Kho ngữ vựng song ngữ Việt - Hrê và ngược lại;

Kho ngữ vựng song ngữ Việt - Co và ngược lại;

2. Xây dựng công cụ hỗ trợ gõ tiếng dân tộc (Hrê, Co) trên giao diện phần mềm:

Trong phạm vi kết quả của đề tài sẽ bao gồm: Cơ sở dữ liệu điện tử Việt - Hrê và ngược lại (Hrê - Việt); Cơ sở dữ liệu điện tử Việt - Co và ngược lại (Co - Việt). Đối với tiếng Việt đã có các công cụ hỗ trợ gõ tiếng Việt tích hợp font Unicode nên việc sử dụng để tra từ trên giao diện phần mềm dễ dàng. Đối với tiếng Hrê và Co, hiện chưa có công cụ hỗ trợ gõ có tích hợp font Unicode, vì vậy để tra cứu từ Hrê - Việt, Co - Việt cần phải nghiên cứu và xây dựng công cụ cho phép gõ tiếng Hrê, Co bằng font Unicode trực tiếp trên giao diện phần mềm.

Hiện nay đã có một số phần mềm, ứng dụng cho phép gõ tiếng dân tộc thiểu số trên máy tính như: Vnkey, Taynguyen key, WinVNKey. Trong đó có hỗ trợ bộ gõ Unicode như Vnkey, WinVNKey. Đặc biệt, WinVNKey của tác giả Trần Tư Bình và Ngô Đình Học là bộ gõ đa ngôn ngữ, cho phép người dùng tự cài đặt kiểu gõ riêng của mình và có khả năng tích hợp kiểu gõ mới.

Từ những yêu cầu, cơ sở trên, đề tài sẽ xây dựng công cụ hỗ trợ gõ tiếng Hrê và Co với các font chữ Unicode tích hợp vào phần mềm để sử dụng trong tra cứu từ Hrê - Việt, Co - Việt.

3. Xây dựng bộ phần mềm Cơ sở dữ liệu điện tử Việt - Hrê, Việt - Co: Nhờ vào kho dữ liệu đã xây dựng, đề tài sẽ phát triển bộ phần mềm Cơ sở dữ liệu điện tử có thể sử dụng được trên các thiết bị điện tử như: máy tính, điện thoại thông minh... nhằm mục đích tra ngữ nghĩa giữa các ngôn ngữ Việt - Hrê, Việt - Co. Bên cạnh đó, phần mềm sẽ trang bị thêm một số công cụ để người dùng có thể cập nhật thêm một số từ chưa có trong cơ sở dữ liệu. Bộ phần mềm Cơ sở dữ liệu điện tử Việt - Hrê, Việt - Co gồm phiên bản chạy trên web và ứng dụng (app) chạy trên thiết bị di động.

4. Ứng dụng trí tuệ nhân tạo (AI) để xây dựng hệ thống nhận diện giọng nói tiếng dân tộc và tích hợp vào hệ thống CSDL điện tử.

Hiện nay, trí tuệ nhân tạo (AI) đã có nhiều ứng dụng rộng rãi trong nhiều lĩnh vực, trong đó có lĩnh vực từ điển điện tử với công nghệ nhận diện giọng nói (SpeechToText). Tuy nhiên, việc nhận diện giọng nói là tiếng đồng bào dân tộc thiểu số Hrê, Co thì chưa có trước đây nên sẽ là một nghiên cứu mới, vừa mang lại hiệu quả thiết thực với sản phẩm của Đề tài và sẽ nền tảng cho các nghiên cứu khác liên quan đến ứng dụng công nghệ vào lĩnh vực ngôn ngữ.

- Lĩnh vực nghiên cứu: Khoa học kỹ thuật - công nghệ

- Kết quả dự kiến:

* Sản phẩm dạng II

- Bộ Cơ sở dữ liệu điện tử tiếng đồng bào dân tộc thiểu số Việt - Hrê, Việt - Co

  • Kỷ yếu Hội thảo
  • Các Báo cáo khoa học
  • Phim tư liệu, Bản tin khoa học
  • Báo cáo tổng hợp đề tài

* Sản phẩm dạng II

- 02 Bài báo khoa học.

- Thời gian bắt đầu dự kiến và thời gian kết thúc dự kiến: 02/2023-08/2024

Tin liên quan

Thống kê truy cập

Số lượt truy cập: 1220

Tổng số lượt xem: 4245830