Sáng ngày 19 tháng 03 năm 2014 tại Viện Hàn lâm Khoa học Xã hội Việt Nam đã diễn ra hội thảo khoa học về Mạng từ tiếng Việt với chủ đề "Hướng tới việc xây dựng Mạng từ tiếng Việt".
Ngày nay, cùng với sự phát triển của công nghệ thông tin và truyền thông, các ứng dụng xử lí ngôn ngữ tự nhiên đã ngày càng gần hơn với cuộc sống con người, chẳng hạn như các ứng dụng tìm kiếm thông tin, dịch máy, nhận dạng tiếng nói, tổng hợp tiếng nói, v.v. mà chúng ta có thể sử dụng miễn phí trên máy tính hay thiết bị di động như máy tính bảng và điện thoại thông minh. Bên cạnh đó, các ứng dụng truyền thống như soạn thảo văn bản, kiểm tra lỗi chính tả, … cũng ngày càng trở nên thông minh hơn. Tất cả các kết quả đó đều liên quan đến một lĩnh vực mà ở đó có sự giao thoa giữa tin học và ngôn ngữ học, lĩnh vực ngôn ngữ học máy tính.
Để làm tốt các bài toán ứng dụng kể trên, người ta phải giải quyết được các bài toán cơ bản hơn, trong đó có loạt bài toán về ngữ nghĩa từ vựng. Mạng từ là một trong các tài nguyên cần có cho việc xử lí nhóm bài toán này. Mạng từ là một sản phẩm liên ngành của ngôn ngữ học, tâm lí học và khoa học máy tính. Mạng từ là một cơ sở ngữ liệu lớn, được thiết kế cho một hay nhiều ngôn ngữ, trong đó các từ được nhóm lại thành các loạt đồng nghĩa, mỗi loạt đồng nghĩa này thể hiện một khái niệm riêng biệt; các loạt đồng nghĩa khác nhau có gắn kết với nhau nhờ vào các quan hệ ngữ nghĩa. Các quan hệ chủ yếu có tác dụng kết nối các loạt đồng nghĩa lại với nhau là quan hệ bao thuộc, quan hệ tổng phân, quan hệ trái nghĩa, quan hệ cách.
Mạng từ đầu tiên trên thế giới được phát triển tại Đại học Princeton cho tiếng Anh, vào những năm 1980. Sau đó nhiều mạng từ khác đã ra đời, như mạng từ các ngôn ngữ Châu Âu (EuroWordnet), mạng từ tiếng Nhật, mạng từ tiếng Thái Lan, mạng từ tiếng Trung, v.v.
Nghiên cứu về Mạng từ tiếng Việt rất gần đây mới được quan tâm chú ý. Hiện nay Việt Nam vẫn chưa có Mạng từ tiếng Việt. Vấn đề xây dựng Mạng từ tiếng Việt đã được chính thức đặt ra trong hội thảoHướng tới việc xây dựng Mạng từ tiếng Việt. Hội thảo được tiến hành trong khuôn khổ của đề tài khoa học cấp nhà nước “Nghiên cứu, xây dựng và phát triển một số tài nguyên và công cụ thiết yếu cho xử lí văn bản tiếng Việt”.
Mạng từ tiếng Việt được xây dựng, theo như nội dung Hội thảo, gồm 30 000 loạt đồng nghĩa, 50 000 từ trong đó có 30 000 từ là từ tiếng Việt thông dụng. Trong Mạng từ tiếng Việt, bên cạnh hệ thống những khái niệm và quan hệ gốc vốn thường có trong các mạng từ của các ngôn ngữ khác, còn có những hiện tượng đặc hữu thuộc về tiếng Việt (như hiện tượng ghép đẳng lập, ghép chính phụ biệt nghĩa, láy….) và văn hóa Việt (bếp Hoàng Cầm, dép cao su,….).
Hội thảo Hướng tới việc xây dựng Mạng từ tiếng Việt có mục đích giới thiệu bài toán xây dựng Mạng từ tiếng Việt. Các báo cáo được trình bày tại Hội thảo tập trung xoay quanh những vấn đề như: lược sử việc xây dựng mạng từ trên thế giới, bức tranh tổng quan về Mạng từ tiếng Việt, cách tiếp cận của danh học và ngữ nghĩa học từ vựng trong xây dựng Mạng từ tiếng Việt, các tiêu chí hình thức dùng để nhận diện các quan hệ ngữ nghĩa trong Mạng từ tiếng Việt, ứng dụng Mạng từ tiếng Việt vào bài toán tách từ tiếng Việt, phân tích chủ đề và ứng dụng của phân tích chủ đề.
Hội thảo đã thu hút được đông đảo các chuyên gia ngôn ngữ học và tin học từ các viện nghiên cứu (Viện Ngôn ngữ học, Viện Công nghệ Thông tin, Viện Từ điển học và Bách khoa thư,…) và trường đại học (Đại học Công nghệ, Đại học Khoa học Tự nhiên, Đại học Bách khoa, Học viện Kĩ thuật quân sự, Đại học Thái Nguyên,…) tới dự. Thạc sĩ Phạm Văn Lam, nghiên cứu viên Viện Ngôn ngữ học, đã tham dự Hội thảo với hai báo cáo Vị trí, vai trò của danh học và ngữ nghĩa học từ vựng trong việc xây dựng Mạng từ tiếng Việt, Tiêu chí hình thức dùng để nhận diện các quan hệ ngữ nghĩa trong Mạng từ tiếng Việt.
Một số hình ảnh của Hội thảo:
ThS Phạm Văn Lam, cán bộ Viện Ngôn ngữ học trình bày báo cáo tại Hội thảo
GS. TS Nguyễn Văn Hiệp, Viện trưởng Viện Ngôn ngữ học phát biểu tại Hội thảo
Đông đảo các nhà khoa học tham dự Hội thảo