9h sáng ngày 5/9/2013, TS Nguyễn Phương Thái, giảng viên trường Đại học Khoa học và Công nghệ, Đại học Quốc gia Hà Nội đã trình bày thuyết trình khoa học tại Viện Ngôn ngữ học. Nội dung buổi thuyết trình "Xây dựng TREEBANK tiếng Việt và phát hiện lỗi tự động".
Kho văn bản mà trong đó mỗi câu được chú giải cấu trúc cú pháp và được biểu diễn dưới dạng cấu trúc cây phân cấp là nguồn tài nguyên rất hữu ích trong lĩnh vực xử lý ngôn ngữ tự nhiên. Kho văn bản này được gọi là treebank. Treebank có nhiều ứng dụng quan trọng như làm cơ sở cho việc đánh giá, kiểm định các công cụ xử lí ngôn ngữ tự động, các phần mềm dịch máy, tóm tắt văn bản tự động, các hệ thống hỏi đáp tự động… Trong khi các hệ thống treebank cho các thứ tiếng được nghiên cứu nhiều như Anh, Pháp, Trung Quốc… đã được xây dựng từ lâu, thì đối với tiếng Việt, việc xây dựng treebank chỉ là công việc mới bắt đầu.
Trong hai giờ thuyết trình TS Nguyễn Phương Thái đã trình bày khái quát quá trình xây dựng treebank cho tiếng Việt bao gồm một số bước cơ bản như: tìm hiểu, thiết kế, xây dựng công cụ, thu thập ngữ liệu thô, thiết kế tập nhãn, gán nhãn dữ liệu, các phép thử, các kỹ thuật xử lý nhập nhằng. Bên cạnh đó, tác giả cũng cho biết những khó khăn gặp phải trong quá trình xây dựng treebank cho tiếng Việt, đặc thù của một ngôn ngữ đơn lập, không có phân tách từ rõ ràng.
Buổi thuyết trình cũng nhận được nhiều ý kiến thảo luận thú vị xung quanh vấn đề xử lý nhập nhằng cú pháp, câu mập mờ về nghĩa trong tiếng Việt, lựa chọn giải pháp tối ưu cho phân tích cú pháp tiếng Việt, mức độ tương đồng của người gán nhãn cú pháp. GS.TS Nguyễn Văn Hiệp, GS.TS Nguyễn Văn Khang, PGS.TS Vũ Kim Bảng, các nghiên cứu viên trẻ đã đặt nhiều câu hỏi cho TS Nguyễn Phương Thái và đã nhận được những câu trả lời thú vị.
Vấn đề xây dựng kho ngữ liệu chuẩn cho tiếng Việt là vần đề cấp thiết, và là một trong các mục tiêu nghiên cứu lâu dài, cần có sự phối hợp chặt chẽ giữa những người làm công nghệ thông tin và ngôn ngữ học. Buổi thuyết trình khoa học đã gợi mở nhiều vấn đề cần trao đổi, chia sẻ trong lĩnh vực xử lý ngôn ngữ tiếng Việt ứng dụng cho công nghệ thông tin.
Một số hình ảnh của buổi sinh hoạt khoa học:
Đông đảo cán bộ trẻ của Viện tham dự buổi thuyết trình
Có nhiều ý kiến được thảo luận sôi nổi xung quanh vấn đề thuyết trình