Ngày 28/7/2022 tại Viện Ngôn ngữ học, Phòng Ngữ âm – Từ vựng – Ngữ pháp, Viện Ngôn ngữ học đã tổ chức buổi tọa đàm khoa học với chủ đề Sơ bộ về bài toán nhận dạng thực thể được gọi tên trong tiếng Việt do TS. Phạm Văn Lam trình bày với sự tham dự của các cán bộ viện Ngôn ngữ học.
Bài toán nhận dạng thực thể được gọi tên (named-entity recognition), viết tắt là NER, còn gọi là nhận dạng thực thể có tên, nhận dạng thực thể định danh, xác định thực thể hoặc trích xuất thực thể. Đây là một loại nhiệm vụ thiết yếu trong các ứng dụng trích xuất thông tin, trong đó người ta tìm kiếm và quy loại các thành phần thông tin (thực thể) trong văn bản vào những loại/ phạm trù xác định trước như là tên người, tổ chức, địa điểm, thời gian, số lượng, giá trị tiền tệ, tỉ lệ phần trăm và nhiều loại giá trị khác, v.v. Nói cách khác, đó là công việc nhận biết các chuỗi từ trong văn bản vốn là tên gọi của một đối tượng nào đó, điển hình như tên người, tên tổ chức, tên địa danh, thời gian, v.v. Nhận dạng thực thể được gọi tên là một loại bài toán quan trọng trong xử lí ngôn ngữ tự nhiên, đã được đặt ra và quan tâm nghiên cứu trên thế giới từ đầu những năm 1990; trong tiếng Việt đã có vài cuộc thi về bài toán này.
Tại buổi thuyết trình, TS. Phạm Văn Lam đã trình bày một cách tổng quan về lịch sử của bài toán nhận dạng thực thể trên thế giới nói chung và ở Việt Nam nói riêng, các nhiệm vụ khác liên quan đến bài toán nhận dạng thực thể (ví dụ như đồng quy chiếu, ngữ nghĩa học quan hệ và viện nhận dạng thực thể,…), thực tiễn và sự phức tạp của việc nhận dạng các loại thực thể trong tiếng Việt. Từ thực tiễn kinh nghiệm xử lí tiếng Việt của mình (qua việc tham gia một số dự án của các đơn vị liên quan), TS. Phạm Văn Lam đã đi sâu vào trình bày việc xử lí các loại thực thể có tên gọi trong tiếng Việt, chú ý một cách đặc biệt đến những đặc trưng loại hình của tiếng Việt có ảnh hưởng đến bài toán này. Ba loại thực thể có tên gọi đã được tác giả chú ý trình bày là tên người, tên tổ chức và tên địa lí. Hiện tượng nhập nhằng, các loại thực thể lồng cũng đã được tác giả đề cập, phân tích tương đối chi tiết. Ngoài ra, tác giả cũng đã sơ bộ giới thiệu việc xử lí một số loại thực thể quan trọng khác trong tiếng Việt liên quan đến các dữ liệu của các ngân hàng, thương mại điện tử, hỏi đáp tự động, v.v.
Tại buổi tọa đàm, GS.TS Nguyễn Văn Hiệp và các ý kiến thảo luận đã đánh giá cao về kết quả, ý nghĩa thực tiễn và tính ứng dụng của nghiên cứu trong xu hướng phát triển mạnh mẽ của công nghệ hiện nay. Dưới đây là một số hình ảnh của buổi tọa đàm"
Bài: Tú Anh
Ảnh: Sông Xanh