Sinh viên Việt Nam có bài báo khoa học được chấp nhận ở hội nghị quốc tế

Cập nhật, 13:02, Thứ Bảy, 25/09/2021 (GMT+7)

 

Nguyễn Thành Thông và Lữ Ngọc Thiên Trúc.Ảnh: NVCC
Nguyễn Thành Thông và Lữ Ngọc Thiên Trúc.Ảnh: NVCC

(VLO) Bài báo của 2 sinh viên ĐH Bách khoa TP Hồ Chí Minh nghiên cứu ứng dụng trí tuệ nhân tạo (AI) có thể tóm tắt nội dung văn bản vài chục trang chỉ trong một phút. Bài báo là một phần của luận văn tốt nghiệp vừa được 2 bạn bảo vệ thành công với điểm số 9,97.

Bài báo khoa học “Enriching and Controlling Global Semantics for Text Summarization” (tạm dịch: “Làm giàu và điều khiển ngữ nghĩa toàn cục để tóm tắt văn bản”) vừa được chấp thuận tại hội nghị Empirical Methods in Natural Language Processing- EMNLP 2021, dự kiến đăng vào tháng 11.

Tác giả là nhóm sinh viên Nguyễn Thành Thông và Lữ Ngọc Thiên Trúc- Khoa Khoa học và Kỹ thuật máy tính, Trường ĐH Bách khoa, ĐHQG TP Hồ Chí Minh.

Nội dung bài báo là một phần của luận văn tốt nghiệp ĐH của 2 sinh viên, dưới sự hướng dẫn của PGS. TS Quản Thành Thơ- Phó trưởng Khoa Khoa học và Kỹ thuật Máy tính- và PGS. TS Lưu Anh Tuấn- cựu sinh viên ĐH Bách khoa, hiện đang công tác tại Trường Nanyang Technological University - Singapore).

PGS.TS. Quản Thành Thơ- Phó Chủ nhiệm Khoa Khoa học và Kỹ thuật máy tính, Trường ĐH Bách khoa TP Hồ Chí Minh- cho biết: Hội nghị EMNLP là 1 trong 2 hội nghị lớn nhất thế giới về lĩnh vực xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP).

Bài báo được chấp nhận là dạng báo khoa học hội nghị thuộc nhóm A1, là top cao nhất thế giới hiện nay.

Có bài được chấp nhận ở hội nghị này là niềm ao ước và tự hào của tất cả những người nghiên cứu trong ngành. “2 em mới chỉ là sinh viên đã có bài báo được chấp nhận là một thành tích rất xuất sắc, nếu không nói là hiếm gặp”- ông nói.

Theo PGS.TS Quản Thành Thơ, cho đến nay, trong lĩnh vực xử lý ngôn ngữ tự nhiên ở Việt Nam, gần như chưa ai đạt được thành tích đó, kể cả giảng viên trong các trường ĐH.

Mô hình tóm tắt văn bản sử dụng AI machine learning của nhóm có thể tóm tắt văn bản từ nhiều loại ngôn ngữ khác nhau. Một văn bản có độ dài 10 trang, khi đưa vào mô hình tóm tắt, sau một phút sẽ được xử lý chỉ còn 128-256 từ nhưng vẫn đảm bảo đầy đủ các ngữ nghĩa chính cần diễn đạt.

Hiện nay để tóm tắt văn bản tự động, công cụ sử dụng phổ biến là Pegasus. PGS.TS. Quản Thành Thơ cho biết, với các văn bản dài các công cụ này độ chính xác chỉ đạt khoảng 25% do thiếu những từ khóa và thông tin quan trọng nhất.

Hệ thống AI được đề xuất từ phương pháp này có thể tóm tắt một đoạn văn bản dài thành một nội dung cô đọng nhưng vẫn đầy đủ các thông tin chính yếu nhất.

Nhóm thực hiện mô hình để khắc phục tính chính xác của văn bản tóm tắt, thay vì chỉ dùng AI, nhóm kết hợp với AI machine learning (trí tuệ nhân tạo học máy).

Trước khi đưa văn bản vào tóm tắt, nhóm sử dụng một mô hình khác để nhận ra các chủ đề chính của văn bản gốc. Từ các chủ đề này mới sắp xếp thành văn bản tóm tắt hoàn thiện.

Nhờ đó mà mô hình có nhiều thông tin hơn so với các phương pháp tóm tắt văn bản khác trước đó. Độ chính xác của văn bản cũng đạt 50%.

Nguyễn Thành Thông- thành viên của nhóm- chia sẻ: Để tóm tắt văn bản, file sẽ được chuyển về dạng ký tự (tokens). Mỗi tokens sẽ được đổi về dạng ID tương ứng với từng ký tự, như vậy sẽ có một chuỗi các tokens.

AI sẽ đọc chuỗi tokens này và sinh ra chuỗi tokens tương ứng với ký tự của đoạn tóm tắt. Cuối cùng là chuyển các tokens về dạng ký tự mà con người
hiểu được.

Tóm tắt tự động là một trong những vấn đề lớn của xử lý ngôn ngữ tự nhiên hiện nay. Đây là công việc rất cần thiết cho những người làm việc trong môi trường học thuật cần phải đọc và nắm được các thông tin chính yếu của một lượng lớn
tài liệu.

Hiện nay, Nguyễn Thành Thông đang là thành viên của VinAI Research, Lữ Ngọc Thiên Trúc đang được đào tạo tại Vingroup Big Data Institute.

Nội dung bài báo của Nguyễn Thành Thông và Lữ Ngọc Thiên Trúc hướng đến vấn đề tự động tóm tắt văn bản bằng trí tuệ nhân tạo. Đây là một công việc rất cần thiết cho những người làm việc trong môi trường học thuật cần phải đọc và nắm được các thông tin chính yếu của một lượng lớn tài liệu.

ĐÔNG PHƯƠNG (Tổng hợp)