Phân Loại Tên Thể Loại Ở Wikipedia Tiếng Việt

Hoàng Thắng

Phân Loại Tên Thể Loại Ở Wikipedia Tiếng Việt

Hoàng Thắng

Tạp chí Khoa học Đại học Đà Lạt

visibility

…

description

14 pages

link

1 file

Wikipedia nổi tiếng là một bách khoa toàn thư mở lớn nhất hiện nay với mục đích phổ cập kiến thức cho tất cả mọi người trên thế giới. Với việc áp dụng robot trong khâu tạo bài tự động, dự án tiếng Việt là một trong 13 dự án ngôn ngữ có hơn một triệu bài viết. Tuy nhiên, điều đó tạo cho Wikipedia tiếng Việt nhiều thách thức trong việc nâng cao chất lượng bài, sắp xếp thể loại, chống phá hoại nội dung và nhiều công tác khác. Trong bài báo này, chúng tôi phân loại thể loại ở Wikipedia tiếng Việt, chi tiết hơn là cấu trúc và các quy ước đặt tên thể loại. Phương pháp chính là áp dụng các tiêu chuẩn và cấu trúc thể loại sẵn có ở tiếng Anh, một dự án Wikipedia lớn nhất về mặt thông tin đóng góp, từ đó áp dụng cho phiên bản tiếng Việt. Tuy nhiên, điều đó không thực hiện dễ dàng, do đó chúng tôi phải kết hợp nhiều phương pháp xã hội cũng như chuyên môn để đạt được sự kỳ vọng. Việc phân tích tên thể loại và dữ liệu từ Wikidata được chúng tôi áp dụng là một tiền đề xây dựng một công cụ chuyển ...

Sign up for access to the world's latest research

checkGet notified about relevant papers

checkSave papers to use in your research

checkJoin the discussion with peers

checkTrack your impact

Thuý Ngân

FAIR - NGHIÊN CỨU CƠ BẢN VÀ ỨNG DỤNG CÔNG NGHỆ THÔNG TIN - 2017

Phân loại câu hỏi là một thành phần quan trọng trong các hệ thống hỏi đáp, đặc biệt là hệ thống hỏi đáp mở (Opendomain question answering system). Phân loại câu hỏi giúp xác định đối tượng cần tìm kiếm và phạm vi kiến thức của câu trả lời. Do đó độ chính xác của bộ phân loại câu hỏi ảnh hưởng nhiều đến chất lượng của một hệ thống hỏi đáp mở. Trong bài báo này, chúng tôi trình bày phương pháp phân loại câu hỏi tiếng Việt sử dụng kết hợp các phương pháp túi từ, từ khóa và quan hệ phụ thuộc. Chúng tôi tiến hành thử nghiệm phương pháp trên 2 bộ câu hỏi: bộ câu hỏi TREC tiếng Việt và bộ câu hỏi do chúng tôi tự xây dựng. Kết quả thử nghiệm cho ra hệ thống phân loại câu hỏi có độ chính xác ở lớp thô(Coarse) là 85.4% và lớp mịn(Fine-Grained) là 70.2%. Hệ thống cũng xây dựng được bộ dữ liệu được đặt tên là UIT-OQA. Bộ dữ liệu gồm 1,416 câu hỏi phù hợp với các nghiên cứu về phân loại câu hỏi và hệ thống hỏi đáp trên ngôn ngữ Tiếng Việt. Từ khóa: Open-domainquestion answering, hệ thống hỏi đáp mở, quan hệ phụ thuộc, túi từ.

Log In

Phân Loại Tên Thể Loại Ở Wikipedia Tiếng Việt

Sign up for access to the world's latest research

Related papers

Related papers