KếT HợP NGữ NGHĩA VớI MÔ HìNH TúI Từ Để CảI TIếN GIảI THUậT K LáNG GIềNG TRONG PHÂN LớP VăN BảN NGắN

oleh: Đỗ Thanh Nghị, Trần Cao Đệ

Format: Article
Diterbitkan: Can Tho University Publisher 2014-11-01

Deskripsi

Trong bài này, chúng tôi giới thiệu tiếp cận tích hợp ngữ nghĩa với mô hình túi từ nhằm cải tiến hiệu quả dự đoán lớp dương của giải thuật k láng giềng trong phân lớp văn bản ngắn. Mô hình túi từ là mô hình biểu diễn văn bản như véc tơ tần số xuất hiện của từ trong văn bản, được sử dụng phổ biến hiện nay trong vấn đề phân lớp văn bản. Tuy nhiên, khuyết điểm của mô hình túi từ là không quan tâm đến sự đồng nghĩa của từ, điều này làm giảm hiệu quả dự đoán lớp dương (lớp quan tâm) của giải thuật k láng giềng trong phân lớp văn bản ngắn. Chúng tôi đề xuất tích hợp ngữ nghĩa vào mô hình túi từ để cải thiện kết quả dự đoán lớp dương của k láng giềng. Kết quả thực nghiệm với tập dữ liệu thực cho thấy rằng các phương pháp của chúng tôi đề xuất cải thiện dự đoán lớp dương hơn 8% trong giảm chưa đến 1% dự đoán lớp âm của giải thuật k láng giềng trong phân lớp văn bản ngắn.