Xử lý ngôn ngữ tự nhiên – Wikipedia tiếng Việt

Xử lý tiếng nói tự nhiên (natural language processing – NLP) là một nhánh của trí tuệ nhân tạo tập trung vào những ứng dụng trên tiếng nói của con người. Trong trí tuệ nhân tạo thì xử lý tiếng nói tự nhiên là một trong những phần khó nhất vì nó liên quan tới việc phải hiểu ý nghĩa ngôn ngữ-công cụ tuyệt vời nhất của tư duy và giao tiếp.

Những bước khắc phục và xử lý[sửa|sửa mã nguồn]

  • Phân tích hình thái – Trong bước này từng từ sẽ được phân tích và những ký tự ko phải chữ (như những dấu câu) sẽ được tách ra khỏi những từ. Trong tiếng Anh và nhiều tiếng nói khác, những từ được phân tích với nhau bằng dấu cách. Tuy nhiên trong tiếng Việt, dấu cách được sử dụng để phân tích những tiếng (âm tiết) chứ ko phải từ. Cùng với những tiếng nói như tiếng Trung, tiếng Hàn,tiếng Nhật, phân tích từ trong tiếng Việt là một công việc ko hề thuần tuý.
  • Phân tích cú pháp – Dãy những từ sẽ được biến đổi thành những cấu trúc thể hiện sự liên kết giữa những từ này. Sẽ sở hữu những dãy từ bị loại do vi phạm những luật văn phạm.
  • Phân tích ngữ nghĩa – Thêm ngữ nghĩa vào những cấu trúc được tạo ra bởi bộ phân tích cú pháp.
  • Tích hợp văn bản – Ngữ nghĩa của một câu riêng biệt sở hữu thể phụ thuộc vào những câu đứng trước, đồng thời nó cũng sở hữu thể tác động tới những câu phía sau.
  • Phân tích thực nghĩa – Cấu trúc thể hiện điều được phát ngôn sẽ được thông dịch lại để xác định nó thật sự sở hữu tức thị gì.

Tuy nhiên, ranh giới giữa 5 bước xử lý này cũng rất phong thanh. Chúng sở hữu thể được tiến hành từng bước một, hoặc tiến hành đồng thời – tùy thuộc vào giải thuật và văn cảnh cụ thể.

Những bài toán và ứng dụng[sửa|sửa mã nguồn]

Những bài toán trong khắc phục và xử lý tiếng Việt[sửa|sửa mã nguồn]

  • Phân tích câu
  • Phân tích từ
  • Tự động thêm dấu: Chữ viết tiếng Việt là chữ viết sở hữu dấu thanh. Trong những văn bản chính thống như sách, tạp chí, văn bản hành chính, những dấu thanh được viết xác thực. Tuy nhiên trong cách tình huống ko chính thống như chat, gõ tìm kiếm, người sử dụng thông thường ko gõ những dấu thanh, dẫn tới khó khăn nhất định cho máy tính trong việc hiểu ý nghĩa của văn bản.

Những bộ dữ liệu trong xử lý tiếng Việt

  • Treebank tiếng Việt: VietTreebank và NIIVTB.
  • Hỏi đáp – đọc hiểu tự động: UIT-ViQuAD và UIT-ViNewsQA.
  • Phân tích xúc cảm: updating …

Liên kết ngoài[sửa|sửa mã nguồn]

Source: https://bloghong.com
Category: Là Gì