Skip to main content
Version: Next

Đánh giá mô hình ngôn ngữ trả lời

Xác định xem mô hình ngôn ngữ có tạo ra câu trả lời vừa chính xác vừa đầy đủ, dựa trên các tài liệu đã được truy xuất hay không.

MetricDescription
Độ chính xác (Precision)Bao nhiêu trong số các phát biểu của chatbot là chính xác.
Độ phủ (Recall)Bao nhiêu thông tin liên quan trong dữ liệu tham chiếu (ground truth) được chatbot đề cập đến..
Điểm F1Trung bình giữa Precision và Recall, thể hiện sự cân bằng giữa độ chính xác và mức độ đầy đủ.
Độ bám ngữ cảnh (Groundedness)Đo lường mức độ mà câu trả lời của mô hình dựa trên ngữ cảnh được truy xuất.
Độ nhạy nhiễu (Noise Sensitivity)Kiểm tra khả năng chống chịu của mô hình khi trong ngữ cảnh có thông tin nhiễu hoặc gây xao lạc.