DopikAI's LLM Challenge

Organized by dopikai - Current server time: April 27, 2024, 2:45 p.m. UTC

Current

Public Test

Sept. 5, 2023, midnight UTC

End

Competition Ends

Never

Overview
Evaluation
Terms and Conditions
Update

DopikAI LLM Challenge 2023: Giới thiệu cuộc thi Benchmark LLM Tiếng Việt

Chào mừng đến với DopikAI LLM Challenge 2023 - cuộc thi đầu tiên benchmark LLM trên tiếng Việt!

Trong những năm gần đây, việc phát triển các mô hình ngôn ngữ lớn đã tạo ra những tiến bộ đáng kể trong lĩnh vực xử lý ngôn ngữ tự nhiên. Các LLM như ChatGPT, GPT-4, Bard, LLaMa2, ... đã chứng minh khả năng đáng kinh ngạc trong việc tạo ra văn bản tự nhiên, dịch thuật, phân loại văn bản và nhiều ứng dụng khác. Tuy nhiên, hầu hết các nghiên cứu và benchmark hiện tại tập trung vào các ngôn ngữ phổ biến như tiếng Anh, tạo ra một khoảng cách đáng kể trong việc đánh giá hiệu suất của LLM đối với các ngôn ngữ khác.

Động lực của cuộc thi

DopikAI LLM Challenge 2023 ra đời nhằm giải quyết lỗ hổng trên và thúc đẩy sự phát triển của các mô hình ngôn ngữ lớn trong việc xử lý tiếng Việt. Chúng tôi muốn tạo ra một bộ dữ liệu tiêu chuẩn, đa dạng và phong phú bằng tiếng Việt, để đánh giá khả năng hiểu và sinh ra văn bản tự nhiên của các LLM.

Cuộc thi này cung cấp một nền tảng để các nhà nghiên cứu, sinh viên và các chuyên gia trong lĩnh vực xử lý ngôn ngữ tự nhiên có thể tham gia và so sánh hiệu suất của các mô hình của mình. Chúng tôi hy vọng rằng cuộc thi sẽ thúc đẩy sự khám phá và sáng tạo trong việc áp dụng LLM vào các bài toán tiếng Việt.

Cách thức tham gia

Cuộc thi sẽ được tổ chức trên nền tảng AI Hub, một môi trường hợp tác trực tuyến cho các cuộc thi và nghiên cứu khoa học. Để tham gia, bạn cần thực hiện các bước sau:

Truy cập vào trang cuộc thi trên AI Hub và tạo một tài khoản nếu bạn chưa có.
Tải xuống bộ dữ liệu tiếng Việt được cung cấp và tìm hiểu về định dạng và cấu trúc của nó.
Đăng ký cuộc thi và nộp bài tham gia của bạn thông qua giao diện AI Hub. Bạn cũng có thể cung cấp một số mô tả về mô hình của bạn
Hệ thống sẽ tự động đánh giá hiệu suất của mô hình của bạn trên tập dữ liệu thử nghiệm và cung cấp kết quả đánh giá. Bạn có thể theo dõi tiến trình của mình trên AI Hub và so sánh kết quả với các đội tham gia khác.

Lợi ích tham gia cuộc thi

Thông qua cuộc thi Benchmark LLM Tiếng Việt, chúng tôi hy vọng tạo ra một sự tăng trưởng đáng kể và khuyến khích sự phát triển của các mô hình LLM trong việc xử lý ngôn ngữ tiếng Việt. Bằng cách tham gia cuộc thi, bạn sẽ có cơ hội:

Đánh giá hiệu suất: Thử nghiệm mô hình LLM của bạn với các tác vụ và dữ liệu tiếng Việt thực tế để đo lường hiệu suất và khả năng của nó.
So sánh và học hỏi: So sánh kết quả của mô hình LLM của bạn với các mô hình khác và tiếp cận tốt nhất hiện có. Khám phá các phương pháp và kỹ thuật mới để cải thiện mô hình của bạn.
Xây dựng cộng đồng: Tham gia vào một cộng đồng năng động của các nhà nghiên cứu và chuyên gia trong lĩnh vực LLM Tiếng Việt. Chia sẻ kiến thức, ý tưởng và trải nghiệm với nhau để đẩy mạnh sự phát triển chung.
Đạt được công nhận: Các mô hình LLM xuất sắc nhất sẽ được công bố và ghi nhận trên trang web của cuộc thi. Điều này sẽ giúp bạn xây dựng lòng tin và uy tín trong cộng đồng AI.

Ban tổ chức cuộc thi

Cuộc thi DopikAI LLM Challenge 2023 được tổ chức bởi một nhóm các chuyên gia và nhà nghiên cứu hàng đầu trong lĩnh vực xử lý ngôn ngữ tự nhiên. Chúng tôi cam kết đảm bảo tính công bằng và chất lượng của cuộc thi, đồng thời đảm bảo quyền riêng tư và bảo mật của dữ liệu tham gia.

Chúng tôi rất mong nhận được sự quan tâm và tham gia của bạn trong cuộc thi DopikAI LLM Challenge 2023 trên AI Hub. Hãy cùng chung tay đưa xử lý ngôn ngữ tự nhiên tiếng Việt lên một tầm cao mới và đóng góp vào sự phát triển của cộng đồng khoa học và công nghệ.

Cách thức đánh giá

Metric

Cuộc thi DopikAI LLM Challenge 2023 sẽ sử dụng 4 metric chính để đánh giá hiệu suất của các mô hình tham gia. Dưới đây là mô tả về các metric và cách tính từng metric.

ROUGE-1 (Recall-Oriented Understudy for Gisting Evaluation - 1-gram) : Metric ROUGE-1 được sử dụng để đo đạc độ chính xác của việc tạo ra các từ hoặc cụm từ đúng trong kết quả đầu ra so với các từ hoặc cụm từ tham chiếu. ROUGE-1 tính tỷ lệ số từ hoặc cụm từ chính xác (precision) trong kết quả so với số từ hoặc cụm từ tham chiếu (recall).
BLEU-1 (Bilingual Evaluation Understudy - 1-gram): Metric BLEU-1 được sử dụng để đo đạc độ chính xác của việc tạo ra các từ riêng lẻ đúng trong kết quả đầu ra so với các từ tham chiếu. BLEU-1 tính tỷ lệ số từ riêng lẻ chính xác (precision) trong kết quả so với số từ riêng lẻ tham chiếu (recall).
BLEU-4 (Bilingual Evaluation Understudy - 4-gram): Metric BLEU-4 là một biến thể của BLEU-1, nhưng tính toán trên các cụm từ (4-gram) thay vì từ riêng lẻ. BLEU-4 đánh giá độ chính xác của các cụm từ trong kết quả đầu ra so với các cụm từ tham chiếu.
F1 (F1 Score): Metric F1 là một đánh giá tổng hợp của độ chính xác (precision) và độ phủ (recall). Trong cuộc thi này, F1 được tính dựa trên việc so sánh kết quả đầu ra với các từ hoặc cụm từ tham chiếu.

Cấu trúc file nộp

Để nộp bài tham gia cuộc thi, bạn cần tuân thủ cấu trúc file submission được yêu cầu trên AI Hub.

File submission là 1 file zip, bên trong chứa nhiều file json ứng với từng task của cuộc thi
Tên file json cần đảm bảo trùng với tên file trong tập test dataset được cung cấp
Cấu trúc bên trong file json cần tuân thủ: Là 1 dictionary với key là id của câu hỏi và value là câu trả lời của câu hỏi với id tương ứng (riêng với task NER, key là id của danh sách các từ đã được tokenize, value là Entity tương ứng của từng từ)

Ví dụ cấu trúc một file submission mẫu: sample_submission.zip

Trong quá trình cuộc thi, bạn có thể nộp lại các phiên bản cải tiến của mô hình và kết quả đánh giá sẽ được cập nhật theo từng lần nộp.

Lưu ý: Đảm bảo rằng đọc và tuân thủ các hướng dẫn chi tiết về cấu trúc file submission được cung cấp trên trang web cuộc thi để việc nộp bài của bạn được chấp nhận và đánh giá chính xác.

Hy vọng rằng thông tin trên sẽ giúp bạn hiểu rõ hơn về các metric được sử dụng trong cuộc thi cũng như cấu trúc file submission trên AI Hub

Quy định chung

Quyền hủy bỏ, sửa đổi hoặc loại bỏ tư cách tham dự. Ban tổ chức cuộc thi có toàn quyền quyết định chấm dứt, sửa đổi hoặc đình chỉ cuộc thi.
Bằng cách gửi kết quả cho cuộc thi, bạn đồng thuận việc công khai điểm số của mình tại hội thảo của cuộc thi và trong các kỷ yếu liên quan theo quyết định của Ban tổ chức. Điểm số có thể bao gồm nhưng không giới hạn các đánh giá định lượng được tiến hành tự động và thủ công, các đánh giá định tính, và các chỉ số đo mà ban tổ chức đánh giá là phù hợp. Bạn chấp nhận rằng quyết định cuối cùng liên quan đến việc chọn các chỉ số đo và giá trị điểm số nằm ở người ra đề.
Với việc tham gia cuộc thi, bạn xác nhận và công nhận rằng bạn đồng ý tuân thủ các luật và quy định hiện hành, đồng thời bạn không được vi phạm bất kỳ bản quyền, sở hữu trí tuệ hoặc bằng sáng chế nào của một bên khác đối với phần mềm mà bạn phát triển trong quá trình diễn ra cuộc thi và sẽ không vi phạm bất kỳ luật và quy định hiện hành nào liên quan đến kiểm soát xuất khẩu, quyền riêng tư và bảo vệ dữ liệu.
Người tham gia trao cho Ban tổ chức cuộc thi quyền sử dụng các bài dự thi của bạn cũng như mã nguồn và dữ liệu được tạo và sử dụng để tạo bài dự thi cho bất kỳ mục đích nào và không cần phê duyệt thêm.

Điều kiện tham dự

Mỗi người tham gia phải tạo một tài khoản aihub để gửi giải pháp cho cuộc thi. Mỗi người chỉ được cấp phép duy nhất một tài khoản.
Cuộc thi diễn ra công khai, nhưng Ban tổ chức cuộc thi có thể quyết định bác bỏ quyền tham gia theo những cân nhắc riêng.
Ban tổ chức cạnh tranh có quyền loại bất kỳ người tham gia nào khỏi cuộc thi nếu, theo quyết định riêng của Ban tổ chức cuộc thi, chúng tôi tin rằng người tham gia đã cố gắng phá hoại hoạt động hợp pháp của cuộc thi thông qua gian lận, lừa dối hoặc các hành vi tham dự không công bằng khác.

Quản lý đội tham gia

Những người tham gia được phép thành lập đội. Số lượng người tham gia trong nhóm tối đa là 5 người.
Bạn không thể tham gia vào nhiều hơn một đội trong cùng một track. Mỗi thành viên trong nhóm phải là một cá nhân duy nhất sử dụng một tài khoản aihub riêng biệt.
Việc hợp nhất nhóm được cho phép và có thể được thực hiện bởi trưởng nhóm
Ban tổ chức không cung cấp bất kỳ hỗ trợ nào liên quan đến việc hợp nhất đội.

Thể lệ nộp bài

Số lần gửi tối đa trong mỗi giai đoạn: 10 bài / ngày / đội
Nội dung bài dự thi sẽ bị vô hiệu nếu toàn bộ hoặc một phần không đọc được, không đầy đủ, bị hư hỏng, bị thay đổi, giả mạo, có được thông qua các phương tiện gian lận hoặc trễ hạn. Ban tổ chức cuộc thi có quyền loại bất kỳ người dự thi nào gửi bài không tuân thủ tất cả các yêu cầu.

Dữ liệu

Bằng cách tải xuống hoặc truy cập dữ liệu do Ban tổ chức cuộc thi cung cấp theo bất kỳ cách nào, bạn đồng ý với các điều khoản sau:

Bạn sẽ không phân phối dữ liệu ngoại trừ mục đích phi thương mại và nghiên cứu học thuật.
Bạn sẽ không phân phối, sao chép, tái sản xuất, tiết lộ, chuyển nhượng, cấp phép phụ, nhúng, lưu trữ, chuyển nhượng, bán, giao dịch hoặc bán lại bất kỳ phần nào của dữ liệu do Ban tổ chức cuộc thi cung cấp cho bất kỳ bên thứ ba nào vì bất kỳ mục đích nào.
Dữ liệu không được sử dụng để giám sát, phân tích hoặc nghiên cứu nhằm cô lập một nhóm cá nhân hoặc bất kỳ cá nhân đơn lẻ nào vì bất kỳ mục đích bất hợp pháp hoặc phân biệt đối xử nào.
Bạn hoàn toàn chịu trách nhiệm về việc sử dụng dữ liệu của mình và sẽ bảo vệ và bồi thường cho Ban tổ chức cuộc thi, chống lại bất kỳ và tất cả các khiếu nại phát sinh từ việc bạn sử dụng dữ liệu.

1/12/2023: BTC cập nhật lại dữ liệu test - Bổ sung thông tin ngữ cảnh cho tập ViLawQA.

Các đội có thể tải lại tại link do BTC cung cấp trong phần Participate, tiến hành evaluate lại LLM sử dụng thêm thông tin ngữ cảnh và cập nhật kết quả lên leaderboard.

Public Test

Start: Sept. 5, 2023, midnight

Competition Ends

Never

You must be logged in to participate in competitions.