SoICT Hackathon 2023 - Vietnamese Spoken Language Understanding Challenge

Organized by sangdv - Current server time: April 27, 2024, 6:58 p.m. UTC

First phase

Public test
Aug. 8, 2023, midnight UTC

End

Competition Ends
Oct. 29, 2023, 5 a.m. UTC

Giới thiệu chung

Trang chủ cuộc thi: https://bkai.ai/soict-hackathon-2023/

Chủ đề. Cuộc thi Vietnamese Spoken Language Understanding tập trung vào giải quyết bài toán “Hiểu ngôn ngữ dạng nói tiếng Việt trong nhà thông minh”

Nhiệm vụ. Nội dung của cuộc thi là hiểu được ý định của câu nói và trích xuất được các thực thể có trong câu nói trong chủ đề nhà thông minh - smart home. Bằng cách nghiên cứu và huấn luyện các mô hình đặc thù cho bài toán, các đội thi sẽ đưa ra kết quả đầu ra là ý định định của câu nói (intent) và nhãn của các thực thể xuất hiện trong câu nói đó (entity).

Các mốc thời gian quan trọng.

Dữ liệu. Bộ lữ liệu VN-SLU bao gồm khoảng 10,300 file âm thanh ghi âm câu nói với tổng thời lượng khoảng 12 tiếng

  • Dữ liệu được cung cấp bởi ban tổ chức gồm 3 tập không trùng nhau như sau:

    • Training data: là tập dữ liệu có gán nhãn, dùng để huấn luyện mô hình. Tập này gồm 7490 file âm thanh.

    • Public test: là tập dữ liệu dùng để đánh giá vòng sơ khảo.

    • Private test: là tập dữ liệu khó hơn sẽ được công bố sau tại vòng chung kết.

  • Đầu vào mô hình là file âm thanh chưa được gán nhãn. Tệp nhãn là các file định dạng .jsonl. Mỗi dòng của tệp nhãn chứa các thông tin bao gồm: id, sentence, intent, sentence_anotation, entities, file của một file âm thanh.

  • Với mỗi tên file âm thanh là {id}.wav, đội thi cần xuất ra kết quả tương ứng và lưu vào file kết quả với định dạng .jsonl sau đó nén thành file .zip và nộp lên hệ thống (Chi tiết xem tại phần Submission)

Tiêu chí đánh giá. Tiêu chí đánh giá là trung bình cộng của 2 chỉ số Intent-F1 và SLU-F1. Trung bình cộng càng cao sẽ càng chính xác (Chi tiết xem tại phần Evaluation)

Quy định

  • Các đội thi cần tuân thủ các quy định chung của SoICT Hackathon 2023.

  • Các đội thi chỉ được phép sử dụng bộ training data để huấn luyện mô hình. Không được phép can thiệp hay sử dụng public test hay private test trong quá trình huấn luyện dưới bất kỳ hình thức nào.

  • Các bộ dữ liệu không có tiếng nói (vd. dữ liệu tiếng ồn, tiếng vang…) có thể được sử dụng trong quá trình huấn luyện và phải được chia sẻ với các đội thi khác.

  • Các đội thi được phép sử dụng pretrained model nhưng không được sử dụng các pretrained model đã được huấn luyện cho các bài toán SLU và NLU (trên cả tiếng Việt và các ngôn ngữ khác); không được sử dụng các mô hình ngôn ngữ lớn LLMs có khả năng học zero shot hoặc few shot cho tác vụ SLU và NLU.

  • Các pretrained model phải là các pretrained công khai (vd. PhoBERT, BARTpho, viT5...), có thể được sử dụng bởi các đội thi khác.

  • Để vượt qua vòng sơ khảo, các đội cần phải nộp code kèm hướng dẫn chạy, đồng thời kết quả trên public test của đội thi phải reproduce được.

Trích dẫn tài tiệu tham khảo.

[1] [SLURP: A Spoken Language Understanding Resource Package](https://aclanthology.org/2020.emnlp-main.588) (Bastianelli et al., EMNLP 2020)

Tiêu chí đánh giá

Kết quả được đánh giá dựa trên độ chính xác của intent và slot value mà mô hình dự đoán. Một câu được tính là chính xác sẽ phải có intent và slot value đúng hoàn toàn so với groundtruth.

Kết quả cuối cùng được đánh giá bằng Utterance accuracy (Tỉ lệ số câu đúng cả intent lẫn slot value chia tổng số câu)

Quy định chung

  • Trước hết, các đội thi cần tuân thủ các quy định chung của SoICT Hackathon 2023 được mô tả chi tiết tại https://bkai.ai/soict-hackathon-2023/

  • Quyền hủy bỏ, sửa đổi hoặc loại bỏ tư cách tham dự. Ban tổ chức cuộc thi có toàn quyền quyết định chấm dứt, sửa đổi hoặc đình chỉ cuộc thi.

  • Bằng cách gửi kết quả cho cuộc thi, bạn đồng thuận việc công khai điểm số của mình tại hội thảo của cuộc thi và trong các kỷ yếu liên quan theo quyết định của Ban tổ chức. Điểm số có thể bao gồm nhưng không giới hạn các đánh giá định lượng được tiến hành tự động và thủ công, các đánh giá định tính, và các chỉ số đo mà ban tổ chức đánh giá là phù hợp. Bạn chấp nhận rằng quyết định cuối cùng liên quan đến việc chọn các chỉ số đo và giá trị điểm số nằm ở người ra đề.

  • Với việc tham gia cuộc thi, bạn xác nhận và công nhận rằng bạn đồng ý tuân thủ các luật và quy định hiện hành, đồng thời bạn không được vi phạm bất kỳ bản quyền, sở hữu trí tuệ hoặc bằng sáng chế nào của một bên khác đối với phần mềm mà bạn phát triển trong quá trình diễn ra cuộc thi và sẽ không vi phạm bất kỳ luật và quy định hiện hành nào liên quan đến kiểm soát xuất khẩu, quyền riêng tư và bảo vệ dữ liệu.

  • Giải thưởng được trao dựa trên sự xem xét và xác minh của Ban tổ chức cuộc thi về tính đủ điều kiện của người dự thi và tuân thủ các quy tắc này cũng như tuân thủ các yêu cầu dành cho đội thắng cuộc.

  • Người tham gia trao cho Ban tổ chức cuộc thi quyền sử dụng các bài dự thi của bạn cũng như mã nguồn và dữ liệu được tạo và sử dụng để tạo bài dự thi cho bất kỳ mục đích nào và không cần phê duyệt thêm.

Điều kiện tham dự

  • Mỗi người tham gia phải tạo một tài khoản CodaLab để gửi giải pháp cho cuộc thi. Mỗi người chỉ được cấp phép duy nhất một tài khoản.

  • Cuộc thi diễn ra công khai, nhưng Ban tổ chức cuộc thi có thể quyết định bác bỏ quyền tham gia theo những cân nhắc riêng.

  • Ban tổ chức cạnh tranh có quyền loại bất kỳ người tham gia nào khỏi cuộc thi nếu, theo quyết định riêng của Ban tổ chức cuộc thi, chúng tôi tin rằng người tham gia đã cố gắng phá hoại hoạt động hợp pháp của cuộc thi thông qua gian lận, lừa dối hoặc các hành vi tham dự không công bằng khác.

Quản lý đội tham gia

  • Những người tham gia được phép thành lập đội. Số lượng người tham gia trong nhóm tối đa là 5 người.

  • Bạn không thể tham gia vào nhiều hơn một đội. Mỗi thành viên trong nhóm phải là một cá nhân duy nhất sử dụng một tài khoản CodaLab riêng biệt.

  • Việc hợp nhất nhóm được cho phép và có thể được thực hiện bởi trưởng nhóm. Yêu cầu hợp nhất nhóm sẽ không được phép sau "Thời hạn sáp nhập nhóm".

  • Để hợp nhất, nhóm được kết hợp phải có tổng số lần gửi nhỏ hơn hoặc bằng số lượng tối đa được phép cho một nhóm tính đến ngày hợp nhất. Mức tối đa được phép là số lần gửi mỗi ngày cho mỗi giai đoạn nhân với số ngày cuộc thi đã diễn ra.

  • Ban tổ chức không cung cấp bất kỳ hỗ trợ nào liên quan đến việc hợp nhất đội.

Thể lệ nộp bài

  • Số lần gửi tối đa trong mỗi giai đoạn:

    • Giai đoạn 1 - Khởi động:

      • Public Test: 10 bài / ngày / đội

    • Giai đoạn 2 - Về đích:

      • Private Test: 5 bài / ngày / đội

  • Nội dung bài dự thi sẽ bị vô hiệu nếu toàn bộ hoặc một phần không đọc được, không đầy đủ, bị hư hỏng, bị thay đổi, giả mạo, có được thông qua các phương tiện gian lận hoặc trễ hạn. Ban tổ chức cuộc thi có quyền loại bất kỳ người dự thi nào gửi bài không tuân thủ tất cả các yêu cầu.

Dữ liệu

Bằng cách tải xuống hoặc truy cập dữ liệu do Ban tổ chức cuộc thi cung cấp theo bất kỳ cách nào, bạn đồng ý với các điều khoản sau:

  • Thí sinh KHÔNG được sử dụng dữ liệu khác ngoài tập dữ liệu được cung cấp bởi cuộc thi.

  • Bạn sẽ không phân phối dữ liệu ngoại trừ mục đích phi thương mại và nghiên cứu học thuật.

  • Bạn sẽ không phân phối, sao chép, tái sản xuất, tiết lộ, chuyển nhượng, cấp phép phụ, nhúng, lưu trữ, chuyển nhượng, bán, giao dịch hoặc bán lại bất kỳ phần nào của dữ liệu do Ban tổ chức cuộc thi cung cấp cho bất kỳ bên thứ ba nào vì bất kỳ mục đích nào.

  • Dữ liệu không được sử dụng để giám sát, phân tích hoặc nghiên cứu nhằm cô lập một nhóm cá nhân hoặc bất kỳ cá nhân đơn lẻ nào vì bất kỳ mục đích bất hợp pháp hoặc phân biệt đối xử nào.

  • Bạn hoàn toàn chịu trách nhiệm về việc sử dụng dữ liệu của mình và sẽ bảo vệ và bồi thường cho Ban tổ chức cuộc thi, chống lại bất kỳ và tất cả các khiếu nại phát sinh từ việc bạn sử dụng dữ liệu.

Định dạng của dữ liệu

File kết quả là file .jsonl với định dạng tên file là predictions.jsonl.

Mỗi dòng của file kết quả sẽ biểu diễn intent và entities của một file âm thanh tương ứng. Định dạng như sau:

{“intent”: …, “entities”: [{“type”: …, “filler”: …}, {“type”: …, “filler”: …},...], “file”: …}

Trong đó:

  • intent: là ý định của câu nói

  • entities: là tập hợp các giá trị xuất hiện trong câu nói với “type” là loại giá trị và “filler” là giá trị đó.

  • file là tên file của câu nói

Ví dụ: {"intent": "Mở thiết bị", "entities": [{"type": "command", "filler": "mở"}, {"type": "device", "filler": "điều hòa"}], "file": "6485cf1b850351e0dce4d289.wav"}

Sau khi ghi xong file .jsonl thì nén lại vào file .zip với định dạng tên file là Submission.zip và nộp lên hệ thống. File kết quả trong file .zip không được nằm trong thư mục cha nào.

16/8/2023: BTC vừa update lại public test. Các đội có thể tải lại tại link do BTC cung cấp trong phần Participate.

21/8/2023: Cập nhật bugs trong chương trình scoring.

08/9/2023: Cập nhật nhãn tập huấn luyện

16/9/2023: Cập nhật độ đo đánh giá thành utterance accuracy; Cập nhật số lần submit tối đa thành 20 lần mỗi ngày.

19/9/2023: Cập nhật nhãn tập huấn luyện

23h59 28/10/2023: Đã đóng băng scoreboard, các đội có thể xem kết quả bằng cách bấm vào "View scoring error log"

Public test

Start: Aug. 8, 2023, midnight

Private test

Start: Oct. 28, 2023, 2 a.m.

Competition Ends

Oct. 29, 2023, 5 a.m.

You must be logged in to participate in competitions.

Sign In