AI4VN 2022 - Air Quality Forecasting Challenge

Organized by ngminhhieu - Current server time: April 26, 2024, 8:39 a.m. UTC

First phase

Public Test
July 14, 2022, 5 p.m. UTC

End

Competition Ends
Dec. 24, 2022, 5 a.m. UTC

Giới thiệu chung

Chủ đề. Air Quality Forecasting Challenge.

Chỉ số PM2.5 là chỉ số quan trọng được sử dụng để đánh giá chất lượng không khí. Nồng độ PM2.5 càng cao thì chất lượng không khí càng suy giảm, gây ảnh hưởng tới đường hô hấp và sức khỏe con người. Do đó, việc thu thập dữ liệu và dự báo chỉ số PM2.5 là vô cùng cần thiết.

Tuy nhiên, do chi phí và địa hình, nhiều khu vực không thể đặt các thiết bị để thu thập dữ liệu PM2.5. Vì vậy, chủ đề của cuộc thi là Dự báo chỉ số PM2.5 cho một vị trí bất kì chưa từng được thu thập dữ liệu.

Nhiệm vụ.

Trong cuộc thi này, nhiệm vụ chính là dự báo chỉ số PM2.5 trong tương lai cho một vị trí bất kì chưa từng có dữ liệu được thu thập trong quá khứ.

Các đội sẽ dựa vào bộ dữ liệu huấn luyện do BTC cung cấp, bao gồm dữ liệu groundtruth các trạm cần dự đoán, để đưa ra các giải pháp dự đoán chỉ số PM2.5 tại một ví trị bất kì được cung cấp tọa độ. Đồng thời, các phải giải pháp phải có khả năng dự báo PM2.5 24 giờ trong tương lai.

Trong vòng Public Test, các đội sẽ được cung cấp hai bộ dữ liệu: (1) dữ liệu huấn luyện mô hình và (2) dữ liệu đầu vào cho mô hình để nộp lên hệ thống. Kết quả trong tệp là các kết quả dự đoán PM2.5 tương lai trong 24 giờ cho các vị trị cần dự đoán.

Đến vòng Private Test, các đội thi sẽ được cung cấp dữ liệu tương tự vòng Public Test nhưng sẽ không được cung cấp thêm dữ liệu huấn luyện.

Dữ liệu.

Dữ liệu gồm 3 tập:

  • Dữ liệu huấn luyện gồm 9000 time steps của 11 trạm
  • Dữ liệu kiểm thử cho giai đoạn Public Test gồm 100 thư mục, mỗi thư mục chứa 11 tệp dữ liệu. Mỗi tệp chứa 24*7 timesteps của 11 trạm.
  • Dữ liệu kiểm thử cho giai đoạn Private Test gồm 100 thư mục, mỗi thư mục chứa 11 tệp dữ liệu. Mỗi tệp chứa 24*7 timesteps của 11 trạm.

Hướng dẫn nộp kết quả.

Mỗi thư mục trong tập dữ liệu là dữ liệu đầu vào của 11 trạm, các đội thi được sử dụng tùy ý để xuất ra kết quả nộp lên hệ thống. Tệp location.csv là vị trí mà mô hình cần dự đoán PM2.5 trong 24 giờ tiếp theo. Mỗi vị trí xuất ra một tệp kết quả tương ứng. 

Với mỗi thư mục có tên là {folder_index}, các đội thi sẽ xuất ra thư mục cũng có tên là {folder_index} chứa số tệp bằng số vị trị cần dự đoán trong tệp location.csv với định dạng res_{folder_index}_{location_index}.csv trong đó folder_index là tên của thư mục, location_index là thứ tự vị trí cần dự đoán.

Ví dụ: Với thư mục có tên là 10, và tệp location.csv có 4 vị trí cần dự đoán thì ta cần xuất ra thư mực tương ứng có tên là 10, với các tệp nằm bên trong là res_10_1.csv, res_10_2.csv, res_10_3.csv, res_10_4.csv.

Sau đó tất cả thư mục sẽ được nén thành tệp prediction.zip và nộp lên thệ thống. (chi tiết xem tại phần Submission)

Tiêu chí đánh giá. 

MDAPE là tiêu chí đánh giá chính hiệu suất của mô hình. MDAPE là sai số phần trăm tuyệt đối trung vị. MDAPE càng nhỏ thì mô hình càng hiệu quả. (chi tiết xem tại phần Evaluation)

Quy định.

  • Các đội tham gia không được sử dụng pre-trained model.
  • Chỉ sử dụng dữ liệu do BTC cung cấp. Không phân phối và sử dụng dữ liệu ngoài phạm vi cuộc thi này.
  • Các đội thi cần đóng gói code để reproduce kết quả vào trong docker. Các đội nộp lại sau khi hoàn thành vòng Public Test và Private Test.

Ngoài ra, các đội thi cần đọc kĩ trong mục Terms and Conditions.

Giai đoạn thi.

Cuộc thi AI4VN 2022 - Air Quality Forecasting Challenge sẽ được diễn ra với 2 giai đoạn: giai đoạn Public Test và giai đoạn Private Test:

  • Giai đoạn Public Test (15/07/2022 - 14/08/2022): nhằm lan tỏa thông tin tới toàn bộ cộng đồng IT & AI tại Việt Nam, từ đó giúp cộng đồng có thời gian tiếp cận với các hướng xử lý bài toán. Đồng thời, trong thời gian này, các đội thi sẽ được tiếp cận với dữ liệu thực tế, huấn luyện mô hình và đánh giá mô hình thông qua hệ thống đánh giá tự động. Số lần nộp bài tối đa là 10 lần trong 1 ngày.
  • Giai đoạn Private Test (10/09/2022 - 11/09/2022): Trong giai đoạn này, các đội thi tiếp tục cải thiện mô hình với dữ liệu kiểm thử mới do BTC cung cấp. Số lần nộp bài tối đa nộp bài là 10 lần cho mỗi đội, chỉ diễn ra trong đúng 1 ngày.
 

Tiêu chí đánh giá

MDAPE là tiêu chí đánh giá chính hiệu suất của mô hình. MDAPE là sai số phần trăm tuyệt đối trung vị. MDAPE càng nhỏ thì mô hình càng hiệu quả.
Ngoài ra, các tiêu chí đánh giá khác cũng được đưa ra để giám khảo xem xét và chọn ra các đội thi có kết quả tốt nhất, bao gồm: MAPE, MAE, RMSE, R2.

Trong đó: Với ŷ là giá trị dự đoán, y là giá trị thực tế, n là số giá trị cần dự đoán

  • MDAPE được tính theo công thức:
  • MAPE được tính theo công thức:
  • MAE được tính theo công thức:
  • RMSE được tính theo công thức:
  • R2 được tính theo công thức:
 

Quy định chung

  • Quyền hủy bỏ, sửa đổi hoặc loại bỏ tư cách tham dự. Ban tổ chức cuộc thi có toàn quyền quyết định chấm dứt, sửa đổi hoặc đình chỉ cuộc thi.

  • Bằng cách gửi kết quả cho cuộc thi, bạn đồng thuận việc công khai điểm số của mình tại hội thảo của cuộc thi và trong các thủ tục liên quan, theo quyết định của Ban tổ chức. Điểm số có thể bao gồm nhưng không giới hạn các đánh giá định lượng được tiến hành tự động và thủ công, các đánh giá định tính, và các chỉ số đo mà ban tổ chức đánh giá là phù hợp. Bạn chấp nhận rằng quyết định cuối cùng liên quan đến việc chọn các chỉ số đo và giá trị điểm số nằm ở người ra đề.

  • Với việc tham gia cuộc thi, bạn xác nhận và công nhận rằng bạn đồng ý tuân thủ các luật và quy định hiện hành, đồng thời bạn không được vi phạm bất kỳ bản quyền, sở hữu trí tuệ hoặc bằng sáng chế nào của một bên khác đối với phần mềm mà bạn phát triển trong quá trình diễn ra cuộc thi và sẽ không vi phạm bất kỳ luật và quy định hiện hành nào liên quan đến kiểm soát xuất khẩu, quyền riêng tư và bảo vệ dữ liệu.

  • Giải thưởng được trao dựa trên sự xem xét và xác minh của Ban tổ chức cuộc thi về tính đủ điều kiện của người dự thi và tuân thủ các quy tắc này cũng như tuân thủ các yêu cầu dành cho đội thắng cuộc.

  • Người tham gia trao cho Ban tổ chức cuộc thi quyền sử dụng các bài dự thi của bạn cũng như mã nguồn và dữ liệu được tạo và sử dụng để tạo bài dự thi cho bất kỳ mục đích nào và không cần phê duyệt thêm.
  • Các nhóm đạt giải cam kết chuyển giao giải pháp cho dự án dự báo chất lượng không khí PM2.5. Nhóm tác giả có thể sử dụng vào mục đích khác tùy nhu cầu.

Điều kiện tham dự

  • Mỗi người tham gia phải tạo một tài khoản để gửi giải pháp cho cuộc thi. Mỗi người chỉ được cấp phép duy nhất một tài khoản.

  • Cuộc thi diễn ra công khai, nhưng Ban tổ chức cuộc thi có thể quyết định bác bỏ quyền tham gia theo những cân nhắc riêng.

  • Ban tổ chức cạnh tranh có quyền loại bất kỳ người tham gia nào khỏi cuộc thi nếu, theo quyết định riêng của Ban tổ chức cuộc thi, chúng tôi tin rằng người tham gia đã cố gắng phá hoại hoạt động hợp pháp của cuộc thi thông qua gian lận, lừa dối hoặc các hành vi tham dự không công bằng khác.

Quản lý đội tham gia

  • Những người tham gia được phép thành lập đội..

  • Bạn không thể tham gia vào nhiều hơn một đội. Mỗi thành viên trong nhóm phải là một cá nhân duy nhất sử dụng một tài khoản riêng biệt.

  • Việc hợp nhất nhóm được cho phép và có thể được thực hiện bởi trưởng nhóm. Yêu cầu hợp nhất nhóm sẽ không được phép sau "Thời hạn sáp nhập nhóm".

  • Để hợp nhất, nhóm được kết hợp phải có tổng số lần gửi nhỏ hơn hoặc bằng số lượng tối đa được phép cho một nhóm tính đến ngày hợp nhất. Mức tối đa được phép là số lần gửi mỗi ngày cho mỗi giai đoạn nhân với số ngày cuộc thi đã diễn ra.

  • Ban tổ chức không cung cấp bất kỳ hỗ trợ nào liên quan đến việc hợp nhất đội.

Thể lệ nộp bài

  • Số lần gửi tối đa trong mỗi giai đoạn:

    • Giai đoạn 1 - Khởi động:
      • Public Test: 10 bài / ngày / đội
    • Giai đoạn 2 - Về đích:
      • Private Test: Thông báo sau
  • Nội dung bài dự thi sẽ bị vô hiệu nếu toàn bộ hoặc một phần không đọc được, không đầy đủ, bị hư hỏng, bị thay đổi, giả mạo, có được thông qua các phương tiện gian lận hoặc trễ hạn. Ban tổ chức cuộc thi có quyền loại bất kỳ người dự thi nào gửi bài không tuân thủ tất cả các yêu cầu.

Dữ liệu

Bằng cách tải xuống hoặc truy cập dữ liệu do Ban tổ chức cuộc thi cung cấp theo bất kỳ cách nào, bạn đồng ý với các điều khoản sau:

  • Thí sinh KHÔNG được sử dụng dữ liệu khác ngoài tập dữ liệu được cung cấp bởi cuộc thi.
  • Bạn sẽ không phân phối dữ liệu ngoại trừ mục đích phi thương mại và nghiên cứu học thuật.

  • Bạn sẽ không phân phối, sao chép, tái sản xuất, tiết lộ, chuyển nhượng, cấp phép phụ, nhúng, lưu trữ, chuyển nhượng, bán, giao dịch hoặc bán lại bất kỳ phần nào của dữ liệu do Ban tổ chức cuộc thi cung cấp cho bất kỳ bên thứ ba nào vì bất kỳ mục đích nào.

  • Dữ liệu không được sử dụng để giám sát, phân tích hoặc nghiên cứu nhằm cô lập một nhóm cá nhân hoặc bất kỳ cá nhân đơn lẻ nào vì bất kỳ mục đích bất hợp pháp hoặc phân biệt đối xử nào.

  • Bạn hoàn toàn chịu trách nhiệm về việc sử dụng dữ liệu của mình và sẽ bảo vệ và bồi thường cho Ban tổ chức cuộc thi, chống lại bất kỳ và tất cả các khiếu nại phát sinh từ việc bạn sử dụng dữ liệu.

 

Mỗi thư mục trong tập dữ liệu là dữ liệu đầu vào của 11 trạm, các đội thi được sử dụng tùy ý để xuất ra kết quả nộp lên hệ thống. Tệp location.csv là vị trí mà mô hình cần dự đoán PM2.5 trong 24 giờ tiếp theo. Mỗi vị trí xuất ra một tệp kết quả tương ứng. 

Với mỗi thư mục có tên là {folder_index}, các đội thi sẽ xuất ra thư mục cũng có tên là {folder_index} chứa số tệp bằng số vị trị cần dự đoán trong tệp location.csv với định dạng res_{folder_index}_{location_index}.csv trong đó folder_index là tên của thư mục, location_index là thứ tự vị trí cần dự đoán.

Ví dụ: Với thư mục có tên là 10, và tệp location.csv có 4 vị trí cần dự đoán thì ta cần xuất ra thư mực tương ứng có tên là 10, với các tệp nằm bên trong là res_10_1.csv, res_10_2.csv, res_10_3.csv, res_10_4.csv. Trong đó, trong mỗi file .csv, ta có định dạng dữ liệu là 1 cột gồm 25 dòng. Dòng đầu tiên là tên cột "PM2.5" (string), 24 dòng tiếp theo là kết quả dự đoán 24 time steps trong tương lai (float). Không yêu cầu đánh index hay thêm bất kì dữ liệu khác.

Sau đó tất cả thư mục sẽ được nén thành tệp prediction.zip và nộp lên thệ thống. (chi tiết xem tại phần Submission)

 

Public Test

Start: July 14, 2022, 5 p.m.

Private Test

Start: Sept. 10, 2022, 1 a.m.

Competition Ends

Dec. 24, 2022, 5 a.m.

You must be logged in to participate in competitions.

Sign In