AICovidVN 115M Challenge: Covid Cough Detection Challenge (Warm-up Round) Forum

Go back to competition Back to thread list Post in this thread

> Xin chào, cảm ơn và 1 vài góp ý

Xin chào BTC và các đội chơi,

Trước tiên xin cảm ơn BTC đã chuẩn bị trong 1 thời gian ngắn 1 cuộc thi để tập trung được đông đảo thành viên làm việc yêu thích AI/ML trong 1 competition rất có ý nghĩa cho xã hội. Đội mình có 1 vài nhận xét và góp ý như sau:

(1) Đây là 1 cuộc thi small data, và rất nhiều noise trong tập test, chỉ cần eyeball review và hand labeling lại cũng được kha khá [1]. Không rõ BTC có loại bỏ (weighting) hay có chủ đích thiết kế trong cuộc thi như vậy? Xử lý noise data trong training set là chuyện bình thường, và 1 kỹ năng cần có của người làm data. Nhưng nếu đây là 1 cuộc thi liên quan đến point of care testings (POCTs) thì chất lượng dữ liệu rất quan trọng mới có thể hữu ích cho việc tạo ra 1 model tốt. Thực tế khi triển khai sẽ có các bước preprocessing để loại bỏ các audio không đạt chất lượng và yêu cầu patient ho lại chẳng hạn.

(2) Việc merge team nên giới hạn số lượng submit theo team để đảm bảo công bằng tính theo team. Nhân tiện xin chúc mừng team Rainbow (wiseking và tatu94) đã chơi rất hết mình và kinh nghiệm. Team đã biết giấu the best kết quả để đảo ngược chiến thắng vào những giờ cuối cùng và vượt lên 0.91 ở submission lần thứ 16 mà theo mình là mỗi đội chỉ được tối đa 15 lần.

(3) Lúc đầu team nghĩ rằng các biomarker và xử lý hình ảnh spectrogram xem đem lại kết quả khích lệ. Đáng tiếc là không như kỳ vọng là các resnet based chỉ có auc < 60, với mô hình tree based truyền thống và xử lý meta data, có thể đạt trên 84+ auc.

Một lần nữa xin cảm ơn BTC, và hẹn gặp lại ở public competition. Stay strong and build AI for better life.

Notes:
[1] Noise in Private test:
bce020a3-6ab7-46df-8a75-7f8009a1883e.wav
e6a3a7d2-13f4-4e8a-86ef-3a2bc51123c1.wav
12d1d444-fa9b-4839-84da-af48cc5edc2d.wav
814ece2a-7733-4cdf-babb-921592cb96c3.wav
baa21561-403e-4a72-8ba9-1b971fe2d8d2.wav(far)
0774b682-c355-4726-87d8-8fe1a61bfe2f.wav
8ba39ca8-1ec6-41c6-8b52-89915df54905.wav
2595b258-81be-4ab6-83bc-46a6e2329eb0.wav
d5006fbf-5a49-4baf-8c5d-c17e4564816c.wav
4a6b1ff4-127c-47d0-bae2-ee76752b2ea2.wav
67835d0e-f46e-4ef5-a112-25080b728be2.wav
d0f53793-dee5-464d-9841-de8d71b19715.wav (noise)
2838648b-939f-486c-aeea-5562e4240728.wav (noise)
74e3aad7-627f-417e-8422-d176c65d27fe.wav
be349750-17aa-423c-977c-03d933eabba4.wav
8e1056ec-0f2b-4ad6-9b29-26c6828e4af4.wav
8470753f-3231-4b86-a54c-8358ccd45ce4.wav
b59069a8-dead-45a9-9243-f8c44e06ae34.wav
bc6b89c4-caed-4c9c-81d5-75034a7874f8.wav
1d948944-3bf2-40c4-ac45-cea4c7045eac.wav
f569d106-2f3e-4a04-80d2-070b264c662b.wav
5ba37e51-7dc5-4a34-8968-2e6f85e4d043.wav
c451f3bb-4ab0-4ee0-a0ea-bda6f0448762.wav
dd7dc778-0b46-4e1e-8f61-415c85468923.wav
8b813511-8921-45ba-84fa-c20fdf39f067.wav
23abc5e7-d992-4991-baaf-64f1b84b20e7.wav
1136ecda-7b88-468c-be06-21db709b7bf3.wav
26f227a6-8772-41f9-9cf6-b612063a8413.wav
b51eb745-ebb2-4b2c-8f00-f9dec47bd7c4.wav
e57acda4-fba0-4633-a194-6bde6de65819.wav
ab8d570a-0cef-4f74-ad53-4ca547643702.wav
298d11d6-a176-40e5-ae66-636064f3233d.wav (far field)
f759b7a1-2a66-414b-bf16-15270272c5ba.wav
de5bcc6b-d354-471c-89f7-262cf487bf88.wav
1d4711aa-659d-4e8a-ac6d-14fd359b4fbe.wav
76b49fce-7eff-4dac-b732-d19f8b7864f7.wav(beep)
5b004ea3-ea63-4954-a477-5650d3cf5a82.wav
2720453d-dc8c-49e2-b4c1-b461c3e3041c.wav
9c69b618-127c-4de3-9b1d-bfd1170e44b6.wav
dbfbe654-f7e2-462e-ae47-00c62842115a.wav
113fa70c-fcac-47d4-9809-839a0a802164.wav (beep)
eca59266-8651-4a87-b0fc-570bbc238dda.wav
8e3b86bb-9d56-41eb-b13e-71ba13d8bf82.wav (noise)

Posted by: tonypham @ July 2, 2021, 1:13 a.m.

Chào bạn,

Trước hết, BTC xin ghi nhận và cảm ơn ý kiến đóng góp của bạn cho cuộc thi.

(1) Về vấn đề dữ liệu, bản thân dữ liệu trong thực tế cũng không tránh khỏi noise vì nhiều yếu tố khách quan. BTC luôn đảm bảo dữ liệu Test được chính xác nhất có thể, các bạn hoàn toàn có thể yên tâm về chất lượng của dữ liệu test. Ngoài ra, việc cần xử lý noise và xây dựng mô hình có tính bền (robustness) là điều cần thiết. Để chuẩn bị cho giai đoạn tiếp theo của cuộc thi (Về Đích), BTC cũng sẽ tiến hành việc thu thập và cung cấp dữ liệu chất lượng hơn để hỗ trợ các thí sinh phần nào.

(2) Về số lượng lượt nộp kết quả, đây là vấn đề về chênh lệch múi giờ, giữa giờ Việt Nam (GMT+7) và giờ trên server (UTC). BTC đang xử lý vấn đề này.

(3) Về các giải pháp chiến thắng, trong thời gian tới, BTC sẽ công bố báo cáo kỹ thuật của các đội thi Top BXH đến với cộng đồng. Mong rằng đây sẽ là cơ hội cho các đội thi cùng học hỏi lẫn nhau.

BTC xin chân thành cảm ơn.

Posted by: aicovidvn115m-organizers @ July 3, 2021, 1:59 p.m.
Post in this thread