Gmartek

Kỹ Năng Đọc Dữ Liệu

“Cả thế giới bị lừa đảo qua mạng mất 53 tỷ đô, người Việt mất gần 1/3 trong số đó – 16.2 tỷ” là những cái tít của các tờ báo và các bài tràn lan trên mạng gần đây. Các bạn đọc xong thì các bạn có bao nhiêu dấu chấm hỏi cho những con số này hỡi các bạn làm data?

Một trong những kỹ năng quan trọng nhất khi làm data là kỹ năng kiểm định tính validity và reliability của data. Nếu data không có valid hay không có reliable thì tất cả những gì bạn làm dựa vào data đó là vô nghĩa, thậm chí còn là nguy hiểm. Hãy thử cùng tôi đi kiểm chứng những con số ở trên nhé.

Dân số Việt Nam có 1.3% thế giới mà mất tiền do lừa đảo qua mạng đến 33.33% của thế giới. Tức là trung bình người Việt bị lừa gấp 25 lần so với một người trung bình trên thế giới tính theo giá trị tiền bị lừa. GDP per capita của VN bằng 30% của thế giới. Tính ra thì người VN bị lừa cao gấp 25×3.33=83.33 lần một người trung bình trên thế giới.

Kỹ Năng Đọc Dữ Liệu

Theo bạn data này có valid hay không?

Rồi tui tìm hiểu thử xem mấy con số đó ở đâu ra. Cũng không làm gì nhiều, tìm cái báo cáo gốc để đọc thôi. Đó là báo cáo của Gobal Anti-Scam Alliance (GASA).

GASA lấy con số đó ở đâu ra? Trong báo cáo năm 2023, GASA đi làm survey 49,459 người ở 43 quốc gia thông qua Pollfish. Trong đó survey ở VN có 1,063 người tham gia. Trong 1,063 người tham gia có 29% trả lời rằng đã từng bị lừa đảo qua mạng và bình quân mỗi người bị mất $734. Từ đó tính ngược lại 29% dân số VN trên 18 tuổi (22,105,109) bị lừa, bình quân $734 mỗi người. Tính ra là 16.2 tỷ đô.

Cách lấy mẫu survey, quality control không được đề cập. Không ai biết được 1,063 người đó có đại diện cho VN hay không. Theo ý kiến cá nhân của tui thì 99.99% là không. Ở VN mà đi click vô cái link Pollfish thì đã là thuộc thành phần “tui muốn bị lừa, làm ơn lừa tui đi” rồi. Nếu cái mẫu không đại diện thì làm sao có thể khái quát hóa lên được?

Không ai biết 1,063 người đó có trả lời đúng sự thật hay không. Không phải tự nhiên mà các Marketing Journals xịn bây giờ gần như là không còn thấy sử dụng survey nữa. Tui hay nhắc đi nhắc lại chuyện này với học viên, đừng có tin survey data (các bạn hãy lặp lại điều này 3 lần trong đầu). Do đó, data này không có valid.

Nhưng chuyện này còn vui hơn nè. Trong báo cáo đó, tổng số tiền thế giới bị lừa là 1,026 ngàn tỷ đô chứ không phải 53 tỷ đô. Nên theo báo cáo GASA 2023 thì số tiền người VN bị lừa chỉ là 16.2/1,026= 1.58%. VN có dân số bằng 1.3% thế giới, bị lừa bằng 1.58% thế giới thì cũng coi như là xấp xỉ trung bình thôi.

Vậy con số 53 tỷ ở đâu ra? Tui không biết luôn. Nhưng theo báo cáo GASA năm 2022 thì tổng số tiền thế giới bị lừa là 55.3 tỷ. Chắc mấy anh đọc lộn thành 53 tỷ?!?

Trong báo cáo GASA 2022 thì VN bị lừa $374.4 triệu, tức là 374.4/55300= 0.68% trên tổng số thế giới. Với dân số 1.3% thế giới thì người VN bị lừa chỉ bằng 0.5 của trung bình thế giới thôi à.

Ủa, mà sao từ 2022 đến 2023 mà tăng ghê gớm vậy? Thế giới tăng từ 55.3 tỷ lên 1,026 tỷ tức là tăng 1,855%. VN tăng từ 374.4 triệu lên 16.2 tỷ là tăng 4,327%. Điều này đặt dấu hỏi rất lớn về reliability của các con số này.

Một lỗi cơ bản nữa là báo chí lại lấy số VN năm 2023 là 16.2 tỷ chia cho số thế giới năm 2022 là 55.3 tỷ (giảm xuống thành 53 tỷ vì đọc lộn?). Vì các con số năm 2022 và 2023 chênh nhau đến mấy chục lần, cách tính sai này thổi phồng con số vốn dĩ đã sai thành ra sai thêm mấy chục lần nữa.

Các bạn thấy đấy, người ta nói “there are three kinds of lies: lies – damn lies – and statistics” là có lý do cả. Những người làm data như chúng ta mỗi lần sử dụng data để làm bất cứ điều gì đều phải kiểm tra tính validity và reliability của data. Chứ cứ thấy số là mần là phán thì rất dễ đưa ra những kết quả sai lầm, nhiều khi là đưa công ty của các bạn vào lòng đất luôn không chừng.

Hình lấy từ báo cáo CASA năm 2023 (bạn có thể lấy free trên Internet) với các số liệu không valid và không reliable, aka. không sử dụng được.

P.S. Đừng bao giờ tin vào data của các tổ chức nghe kêu kêu, luôn luôn phải kiểm chứng.

Chia sẻ bài viết: