Suy luận nhân quả, câu hỏi lớn và câu hỏi nhỏ

Thử tưởng tượng, bạn ném một quả bóng vào hành lang cửa số, hành lang cửa số vỡ. Vậy thì quả bóng là nguyên do làm vỡ hành lang cửa số ?Mr. X uống một viên thuốc, ba ngày sau, ông chết. Vậy viên thuốc là nguyên do gây ra cái chết của Mr. X ?

Hay trong bức ảnh trên, việc tham gia lớp học thống kê là nguyên nhân khiến người nói không còn nghĩ rằng “correlation implied causation” nữa?

Ba câu hỏi trên đều nhắc đến mối quan hệ nguyên do và hiệu quả, và trong cả ba trường hợp, tất cả chúng ta đều không hề đưa ra câu vấn đáp chắc như đinh. Trong ví dụ thứ nhất, có khi nào mọi sự chỉ là trùng hợp, vào cái khoảng thời gian ngắn ngay trước khi quả bóng chạm hành lang cửa số, biết đâu đã có một vật khác chạm vào khiến hành lang cửa số bị vỡ ? Ở ví dụ thứ hai, có khi nào do bệnh nặng nên Mr. X mới uống viên thuốc đó, và ông chết là do bệnh chứ không phải do viên thuốc ? Ví dụ thứ ba, có khi nào việc tham gia lớp học và việc từ bỏ tâm lý bắt đầu chỉ là 2 sự kiện trùng hợp ?Những câu hỏi về mối quan hệ nhân quả thực tiễn không dễ vấn đáp. Nhưng trước hết, hãy khám phá về khái niệm này .

Đọc thêm:

Quan hệ nhân quả

Quan hệ nhân quả ( causality ) là mối quan hệ trong đó một sự kiện góp thêm phần trực tiếp gây ra một sự kiện khác ( đã sửa ). Quan hệ nhân quả thường bị nhầm với một khái niệm bạn bè là quan hệ đối sánh tương quan ( correlation ). Trong khi nhân quả chỉ ra mối quan hệ nguyên do – tác dụng, thì đối sánh tương quan chỉ ra mối quan hệ cùng chiều hoặc ngược chiều giữa hai sự kiện. Có quan hệ nhân quả thì chắc như đinh sẽ có đối sánh tương quan, nhưng điều ngược lại không phải khi nào cũng đúng .Điều thường gây ra sự nhầm giữa nhân quả và đối sánh tương quan là việc bỏ lỡ yếu tố thứ ba ảnh hưởng tác động đến cả hai sự kiện. Một ví dụ tầm cỡ là mối quan hệ giữa trình độ học vấn và tiền lương. Nếu bạn thấy những người có trình độ học vấn cao thường có mức lương cao, thì hoàn toàn có thể nói rằng tiền lương và trình độ học vấn có mối quan hệ đối sánh tương quan, nhưng chưa thể Kết luận đây là quan hệ nhân quả. Vì hoàn toàn có thể hai yếu tố này đều là hiệu quả của một yếu tố khác – năng lượng ( ability ) của người học, tức là người có năng lượng thì thường đủ khả năng học đến những bậc cao hơn, và trong thị trường lao động họ cũng thường tìm được việc làm với mức lương tốt .Ở những trường ĐH có điểm nguồn vào cao, sinh viên ra trường thường dễ kiếm được việc làm, điều này không có nghĩa học trường đó sẽ giúp sinh viên dễ kiếm được việc. Có thể do khởi đầu nhiều sinh viên giỏi thi vào trường, nên điểm nguồn vào của trường cao, và cũng nhờ năng lực, những sinh viên này thường thuận tiện kiếm được việc sau khi ra trường. Tiếng lành đồn xa, trường ĐH dần trở nên có nổi tiếng vì sinh viên dễ kiếm việc, lôi cuốn nhiều sinh viên giỏi, dẫn đến điểm nguồn vào cao, …Một yếu tố khác thường gặp trong xác lập quan hệ nhân quả là nhầm lẫn giữa nhân và quả. Bạn đến một quốc gia, bạn chú ý thấy rằng có rất nhiều công an, nhưng đồng thời cũng nhận ra xung quanh có rất nhiều tội phạm. Liệu có phải nhiều công an là nguyên do khiến nơi đây có nhiều tội phạm ? Thực ra hoàn toàn có thể do nhiều tội phạm nên quốc gia mới được trang bị nhiều công an để bảo vệ bảo đảm an toàn cho người dân .Một ví dụ khác hóc búa hơn, bạn thích một người, là do bạn thấy người ấy hoàn hảo nhất, hay do bạn thích người đó, nên bạn mới cảm thấy họ tuyệt vời và hoàn hảo nhất ?Sẽ có rất nhiều cách lý giải cho việc xảy ra đồng thời những sự kiện trên, vậy làm thế nào để đưa ra Kết luận liệu có mối quan hệ nhân quả giữa chúng hay không ?

Đọc thêm:

Suy luận nhân quả và counterfactual

Câu hỏi về mối quan hệ nhân quả không riêng gì dừng lại ở những ví dụ đã nêu, mà còn Open nhiều trong việc nhìn nhận tác động ảnh hưởng của một sự kiện, một chương trình can thiệp hay một chủ trương : Liệu tăng tiền lương tối thiểu có làm tăng tỷ suất thất nghiệp ? Liệu học ĐH có giúp bạn kiếm được nhiều tiền hơn ? Việc Trump đắc cử tổng thống năm năm nay có làm cho nước Mỹ “ great ” hơn ? Một loại thuốc mới có giúp cải tổ sức khỏe thể chất của người bệnh ?Các câu hỏi trên có điểm chung là đều muốn tìm tác động ảnh hưởng nhân quả của một sự kiện A ( việc tăng tiền lương tối thiểu, việc học ĐH, Trump đắc cử, sử dụng loại thuốc mới ) đến một tác dụng B ( tỷ suất thất nghiệp, thu nhập của bạn, thực trạng nước Mỹ, sức khỏe thể chất người bệnh ) .Để hoàn toàn có thể ước đạt được những tác động ảnh hưởng nhân quả này, tất cả chúng ta cần đến một thứ gọi là counterfactual ( phản trong thực tiễn ) – tức là trường hợp trong đó sự kiện A không sống sót ( trái chiều với nó là actual – trường hợp trong đó sự kiện A có sống sót ). Kết quả B khi có sự kiện A được gọi là actual outcome, và khi không có sự kiện A là counterfactual outcome. Ảnh hưởng nhân quả, về thực chất, là sự khác nhau giữa tác dụng B khi có sự kiện A với khi không có sự kiện A, hay là giữa actual outcome và counterfactual outcome. Việc xác lập ảnh hưởng tác động nhân quả được gọi là suy luận nhân quả ( causal inference ) .Sự kiện thực tiễn ( actual ) chỉ có một, nhưng counterfactual thì hoàn toàn có thể có nhiều. Ví dụ, counterfactual của việc Trump làm tổng thống hoàn toàn có thể là Hillary sẽ là tổng thống, hoặc một ứng viên khác, hoặc không ai cả. Mỗi cách chọn counterfactual khác nhau hoàn toàn có thể đem đến một Kết luận về quan hệ nhân quả khác nhau .

Vậy tại sao chúng ta cần counterfactual? 

Trong ví dụ về tăng tiền lương tối thiểu, nếu chỉ đơn thuần quan sát tỷ suất thất nghiệp sau khi tăng tiền lương thì sẽ không đủ để Kết luận về mối quan hệ nhân quả. Tỷ lệ thất nghiệp của quốc gia đó hoàn toàn có thể tăng nhưng chưa chắc là do tác động ảnh hưởng của việc tăng tiền lương tối thiểu, mà hoàn toàn có thể do khủng hoảng kinh tế, do sự đổi khác trong thị trường lao động, hoặc do những nguyên do khác không quan sát được. Counterfactual giúp vô hiệu được năng lực những yếu tố khác, ngoài nguyên do mà tất cả chúng ta đang chăm sóc, hoàn toàn có thể làm ảnh hưởng tác động đến tác dụng. Chỉ khi so sánh actual outcome và counterfactual outcome của cùng một đối tượng người dùng tại cùng một thời gian thì tất cả chúng ta mới hoàn toàn có thể tự tin Kết luận rằng mối quan hệ ở đây là quan hệ nhân quả .

Tìm counterfactual như thế nào?

Việc tìm được counterfactual tốt chưa khi nào là đơn thuần .Để biết việc Trump đắc cử có làm nước Mỹ “ great ” hơn không, tất cả chúng ta cần so sánh thực trạng nước này tại cùng 1 thời gian, ví dụ năm 2020, khi có Trump và khi không có Trump. Để biết tác động ảnh hưởng của việc học ĐH, tất cả chúng ta phải so sánh thu nhập của bạn sau 4 năm học ĐH, với thu nhập của bạn ở cùng thời gian đó khi không học. Bạn đã đi học ĐH, việc đo thu nhập sau 4 năm của bạn sẽ khá thuận tiện. Nhưng cũng vì bạn đã học ĐH, nên không hề biết được thu nhập của bạn sẽ là bao nhiêu nếu không học ĐH. Trump đã đắc cử tổng thống năm năm nay, không ai biết nước Mỹ sẽ thế nào nếu điều này không xảy ra. Trong thực tiễn, tất cả chúng ta không hề biết được tác dụng của cùng một sự vật trong hai trạng thái khác nhau tại cùng một thời gian .Một giải pháp khác là tìm một “ bản sao tuyệt vời ” của bạn và không cho người này học ĐH, sau đó so sánh thu nhập của 2 người sau 4 năm. Nhưng bạn là duy nhất, và đừng so sánh mình với ai khác, người ta thường nói thế, nên việc tìm được bản sao hoàn hảo nhất của bạn cũng là bất khả thi .

Việc tìm counterfactual ở mức độ cá thể có vẻ khó khăn, nhưng xét ở mức độ nhóm có thể sẽ dễ dàng hơn. Dù không thể tạo ra bản sao hoàn hảo cho một người cụ thể, chúng ta có thể tạo ra hai nhóm, mà nếu có số thành viên đủ lớn, sẽ không có khác biệt về mặt thống kê. Khi đó, thay vì tìm tác động cho một cá nhân, chúng ta tìm tác động trung bình cho một nhóm các cá nhân.

Để làm được điều này, người ta thường tạo ra hai nhóm : treatment group ( nhóm chịu ảnh hưởng tác động ) và control group ( nhóm đối chứng ). Trong ví dụ về ảnh hưởng tác động của thuốc, nhóm gồm những người sử dụng thuốc sẽ được gọi là treatment group, control group sẽ là nhóm những người có đặc thù thống kê tựa như ( tuổi, giới tính, thực trạng bệnh, … ), nhưng không sử dụng thuốc. Nếu những đặc thù của treatment group và control group khác nhau, thì sự khác nhau trong outcome ( thực trạng sức khỏe thể chất sau này ) sẽ hoàn toàn có thể gồm có tác động ảnh hưởng từ những yếu tố khác nữa, chứ không chỉ việc sử dụng thuốc .

Các vấn đề khi xác định ảnh hưởng nhân quả

Để rõ hơn về những yếu tố khi xác lập tác động ảnh hưởng nhân quả, hãy thử giúp cơ quan chính phủ giải toán trong trường hợp giả định sau đây .Giả sử chính phủ nước nhà đề ra một chương trình tương hỗ kinh tế tài chính, đơn cử là cho vay vốn với lãi suất vay thấp, với tiềm năng cải tổ thu nhập của dân cư. nhà nước quyết định hành động làm thử nghiệm trước trong 3 năm, rồi sau đó mới quyết định hành động có lan rộng ra chương trình ra toàn nước hay không. Chương trình sẽ được nhân rộng nếu nó giúp tăng thu nhập trung bình hàng năm trên đầu người tối thiểu 5 triệu đồng .Để khởi đầu, chính phủ nước nhà thuê một công ty triển khai khảo sát thu nhập và đặc thù nhân khẩu học của 5000 hộ mái ấm gia đình tại 100 xã trên cả nước. Trong 5000 hộ mái ấm gia đình này, có 3000 hộ ĐK tham gia chương trình vay vốn. Ba năm trôi qua nhanh như chớp mắt, thời hạn thử nghiệm đã kết thúc, một cuộc khảo sát sau chương trình lại được triển khai, mọi người đều hân hoan đón chờ tác dụng. Bây giờ bạn được chính phủ nước nhà tin yêu, giao trách nhiệm đưa ra quan điểm xem có nên lan rộng ra chương trình này ra toàn nước hay không. Khi đó, bạn sẽ xử lý thế nào ?Nếu trong thời điểm tạm thời chưa có ý tưởng sáng tạo gì, hãy nhờ đến những chuyên viên .Chuyên gia thứ nhất Open. Ông khuyên rằng bạn nên so sánh thu nhập của 3000 hộ mái ấm gia đình đã tham gia vay vốn ở thời gian lúc bấy giờ với thu nhập của họ 3 năm trước ( khi chưa vay vốn ). Ông lập luận rằng việc vay vốn giúp dân cư có thêm tiền để kinh doanh thương mại, sản xuất, nên thu nhập tăng lên chắc như đinh là do ảnh hưởng tác động của chương trình. Nói xong chuyên viên liền bắt tay vào đo lường và thống kê và còn cẩn trọng dùng kiểm định t-stat ( kiểm định xem sự độc lạ giữa thu nhập trung bình của những hộ mái ấm gia đình lúc bấy giờ và 3 năm trước có ý nghĩa về mặt thống kê hay không ). Bạn vui mừng khi nhìn thấy tác dụng : thu nhập trung bình trung bình đầu người trước khi có chương trình là 50 triệu / năm, sau chương trình là 56 triệu, tức là tăng 6 triệu đồng, vui mừng hơn khi vị chuyên viên chắc như đinh đóng cột rằng sự độc lạ này có ý nghĩa thống kê, tức là 99 % không thể nào sai được .Tuy nhiên, bạn thấy hình như mình vui mừng hơi sớm, đã 3 năm trôi qua, sự đời có nhiều biến hóa, việc thu nhập tăng hoàn toàn có thể không chỉ đến từ tác động ảnh hưởng của chương trình cho vay, mà còn hoàn toàn có thể từ những yếu tố khác nữa, ví dụ : năm ngoái bỗng dưng mưa thuận gió hòa nên người dân làm ăn khấm khá, quốc gia vừa Open nên có nhiều thời cơ việc làm hơn, sản phẩm & hàng hóa cũng trở nên rẻ hơn, …Nghĩ vậy, bạn mời đến chuyên viên thứ hai. Vị chuyên viên này nói so sánh thu nhập sau khi chương trình kết thúc của 3000 hộ mái ấm gia đình tham gia vay vốn với 2000 hộ không tham gia mới thực là đúng đắn. Cô nghiên cứu và phân tích rằng cả 5000 hộ mái ấm gia đình trong 100 xã đều đương đầu với điều kiện kèm theo kinh tế tài chính – chính trị – xã hội giống nhau, nên nhóm không tham gia hoàn toàn có thể được sử dụng như một counterfactual so với nhóm có tham gia. Bạn thấy có vẻ như hài hòa và hợp lý, bèn đích thân giám sát thử, thì thấy thu nhập trung bình trung bình đầu người của nhóm vay vốn thấp hơn 2 triệu đồng / năm so với nhóm không vay, càng đau lòng hơn khi thấy sự độc lạ này là có ý nghĩa thống kê. Bạn vừa buồn vừa tiếc : bao nhiêu tiền đã đổ sông đổ bể, bảo sao nước mình mãi nghèo .Nhưng nghĩ kĩ lại, bạn nhận ra rằng hai nhóm tham gia và không tham gia hoàn toàn có thể khác nhau một cách có mạng lưới hệ thống, tức là sự khác nhau về đặc thù giữa họ không phải do ngẫu nhiên. Ví dụ, hoàn toàn có thể những hộ ĐK vay vốn hoàn toàn có thể là những hộ có thu nhập thấp hơn, nên có động lực vay vốn làm ăn và trả bớt nợ .Quá bồn chồn, bạn đành tham vấn một chuyên viên khác. Người này là môn đệ của ba nhà kinh tế tài chính học đoạt giải Nobel 2019 với chiêu thức thí nghiệm ngẫu nhiên có đối chứng RCT ( Randomized Control Trial ) – thường được xem là tiêu chuẩn vàng cho việc nhìn nhận tác động ảnh hưởng. Chuyên gia này phủ nhận và bảo bạn tìm đến ảnh quá muộn, kèo này hết thuốc chữa rồi. Anh bảo bạn đã sai ngay từ bước tiên phong : đáng lẽ với những hộ mong ước vay vốn, phải cho họ quay xổ số kiến thiết, để lựa chọn hộ nào tham gia, hộ nào không. Cách này sẽ giúp bảo vệ không có sự độc lạ mang tính mạng lưới hệ thống giữa hai nhóm, loại trừ yếu tố sample selection bias ( sự xô lệch trong việc chọn mẫu ). Khi đó, nhóm không tham gia mới hoàn toàn có thể đóng vai trò là một counterfactual, chênh lệch thu nhập giữa 2 nhóm sau 3 năm sẽ chỉ chịu tác động ảnh hưởng bởi một yếu tố là chương trình chăm nom sức khỏe thể chất, bởi không có nguyên do nào khác chen chân được vào đây .Dù vậy, cách quay xổ số kiến thiết như trên cũng mới chỉ bảo vệ được Internal validity, tức là giúp việc chọn counterfactual đủ tốt, nhưng hiệu quả thu được sẽ chỉ đúng với những hộ mái ấm gia đình trong điều tra và nghiên cứu. Nếu muốn biết hoàn toàn có thể vận dụng chương trình với quy mô toàn nước hay không, thì những hộ mái ấm gia đình tham gia khảo sát phải đại diện thay mặt được cho tổng thể và toàn diện là tổng thể dân cư có nhu yếu vay vốn trên cả nước, hay nói cách khác là bảo vệ External validity. Tức, để chọn ra 5000 hộ mái ấm gia đình, khởi đầu bạn phải dùng giải pháp chọn mẫu ngẫu nhiên ( random sampling ). Có nhiều cách để chọn mẫu ngẫu nhiên, quay xổ số kiến thiết cũng là một cách, tuy nhiên trong trong thực tiễn người ta sẽ ít sử dụng vì hoàn toàn có thể tốn nhiều ngân sách và thời hạn .( Nguồn ảnh : P. Gertler et al ( 2012 ) )

Bạn tuyệt vọng và chán nản, thấy con đường phía trước sao mà mù mịt, việc đơn thuần thế này mà cũng làm không xong thì từ nay làm thế nào dám bàn chuyện chính trị nữa. Thế rồi vị chuyên viên an ủi bạn rằng, RCT vô cùng tốn kém, mà nhiều khi có tiền cũng chưa chắc làm được, nên không cần phải tiếc. Thấy bạn vẫn còn đau buồn, anh đành bật mý một bí hiểm : thực ra vẫn chưa phải là hết cách, có một vài chiêu thức khác để nhìn nhận tác động ảnh hưởng như difference-in-difference, sử dụng biến công cụ ( instrumental variable ), hay matching, … Nhưng mà kiến thức và kỹ năng cơ bản của bạn vẫn còn nhiều lỗ hổng quá, tốt hơn hãy đi học đã rồi về bàn tiếp .

Tình huống giả định trên chỉ nhằm mục đích mục tiêu giúp bạn hiểu hơn về những yếu tố trong suy luận nhân quả. Bạn sẽ nhận ra rằng tất cả chúng ta không chỉ bế tắc với những câu hỏi lớn, mà còn cả với những câu hỏi nhỏ bé xiu, giả như :

Nếu một ngày bạn bảo crush hãy cắt tóc và vài ngày sau thấy tóc của crush đã được cắt, liệu có phải crush làm vậy vì câu nói của bạn? Cứ cho là thế thật, thì liệu nguyên nhân sâu sa là do crush thích bạn, hay chỉ đơn giản là bạn giúp crush nhận ra tóc đã dài và đến lúc cắt đi thôi? Muốn biết thì hãy nói lúc tóc crush không dài, khi ấy nếu crush vẫn đi cắt thì khả năng cao là do lời nói của bạn có sức ảnh hưởng. Nhưng ảnh hưởng như thế nào thì có khi lại phải làm thí nghiệm thêm. Việc này cũng mệt không khác gì đánh giá chính sách, nhưng ít nhất mệt quá thì bạn có thể hỏi thẳng crush một câu là xong, còn với chính sách thì bạn sẽ chẳng biết hỏi ai.

Nếu bạn mệt mà vẫn ngại, có thể đơn giản cứ giữ lấy niềm tin của riêng mình. Mình có một thói quen là mua 2 chiếc bút mới để viết trong những kì thi quan trọng, coi đó như một sự hiện diện của may mắn, dù biết bút mới không giúp mình thông minh hơn, nhưng cứ kệ thôi. Cuộc đời, đôi khi chỉ cần vài niềm tin như thế, để bám víu và để cảm thấy được an ủi, miễn đừng ảo tưởng quá là được.

———————————————–À, ở trên vị chuyên viên chỉ bảo hãy đi học, nhưng học ở đâu thì không nói. Vậy mình hoàn toàn có thể chỉ cho những bạn nè :

———————————————–

References:

Gertler, Paul J., Sebastian Martinez, Patrick Premand, Laura B. Rawlings, Christel M. J. Vermeersch ( 2012 ). Impact Evaluation in Practice. The World Bank .Imai, Kosuke. Quantitative Social Science : An Introduction, by Kosuke Imai, Princeton University Press .Đọc thêm :