5 Sample Case For Intro to Data Science

เป็นบทความที่เขียนเพื่อที่จะช่วยให้สามารถเข้าใจตัวอย่างสำหรับข้อมูลที่มีในปัจจุบันว่าจะมีประโยชน์สำหรับนำไปประยุกต์กับธุรกิจในชีวิตจริงได้ในรูปแบบต่างๆ ตามที่เคสตัวอย่างที่จะนำมาเล่าสู่การฟังดังนี้


Intro to Data Science for 5 Case

  1. Case Study 1 – Target
    1. Case 1 : Check Pregnant Girl
      1. Threshold Criteria
      2. Confusion Matrix
    2. Case 2 : A person infected with COVID-19
    3. Case 3 : Churn Prediction
  2. Case Study 2 – Tesco
    1. Case 1 : Tesco/ Sainsbury’s
      1. Evina Dunn and Clive Humby
    2. Case 2 : Loyalty Program 7-11
  3. Case Study3 : Netflix
    1. Case 1 : CEO Netflix
      1. Rule of Reed Hastings
    2. Problem Netflix Case
  4. Case Study 4 : Cambridge Analytica
    1. Case 1 : Brexit
  5. Case Study 5 : Moneyball
    1. Case 1 : Coach and Economist

Case Study 1 – Target

Pregnancy prediction การที่จะสามารถทำนายผู้หญิงคนไหนท้อง หรือ ไม่ท้อง สามารถดูได้จากการซื้อสินค้าของผู้หญิง

  • โดยมี 3 พฤติกรรมหลักที่ผู้หญิงเปลี่ยนดังนี้
  1. การกิน
  2. การซื้อของ
  3. การดูแลตัวเอง
Pregnant
  • จากข้อมูลที่ถูกเก็บทำให้สามารถบอกได้ผู้หญิงคนน่าจะท้องจึงทำให้มีส่ง Coupon ส่วนลดสินค้าสำหรับคนท้องไปให้เป็นเรื่องเวลา 9 เดือน เพื่อเพิ่มโอกาสที่ลูกค้าอยากจะซื้อสินค้าของแบรนด์

ทำให้มีเรื่องกับครอบครัวบางครอบครัวเพราะไม่รู้ว่าลูกผุ้หญิงที่บ้านตัวเองท้อง ส่ง coupon ไปหาเด็กมัธยมผู้หญิง

Target รู้ได้ว่าผู้หญิงคนนี้ท้องก่อนคุณพ่ออีก

  1. เพราะดูจาก Pattern การซื้อสินค้าของเด็กคนนั้น
  2. 3 เดือนแรกเมื่อผู้หญิงรู้ว่าตัวเองท้อง จะเปลี่ยนไปใช้แชมพูที่ไม่มีกลิ่น เริ่มซื้อ calcium สารอาหารดีๆ
  3. 6 เดือนซื้อครีมทากันท้องลางมาเพิ่ม
  4. 9 เดือนซื้อ big cotton สำลี big pack
Check Pregnant Girl

Case 1 : Check Pregnant Girl

  • ถ้าอยากรู้ผู้หญิงคนไหน ท้องบ้าง ไปตั้ง boot หน้า Target คือ baby shower boot

ให้ลูกค้ากรอกชื่อและนามสกุล เบอร์โทรที่อยู่จะให้ Coupon discount 20-30%

ColumnData
Column A-Eข้อมูลใน database ในบริษัท with binary data (0,1) ทำนาย Column G
Column Gข้อมูลใน baby shower booth
Pattern Coupon
  • set threshold = 0.5 default to predict that women get pregnant.
  • ทีมการตลาดจะตัดสินใจส่ง decision ให้ทีมการตลาด

การใช้ Threshold แบบไหนถึงจะดี


Threshold Criteria

Quality of ThresholdResult
Threshold สูงSite ของ Audience น้อยลง
Threshold ต่ำSite ของ Audience มากขึ้น
  • ต้องตรวจสอบต้นทุนการส่ง Coupon ไปที่บ้านประกอบการพิจารณาเนื่องจากมีต้นทุน

Trade off ความคุ้มค่าระหว่าง แจกคูปองเยอะกับคูปองน้อย แล้วลูกค้าซื้อกลับเยอะหรือไม่


Confusion Matrix

Confusion Matrix คือตารางที่ใช้ในการประเมินโมเดล(Classification Model) สำหรับผลลัพธ์จริง (Actual Values) และผลลัพธ์ที่โมเดลทำนาย (Predicted Values) แล้วนำมาเปรียบเทียบกัน

  1. True Positive (TP): ค่าบวกจริง
  • คือ กรณีที่โมเดล ทำนายว่าเป็นบวก (ท้อง) และ ความเป็นจริงก็เป็นบวก (ท้องจริง)

2. True Negative (TN): ค่าลบจริง

  • คือ กรณีที่โมเดล ทำนายว่าเป็นลบ (ไม่ท้อง) และ ความเป็นจริงก็เป็นลบ (ไม่ท้อง)

3. False Positive (FP): ค่าบวกเท็จ Type I Error

  • คือ กรณีที่โมเดล ทำนายว่าเป็นบวก (ท้อง) แต่ ความเป็นจริงเป็นลบ (ไม่ท้อง)

4. False Negative (FN): ค่าลบเท็จ Type II Error

  • คือ กรณีที่โมเดล ทำนายว่าเป็นลบ (ไม่ท้อง) แต่ ความเป็นจริงเป็นบวก (ท้อง)
Prediction vs Actual

Case 2 : A person infected with COVID-19

  • ช่วงโควิด ระบาดใหม่ ปลายปี 2019 คนป่วยไปโรงพยาบาลเป็น 100 คน ตรวจแล้วควรใช้ threshold ต่ำหรือสูงดีกว่า ?
  • ควรใช้ต่ำ เพราะโรงพยาบาลต้องการให้คนอยู่โรงพยาบาลมาก threshold 30% ก็ควรให้อยู่โรงพยาบาลเยอะกรณีผู้ป่วยโควิดยังน้อย
  • ถ้าเกิดเตียงเริ่มเต็ม ต้องตั้ง threshold 70% เพื่อให้คนอยู่โรงพยาบาลน้อยๆ ในกรณีโควิดระบาดมาก

threshold สูงต่ำ ไม่ได้อยู่ที่ model แต่อยู่ที่สถานการณ์ประกอบด้วย


Case 3 : Churn Prediction

Churn Prediction
  • หาว่าใครมีแนวโน้มจะเลิกใช้แบรนด์หรือไม่ ?
  • ถ้ารู้ว่าลูกค้าที่มีแนวโน้มจะยกเลิกใช้บริการ Dtac จะแก้ไขยังไง
  • โทรหา offer promotion, โปรลับเพื่อไม่ให้คนเลิกใช้บริการ
  • prescriptive analytic
  • เก็บ data เดือน 1 – เดือน 3 ทดลอง เดือน 4 deploy model เดือน 5-7 แล้วทำนาย model ไปเรื่อยๆ

Case Study 2 – Tesco

Case Study : Tesco
  • TESCO เป็น Target ของ (Retail คือ การขายสินค้าหรือบริการโดยตรงให้กับผู้บริโภคคนสุดท้าย)
  • สมัย Tesco เมื่อ 30 ปีที่แล้ว 1990 Tesco ยังไม่ใช่เจ้าตลาด ณ ปัจจุบัน
  • Brand เบอร์หนึ่งตอนนั้นคือ Sainsbury’s (เซนส์เบอรีส์)

Case 1 : Tesco/ Sainsbury’s

  • สมัยก่อน ที่ Sainsbury สามารถใช้เงินซื้อ 5 ปอนด์ ซื้ออาหารกล่องและ Spaghetti ที่กินได้ถึง 3 มื้อเลยครับ อยู่ได้ 2 วัน ปี 1990
  • TESCO จึงพยายามจะแซงหน้า Sainsbury’s (เซนส์เบอรีส์) ทำไงก็แซงหน้าไม่ได้
  • TESCO เลยไปหา 2 สามี ภรรยาจากรูปด้านบนนี้มาเพื่อคิดกลยุทธ์ใหม่ๆ ชื่อ Evina Dunn and Clift Country

Evina Dunn and Clive Humby

  • รวมชื่อกัน เป็น Dunnhumby เสนอ Campaign เข้าไปทำกับ Tesco โดยสร้างเป็น Loyalty Campaign เพื่อให้ user มาสมัครได้แล้วใช้ Loyalty Club Card แล้วเก็บสะสมแต้มได้
  • พอทำงานได้ 3-4 เดือน เอาข้อมูลไปที่เก็บได้จากลูกค้าให้ผู้บริหารฟัง จึงได้ข้อมูล 5 part นี้ที่ควรจะพัฒนา
5 Part

วิเคราะห์ข้อมูลแบบนี้ ทำอะไรได้บ้าง

  • สกิลการตั้งคำถามคือ การที่จะสามารถทำให้รู้แนวทางในการวิเคราะห์ข้อมูลต่อได้
  1. จงหาว่า สาขาไหนขายปริมาณเยอะสุด
  2. จงหาว่าลูกค้า Top 10 ที่ซื้อสินค้าเยอะสุด คือใครบ้าง สาขาไหน ซื้อเยอะ ช่วงเวลาในการซื้อ
  3. วันที่สามารถทำให้เรารู้ได้ วันที่ที่ลูกค้ากลับมาซื้ออีกครั้ง เพื่อดูความถี่ในการซื้อของลูกค้า

Case 2 : Loyalty Program 7-11

  • ยิ่งลูกค้าคนไหน ซื้อของให้เยอะก็จะยิ่งส่ง Coupon Size ใหญ่ไปให้ลูกค้าเหล่านั้นได้เลย
  • ลูกค้าแต่ละคน สร้าง Value ให้โทรศัพท์ไม่เท่ากัน ก็ควรจะให้ Offer ต่อลูกค้าที่ไม่เหมือนกัน
  • High Value Receive Good offer, Low Value Receive Bad offer

Personalization คือ กระบวนการปรับเปลี่ยนประสบการณ์, เนื้อหา, ผลิตภัณฑ์, หรือบริการ ให้มีความเหมาะสมและตรงกับความต้องการ, ความสนใจ, ลักษณะเฉพาะของแต่ละลูกค้า


Case Study3 : Netflix

Netflix
  • เคสนี้เป็น Case ที่ไม่ประสบความสำเร็จ
  • ไม่ใช่ทุก Project ที่เราทำขึ้นมาจะได้อยู่ใน Production ก็มีหลาย Project ที่ Fail ไปเหมือนกัน

Case 1 : CEO Netflix

  • CEO Netflix เคยเปิดการแข่งขันทั่วโลก ใครก็ตาม Build model แนะนำหนัง Recommendation ได้ดีกว่า Netflix 10% ขึ้นไป เอาเงินไปเลย 1 ล้านเหรียญ
CEO Netflix
  • คล้ายกับการแข่ง hackathon เป็นการแข่งเพื่อหา Idea ใหม่ๆ
  • Netflix ทำ Website แล้ว Summit คะแนนเลย หนังแต่ละอันที่ถูกผลิตขึ้นมาได้คะแนนเท่าไรบ้าง
  • เวลาแนะนำหนังไป โชว์หนังเรื่องนึงแล้วมีคนกดเข้าไปดู แสดงว่าหนังเรื่องนั้นดีแล้วได้ Accuracy 100%
  • แต่ถ้าโชว์หนัง 100 เรื่องแล้วคนดู 50 เรื่อง แสดงว่า Accuracy 50/100 = 50%

Rule of Reed Hastings

  • ใครที่สามารถ Build Algorithm ที่ทำงานได้ดีกว่า Data Scientist Netflix 10% จะเอาเงินไป 1 ล้าน
  • ผ่านไป 3-4 ปี ทีมที่ 1-5 ที่ทำแข่งได้ใกล้มารวมตัวกันแล้วตั้งทีมแล้วทีมทำนายสำเร็จ

ทำให้ Model สามารถชนะ Netflix แต่ไม่สามารถเอาไปใช้จริงได้


Problem Netflix Case

Failed Netflix
  • Business Outcome กับ Model Output แต่ไม่สอดคล้องกัน จึงไม่สามารถใช้จริงได้
  • ต้นทุนของ Model ที่จะใช้เปลี่ยนโครงสร้างหลังบ้านใช้เยอะเงินมาก จึงไม่คุ้มกับรายได้ที่ได้รับ
  • ระยะเวลาที่ใช้ในการเปลี่ยนนานเกินไป จึงไม่คุ้มค่า
Benefits < Engineer Cost

Concept เรื่องความเร็วใน Deliver service ผ่าน Application แล้วส่งผล predict ขึ้นไปบนโทรศัพท์มือถือลูกค้า

  • เช่น Netflix มี Model แนะนำหนังให้ลูกค้า SLA (Service Level Agreement หรือ ข้อตกลงระดับการให้บริการ) ใช้เวลา 3 วินาที
  • เวลาลูกค้า summit service level ที่ 3 วินาที ให้กลายเป็น 1 วินาที แล้วลดความเร็วจะได้มั้ย
  • แต่ต้นทุนทำคอมพิวเตอร์เราส่งข้อมูลมา 50 ล้านก็รายได้กลับมาที่ 10 ล้าน

Case Study 4 : Cambridge Analytica

Cambridge Analytica
  • เป็น Case Study เรื่อง Project Almo
  • เป็น project Alamo ที่ Donald Trump ทำไว้เทื่อ 8 ปีที่แล้ว
  • ใช้ต้นแบบจาก Obama เลยว่า พื้นที่ไหนควรใช้ในการหาเสียงแล้วสามารถทำคะแนนได้

Project Almo เป็นการสร้างฐานข้อมูลผู้มีสิทธิ์เลือกตั้งที่สร้างขึ้นสำหรับแคมเปญหาเสียงเลือกตั้งประธานาธิบดีของโดนัลด์ ทรัมป์ ในปี พ.ศ. 2559

ทำหนังใน Netflix ขึ้นมาเรื่อง The Great Hack

  • โดย Database จะมีชื่อ เบอร์โทร นามสกุลแล้วก็ที่อยู่ และพรรคการเมืองที่ชอบของคนอเมริกาหลุดออกมา

จากการดึง API จาก facebook โดยที่ Facebook สั่งให้ลบ แต่ Cambridge ไม่ลบ


Case 1 : Brexit

  • Carole Cadwalladr เคยไปทำข่าวสอบถามว่าชาว Wale ที่ Ebbe vale ว่า ให้อังกฤษและสหราชจักรเยอะมากว่าควรออกจาก Brexit มั้ย
  • Brexit คือการโหวตอังกฤษออกจาก EU
  • เพื่อให้คนอยากออกจาก Brexit แต่เมือง Ebbe vale ได้เงินสนับสนุนจาก EU เยอะมาก แต่คนโหวตออกเยอะ จึงรู้สึกแปลกใจ
  • เลยเดินไปถามร้านค้าทั่วไปทำไมถึงอยากออก เพราะโดน Immigrant แย่งงานเยอะมาก แต่พอไปดูข้อมูลจริง มีคนต่างชาติมาแย่งงานน้อยมาก

คนส่วนใหญ่เห็นข้อมูลนี้มาจาก Facebook


Case Study 5 : Moneyball

Money Ball
  • Billy Bean เป็นผู้จัดการทีมของทีมท้ายตารางของ Baseball

ทีมไม่มีเงินแล้วไม่รู้ทำยังไง จึงเอาเงินมาจ้างนักเศรษฐศาสตร์


Case 1 : Coach and Economist

Coach and Economist
  • สร้างค่า Regression เพื่อรู้ว่าทำไง ถึงสามารถตัวแปรไหนสามารถข่วยให้ชนะได้
  • โดยนำตัวแปรที่วิเคราะห์ออกมาว่าไปหานักกีฬาที่มี 5 Skill นี้ดี แต่ค่าตัว under value player

แล้วพา Oakland Athletics สร้างประวัติศาสตร์ชนะ 20 เกมในประวัติศาสตร์ Baseball America


ข้อมูลเป็นสิ่งที่สำคัญในโลกอนาคตมากดังนั้นจากเคสตัวอย่างทั้ง 5 เคส แสดงเห็นว่าปัจจุบันใครยิ่งรับรู้ข้อมูลได้มากและถูกจะยิ่งประสบความสำเร็จในชีวิตได้มากขึ้น


ขอบคุณคอร์ส Graduation Day จาก Data Science Bootcamp 11 DataRockie : https://data-science-bootcamp1.teachable.com/courses/enrolled/2684443


Comments

Leave a comment