ในปัจจุบัน การศึกษาในด้าน Data เรียกได้ว่าเป็น Hype ของยุคนี้ คืออะไร ๆ ก็ Data ไม่ว่าจะทั้ง Big Data, Data Science ไม่ว่าจะภาครัฐหรือภาคเอกชน ก็มีการพูดถึงเรื่องนี้กัน ซึ่งมันก็ส่งผลไปถึงเรื่องการงานอีกด้วย โดยเฉพาะ Data ScientistData Science หรือวิทยาศาสตร์ข้อมูล ดูจะไม่ใช่วิชาที่จะมีเรียนเฉพาะเจาะจงแพร่หลายในมหาวิทยาลัยหรือสถาบันการศึกษาพื้นฐานเท่าไหร่ ไม่ว่าจะทั้งฝั่ง คอมพิวเตอร์ หรือ วิทยาศาสตร์เพราะงานที่เป็น Data Science เป็นงานที่ต้องผสมผสานความรู้ระหว่าง ความเข้าใจในข้อมูล ความเข้าใจในธุรกิจ ความรู้ในด้านสถิติ และคอมพิวเตอร์ อาชีพที่เหมาะจะเรียน Data Scienceเมื่อคุณเรียน Data Science ไปคุณจะเป็น Data Scientist หรือนักวิทยาศาสตร์ข้อมูล ผู้ซึ่งจะจัดการข้อมูลต่าง ๆ ที่มีในองค์กรหรือกระบวนงาน ให้ได้เป็น Information หรือข้อมูลสารสนเทศ ที่สามารถนำไปใช้งานต่อได้ ทำการวิเคราะห์ สังเคราะห์ให้เป็น Knowledge คือความรู้ เพื่อนำมาใช้งานตามสายธุรกิจจะเห็นได้ว่าในจากผลลัพธ์ที่ได้ของงาน Data Scientist เป็นผลลัพธ์ที่หลาย ๆ องค์กรต้องการคือ องค์ความรู้ ที่องค์กรจะนำไปใช้งาน ดังนั้นคนที่จะมาศึกษา Data Science ไม่จำเป็นต้องมาจากสาขาคอมพิวเตอร์ หรือสายธุรกิจ 100 % เลยก็ได้ อาจจะมาจากสาขาไหนก็ได้ที่มีความเกี่ยวข้องกับสายธุรกิจในองค์กร เพราะจุดสำคัญของ Data Science คือต้องมีการตั้งคำถาม เพื่อหาคำตอบจาก Data นั้น ๆ ดังนั้นผู้ที่เกี่ยวข้องในธุรกิจจึงควรมีองค์ความรู้ด้าน Data Science เอาไว้ ไม่ว่าจะเป็นในส่วนการทำงานหลักของธุรกิจ Marketing หรือแม้แต่ผู้บริหารเองก็ตาม (Photo by Campaign Creators on Unsplash) วันนี้จะมารีวิวคอร์สออนไลน์ที่สอนเกี่ยวกับ Data Science ของมหาวิทยาลัย Johns Hopkins ในเว็บ Coursera.org ซึ่งเว็บนี้สามารถนำเรียนฟรีโดยการ audit หรือจะทำการเสียเงินรายเดือนก็จะได้ Certifications จากมหาวิทยาลัยครับ (เรียนเยอะเท่าไหร่ก็ได้ ยิ่งเรียนจบเร็วยิ่งคุ้ม)DATA SCIENCE SPECIALIZATIONสามารถเข้าไปดูคอร์สในลิงก์ด้านล่างนี้https://www.coursera.org/specializations/jhu-data-science SPECIALIZATION ของ Coursera คือ ชุด Course ที่จัดรวมคอร์สที่เกี่ยวข้องขึ้นมา โดยเมื่อรวมกัน เรียนจบจะมี Capstone Project หรือโปรเจคจบคอร์สอีกทีด้วยในส่วนของ Data Science Specialization จะมีทั้งหมด 10 คอร์ส รวมคอร์สทำโปรเจคจบ โดยแต่ละคอร์สจะมีระยะเวลาในเรียน 4 สัปดาห์ สามารถเรียนจบก่อนได้ แต่ลักษณะการส่งการบ้านของ Coursera จะมีลักษณะเป็น Quiz และ แบบ Peer Review คือให้ผู้เรียนด้วยกันตรวจ 3 คน โดยมีเกณฑ์ให้ (Photo by Glenn Carstens-Peters on Unsplash) คอร์สทั้ง 10 คอร์สมีดังนี้The Data Scientist's Toolboxเรียนรู้หลักการพื้นฐาน ด้าน Data Science ว่าจะต้องทำอะไร ยังไง มีกี่แบบ เครื่องมือต่าง ๆ มีอะไรบ้าง R Programmingเรียนการใช้ R ซึ่งเป็น 1 ในภาษาคอมพิวเตอร์ยอดนิยมในวงการ Data Science เมื่อเทียบกับ Python ที่ฮิตกว่า R ถือเป็นภาษาที่มี Learning Curve ที่ดี เพราะเรียนรู้ได้ง่ายและเร็ว มีบทเรียนทีสามารถหาศึกษาได้ง่ายกว่า Python ซึ่งในคอร์สถัด ๆ ไป จะใช้ R เป็นหลักในการเรียน Getting and Cleaning Dataขั้นตอนสำคัญในการทำข้อมูล คือการ จัดการและทำความสะอาดข้อมูล เพราะข้อมูลที่นำเข้ามาใช้มีความหลากหลาย และอาจจะไม่ถูกต้องหรือครบถ้วน ถูกต้องตามรูปแบบ ดังนั้นเราจึงต้องเรียนในส่วนนี้ ในคอร์สก็จะสอนหลักการและวิธีการต่าง ๆ ในการจัดเตรียม และ Clean ข้อมูลให้พร้อมนำไปวิเคราะห์ในขั้นต่อไป Exploratory Data Analysisในคอร์สนี้จะสอนเรื่องการวิเคราะห์ข้อมูล โดยจะมีส่วนการวิเคราะห์ การแสดงข้อมูลเพื่อนำมาวิเคราะห์ เช่น การแสดงกราฟต่าง ๆ ในภาษา R หลักการต่าง ๆ ซึ่งจะทำให้เรานำข้อมูลต่าง ๆ มาดูและวิเคราะห์จนได้ผลลัพธ์หรือคำตอบจากข้อมูลนั้น ๆ Reproducible Researchคอร์สนี้จะเน้นไปที่การทำการวิเคราะห์ข้อมูลที่ผู้อ่านสามารถนำไปใช้ต่อได้ ซึ่งเป็นสิ่งสำคัญในการทำวิทยาศาสตร์ข้อมูล ไม่ว่าจะนำข้อมูล หรือข้อสรุป งานวิจัยที่เราได้ไปเผยแพร่ เราต้องทำเอกสาร หรือทำ Document เพื่อให้ผู้อ่านสามารถนำไปทดลองทำตาม และศึกษาต่อได้ ในส่วนนี้จะเน้นพูดถึงเรื่องของ Document ใน R โดยเฉพาะ R Markdown ซึ่งจะทำให้เรา Publish เอกสารและ Code ออกมาได้ง่าย (Photo by Franki Chamaki on Unsplash)Statistical Inferenceในส่วนคอร์สนี้จะเน้นหนักไปในเรื่องสถิติ เพื่อนำมาใช้การวิเคราะห์ข้อมูล หรือสรุปข้อมูล ในบทนี้เป็นส่วนสำคัญทีเดียว ที่จะนำไปสู่การสรุปงานหรือผลลัพธ์ที่เราได้มาจากข้อมูลออกมาในเชิงสถิติ ให้มีความน่าเชื่อถือ และเนื่องจากการนำข้อมูลมาใช้ไม่ใช่ Fact หรืออะไรที่เป็นคำตอบ 100% ดังนั้นจึงต้องนำเรื่องนี้มาช่วยซึ่งเป็นส่วนสำคัญ ในการทำ Model เพื่อทำนาย ในบทถัดไป Regression Modelsคอร์สนี้จะเน้นไปที่การสร้างโมเดลจากข้อมูล โดยใช้ Regression Model ซึ่งเป็นโมเดลที่เน้นไปในการใช้กราฟสมการเส้นตรง (พื้นฐานที่เน้นคือ Linear Regression Model) โดยจะมีการนำสถิติจากคอร์ส Statistical Inference มาใช้ เมื่อเรียนอันนี้จบ จะเริ่มเห็นภาพการนำข้อมูลมาทำนายว่าอนาคตผลลัพธ์ถัดไปจะเกิดอะไรได้ Practical Machine Learningคอร์สนี้จะเน้นไปที่การใช้ข้อมูลทำนายผลลัพธ์เช่นกัน แต่นอกจาก Regression Models แล้วจะเน้นไปที่ Classification Model อีกด้วย ถ้าให้อธิบายคร่าว ๆ คือการใช้สถิติในการจัดกลุ่มของข้อมูลทำให้เราสร้าง Model ที่ทำนายได้ว่าข้อมูลแบบนี้จะเป็นกลุ่มไหนได้ นอกจากนั้นยังมีการพูดถึง Model อีกหลายแบบเช่น Random Forest เป็นต้น Developing Data Productบทนี้จะพูดถึงการนำโมเดล หรือสิ่งต่าง ๆ ที่ทำจากข้อมูล เช่น กราฟ ตาราง โมเดล มาสร้างเป็น Product หรือ Web Application ซึ่งในที่นี้จะพูดถึง Shiny.io เป็น Web App ที่สร้างจาก R Studio Data Science Capstoneโปรเจคที่ต้องทำ โดยจะมีสอนเนื้อหาบ้าง แต่ก็เน้นให้ศึกษาเองเพราะเป็นเรื่องที่นอกเหนือจากสิ่งที่เรียน แต่นำมาประยุกต์ได้ เช่น การ Predict คำ เพื่อใช้ในการ Auto correct ตอนพิมพ์ สรุป คอร์สทั้ง 10 คอร์สนี้ หากเรียนไล่มาก็จะเป็นคอร์สที่สร้างพื้นฐานทางด้าน Data Science ได้ดี บางรายละเอียดอาจจะน้อยเกินไป เนื่องด้วยบทเรียนที่มีเวลาเรียนแค่ 4 สัปดาห์ต่อคอร์ส แต่ก็สามารถเป็นจุดเริ่มต้นให้ศึกษาเพิ่มเติมได้ คอร์สชุดนี้เน้นที่การเรียนภาษา R หากใครสนใจเรียน Python อาจจะไม่ชอบนัก แต่ก็สามารถประยุกต์ใช้ได้เช่นกัน เรียน 2 - 3 ภาษามาใช้ในการจัดการข้อมูลก็ไม่เสียหายหากใครสนใจเข้าไปสมัครและเรียนได้ที่ Coursera.orgคอร์สเป็นภาษาอังกฤษทั้งหมด แต่มี Subtitle