รายละเอียดโมดูล รุ่นที่ 1 ปี 2562
ภาพรวมของหลักสูตร
ลำดับการเรียน
ความรู้ก่อนเรียน (Prerequisite knowledge)
- ไม่มี
เนื้อหา (Learning Contents) :
- ประวัติความเป็นมาของ Big data
- วิธีการแก้ปัญหา Big Data ที่ต้องการความเร็วในการอ่านและบันทึกข้อมูลโดยใช้ NoSQL database
- วิธีการแก้ปัญหาการประมวลผลข้อมูลแบบ Streaming
- วิธีการแก้ปัญหาการประมวลผลชุดข้อมูลขนาดใหญ่ที่ต้องใช้เวลานาน (Batch processing)
- รูปแบบและตัวอย่างการประยุคต์ใช้เทคโนโลยี Big Data
ความรู้ก่อนเรียน (Prerequisite knowledge)
- ไม่มี
เนื้อหา (Learning Contents) :
- Hadoop และเครื่องมือที่ใช้งานร่วมกัน
- ระบบไฟล์แบบกระจายของ Hadoop (Hadoop Distributed File System: HDFS)
- การบริหารจัดการการประมวลผลด้วย YARN (Yet Another Resource Negotiator)
- เฟรมเวร์คในการประมวลผลข้อมูลแบบ MapReduce
- การใช้งาน Hadoop as a service บน Cloud
- การติดตั้งและใช้งาน Hadoop cluster แบบ On-Premise
โมดูลนี้เรียนรู้เกี่ยวกับการนำข้อมูลในฐานข้อมูลเชิงสัมพันธ์ และข้อมูลแบบกึ่งโครงสร้างจากการเก็บประวัติการใช้งาน (log data) เข้ามาร่วมวิเคราะห์ ใน Hadoop cluster การใช้ Hive ในการทำให้ข้อมูลทั้งในแบบที่เป็นโครงสร้างและแบบกึ่งโครงสร้างสามารถใช้งานได้คล้ายกับการใช้งานตารางที่อยู่ในฐานข้อมูลเชิงสัมพันธ์ซึ่งสามารถวิเคราะห์ร่วมกันได้ด้วยภาษา SQL
ความรู้ก่อนเรียน (Prerequisite knowledge)
- Module BD01: การติดตั้ง Hadoop และเครื่องมือที่ช่วยในการจัดการ Big data
เนื้อหา (Learning Contents) :
- การนำข้อมูลเข้ามาใน Hadoop cluster
- การโหลดข้อมูลจาก RDBMS โดยใช้ Sqoop
- การเก็บข้อมูล log โดยใช้ Flume
- รูปแบบการจัดการตารางข้อมูลของ Hive
- วิธีการทำ Hive partition และ bucket เพื่อเพิ่มความเร็วในการประมวลผลข้อมูล
- การใช้ Hive จัดการกับข้อมูลแบบมีโครงสร้างด้วยภาษา SQL
- การสร้างตาราง Hive จากข้อมูลแบบกึ่งโครงสร้างโดยตรงและโดยใช้ regular expressions
- การประมวลผลข้อมูลด้วยภาษา SQL โดยใช้ Hive
เมื่อข้อมูลเกิดขึ้นอย่างรวดเร็ว ทำให้ความต้องการบันทึกข้อมูล รูปแบบของข้อมูล และวิธีการในการเก็บรวบรวมข้อมูล มีโอกาสเปลี่ยนแปลงได้ตลอดเวลา การใช้ฐานข้อมูลที่รองรับการเปลี่ยนแปลงในอนาคตได้ง่ายจะช่วยเพิ่มโอกาสในการเก็บบันทึกข้อมูลใหม่ ๆ ได้อย่างทันท่วงที นอกจากนี้การเพิ่มขึ้นของผู้ใช้งานทำให้จำนวนความต้องการเรียกใช้หรือบันทึกข้อมูลสูงขึ้นจนอาจไม่สามารถให้บริการได้ในเวลาที่เหมาะสมหากใช้ฐานข้อมูลที่ไม่สนับสนุนดีพอ การใช้งานฐานข้อมูลที่ออกแบบมาโดยเฉพาะจึงมีความจำเป็น โมดูลนี้จะได้เรียนรู้รูปแบบของฐานข้อมูล ที่นอกเหนือจากฐานข้อมูลเชิงสัมพันธ์ ทั้งที่สามารถใช้งานได้และไม่ได้โดยใช้ภาษา SQL เพื่อตอบสนองความต้องการที่หลากหลายของผู้ใช้และ Application
ความรู้ก่อนเรียน (Prerequisite knowledge)
- ไม่มี
Apache Spark เป็นซอฟต์แวร์แบบโอเพ่นซอร์สที่ช่วยอำนวยความสะดวกในการประมวลผลข้อมูลขนาดใหญ่ ทำให้การทำงานในขั้นตอนต่าง ๆ ของการวิเคราะห์ข้อมูล เป็นไปอย่างราบรื่นและรวดเร็ว การเรียนรู้การใช้งาน Spark จึงเป็นประโยชน์อย่างยิ่งต่อการวิเคราะห์ข้อมูลขนาดใหญ่เพื่อให้สามารถวิเคราะห์ให้ได้ประโยชน์เชิงลึกจากข้อมูลนั้นมากที่สุดเท่าที่จะทำได้ โมเดลนี้จะได้เรียนรู้การดำเนินการกับข้อมูลในรูปแบบต่าง ๆ รวมถึงการใช้ Machine Learning Library ของ Spark เพื่อความคุ้นเคยกับการใช้เครื่องมือต่าง ๆ ช่วยในการวิเคราะห์ข้อมูล
ความรู้ก่อนเรียน (Prerequisite knowledge)
- Module BD01: การติดตั้ง Hadoop และเครื่องมือที่ช่วยในการจัดการ Big data
เนื้อหา (Learning Contents) :
- หลักการทำงานของ Spark
- การโหลดข้อมูล และการบันทึกข้อมูล
- Spark DataFrame
- การจัดการข้อมูลใน DataFrame
- Spark Machine learning library
เมื่อมีปัญหาที่ต้องการแก้ การระบุปัญหาให้ชัดเจนจะช่วยให้การเลือกวิธีการแก้ปัญหาได้อย่างเหมาะสม และที่สำคัญที่สุดคือการเลือกข้อมูลที่เหมาะสมมาช่วยในการวิเคราะห์เพื่อแก้ปัญหานั้น โมดูลนี้จะได้เรียนรู้ตั้งแต่การระบุปัญหา ขอบเขตของปัญหา การพิจารณาข้อมูลที่คิดว่าจะช่วยให้การวิเคราะห์ข้อมูลเป็นไปอย่างมีประสิทธิภาพ รวมถึงแนวทางในการประเมินความสำเร็จของการวิเคราะห์ข้อมูล
ความรู้ก่อนเรียน (Prerequisite knowledge)
- ไม่มี
เนื้อหา (Learning Contents) :
- การวิเคราะห์ปัญหาเพื่อหาวิธีในการแก้ปัญหา
- ปัญหาที่ต้องใช้วิธีการเรียนรู้ของเครื่องแบบไม่มีผู้สอน (Unsupervised machine learning)
- ปัญหาที่ต้องใช้วิธีการเรียนรู้ของเครื่องแบบมีผู้สอน (Supervised machine learning) และวิธีการกาหนด target เพื่อใช้ในการทานาย
- การวิเคราะห์ feature ของข้อมูลที่มีโอกาสมีผลต่อการวิเคราะห์ทั้งทางตรงและทางอ้อม
การทำให้เห็นภาพจะช่วยให้งานบางอย่างง่ายขึ้น แต่ข้อจากัดของการรับรู้ของมนุษย์ทาให้การทาให้เห็นภาพของข้อมูลที่มี feature จานวนมากไม่สามารถทาได้ง่ายนัก มีโอกาสสูงที่จะสื่อความหมายผิดเพี้ยนไปจากความเป็นจริง โมดุลนี้จะได้เรียนรู้ถึงหลักการสร้าง visualization ที่เหมาะสมกับชนิดข้อมูลต่าง ๆ ข้อจากัดของการแสดงผล ข้อจากัดเมื่อนามาใช้กับข้อมูลขนาดใหญ่และวิธีการจัดการ รวมถึงได้ฝึกทา visualization ด้วยโปรแกรมสาเร็จรูป ด้วย Python และ ด้วย Spark
ความรู้ก่อนเรียน (Prerequisite knowledge)
- Module BD04: การประมวลผลข้อมูลขนาดใหญ่ด้วย SQL และ Spark
เนื้อหา (Learning Contents) :
- รูปแบบของ visualization
- รูปแบบของรูปทรงกับการรับรู้
- สีกับการรับรู้
- แนวทางในการทา visualization จากข้อมูลทั่วไป และข้อมูลขนาดใหญ่
- การฝึกทา visualization โดยใช้โปรแกรมสาเร็จรูป โดยใช้ Python และ โดยใช้ Spark
เมื่อมีข้อมูลมากขึ้นก็จะมีข้อมูลทั้งที่ดีและไม่ดีมากขึ้นด้วยเช่นกัน การเตรียมข้อมูลจึงมีความสำคัญมากเพื่อให้ขั้นตอนต่อไปสามารถนำไปวิเคราะห์ต่อได้อย่างมีประสิทธิภาพ โมดูลนี้จะเรียนรู้หลักการและฝึกใช้เครื่องมือที่ใช้ในการประมวลผลข้อมูลทั้งข้อมูลทั่วไปและเครื่องมือที่ใช้สำหรับข้อมูลขนาดใหญ่เพื่อใช้ในการเตรียมข้อมูลให้ได้ข้อมูลที่เหมาะสมที่สุด
ความรู้ก่อนเรียน (Prerequisite knowledge)
- Module BD02: การจัดการข้อมูลแบบมีโครงสร้างและกึ่งโครงสร้าง (Structured and semi-structured data ingestion and representation)
- Module DS02: การทำให้เห็นภาพ (Data visualization)
- Module BD04: การประมวลผลข้อมูลขนาดใหญ่ด้วย SQL และ Spark
เนื้อหา (Learning Contents) :
- สำรวจข้อมูลด้วยค่าทางสถิติและใช้ Visualization
- การจัดการกับข้อมูลสูญหาย หรือข้อมูลที่เกิดความผิดพลาด
- การระบุและแก้ปัญหาข้อมูลสุดโต่ง (Outlier)
- การทำข้อมูลให้มีค่าอยู่ในมาตรฐานเดียวกัน (Standardization)
- การแปลงข้อมูลให้อยู่ในรูปแบบที่เหมาะสม
- การเลือก feature ที่มีความสำคัญต่อการวิเคราะห์ข้อมูล
- การประมวลผลด้วยเครื่องมือช่วยสำหรับข้อมูลทั่วไป (Weka, Python) และข้อมูลขนาดใหญ่ (Hive, Spark)
การจัดกลุ่มข้อมูลได้เข้ามามีบทบาทอย่างมาก ในการระบุกลุ่มเป้าหมายที่เหมาะสมเพื่อให้การบริการตอบสนองกับความต้องการที่ต่างกันได้ดีที่สุด สามารถนำไปประยุกต์ใช้ได้หลากหลายไม่ว่าจะเป็น การแบ่งกลุ่มลูกค้าตามพฤติกรรม การตรวจสอบความผิดปกติของการใช้จ่ายหรือความผิดปกติของการทำงานของเครื่องจักรเป็นต้น โมดูลนี้จะมีการเรียนรู้และฝึกปฏิบัติการจัดกลุ่มข้อมูลเพื่อให้ได้กลุ่มข้อมูลที่เหมาะสมที่สุด ฝึกทำ visualization และตีความ เพื่อให้สามารถระบุกลุ่มเป้าหมายได้ง่ายและตรงกับความต้องการ รวมถึงแนวทางในการนำไปใช้
ความรู้ก่อนเรียน (Prerequisite knowledge)
- Module DS03: การเตรียมข้อมูล (Data Preprocessing)
เนื้อหา (Learning Contents) :
- แนวทางในการเลือก feature ที่จะช่วยให้การจัดกลุ่มมีความเหมาะสม
- วิธีการวัดความเหมือนของข้อมูล
- การทำข้อมูลให้อยู่ในมาตรฐานเดียวกัน
- วิธีการ จัดกลุ่มข้อมูล
- การประเมินผลการจัดกลุ่มเพื่อหาจำนวนกลุ่มที่เหมาะสม
- ไปป์ไลน์ของการจัดกลุ่มข้อมูล
- การทํา visualization และการตีความผลการจัดกลุ่มเพื่อใช้ประกอบการตัดสินใจ
- การนำไปใช้กับข้อมูลใหม่ในอนาคต
โมดูลนี้เป็นการเรียนรู้และฝึกสร้างแบบจำลองการทำนายข้อมูลที่มีค่าต่อเนื่อง โดยเริ่มจากการประเมินคุณลักษณะที่สำคัญกับการทำนาย เพื่อให้ได้แบบจำลองที่มีประสิทธิภาพดีที่สุด รวมถึงวิธีการฝึก วิธีการประเมิน และวิธีการนำเสนอผลของการวิเคราะห์เพื่อให้สามารถนำไปใช้กับสถานการณ์จริงได้อย่างมั่นใจ
ความรู้ก่อนเรียน (Prerequisite knowledge)
- Module DS03: การเตรียมข้อมูล (Data Preprocessing)
เนื้อหา (Learning Contents) :
- การเลือก feature ที่สำคัญต่อการตัดสินใจ
- การทำให้ข้อมูลอยู่ในมาตรฐานเดียวกัน
- แบบจำลองเพื่อทำนายข้อมูลที่มีค่าต่อเนื่อง
- วิธีการวัดประสิทธิภาพของผลการทำนาย
- ไปป์ไลน์ของการสร้างแบบจำลองเปิดทำนายข้อมูลที่มีค่าต่อเนื่อง
- การป้องกันและตรวจสอบการเกิด overfitting และ underfitting ในขณะฝึก Machine Learning model
- การแบ่งข้อมูลเพื่อใช้ในการตรวจสอบประสิทธิภาพ และจำลองการใช้งานจริง
- Visualization ของผลการทำนาย และการตีความเพื่อการนำเสนอ
- การนำไปใช้กับข้อมูลใหม่ในอนาคต
ปัจจุบันการใช้ AI ช่วยตัดสินใจเริ่มเข้ามามีบทบาทในชีวิตประจำวันมากขึ้นเรื่อย ๆ Machine Learning เป็นหนึ่งในเบื้องหลังที่สำคัญของความสำเร็จนั้น การสร้างแบบจำลองที่มีประสิทธิภาพ อาจต้องทำหลายขั้นตอน หลายรูปแบบ เพื่อเลือกรูปแบบที่ดีที่สุด ในโมดูลนี้จะช่วยให้เข้าใจ และสามารถสร้างแบบจำลองเพื่อทำนายประเภทของข้อมูลได้อย่างมีประสิทธิภาพ มีวิธีการวัดที่ชัดเจนในแต่ละขั้นตอนไม่ว่าจะเป็นการเลือกคุณลักษณะที่สำคัญ การเลือกโมเดล การประเมินผลการทำนาย การตีความหมายของโมเดลและผลการทำนาย ซึ่งทั้งหมดนี้จะได้ฝึกปฏิบัติทั้งเครื่องมือที่ใช้กับข้อมูลทั่วไปและเครื่องมือที่ใช้สำหรับข้อมูลขนาดใหญ่
ความรู้ก่อนเรียน (Prerequisite knowledge)
- Module DS03: การเตรียมข้อมูล (Data Preprocessing)
เนื้อหา (Learning Contents) :
- การเลือก feature ที่สําคัญต่อการตัดสินใจ
- แบบจำลองการเรียนรู้ของเครื่องแบบต่างๆ
- การวิเคราะห์แบบจำลองเพื่อทำข้อมูลให้อยู่ในรูปมาตรฐานเดียวกัน
- การวัดประสิทธิภาพของแบบจำลองจากผลการทำนาย
- ไปป์ไลน์ของการสร้างแบบจำลองเปิดทํานายประเภทของข้อมูล
- การป้องกันเเละการตรวจสอบการเกิด overfitting และ underfitting ขณะฝึกแบบจำลอง
- การแบ่งข้อมูลเพื่อตรวจสอบประสิทธิภาพและจําลองการใช้งานจริง
- Visualization และการตีความผลการทำนายเพื่อการนำเสนอ
- การนำไปใช้กับข้อมูลใหม่ในอนาคต
เมื่อมีข้อมูลรายการซื้อสินค้าของลูกค้า หรือรายการการเข้าใช้เว็บ รายการการเข้าดูสินค้า ข้อมูลเหล่านี้สามารถนำมาสร้างระบบแนะนำสินค้าหรือบริการ เพื่อให้ตรงกับความต้องการของผู้ใช้รายบุคคลได้ โมดูลนี้จะช่วยให้การวิเคราะห์ข้อมูลเหล่านั้น เพื่อนำมาสร้างระบบแนะนำที่มีประสิทธิภาพอย่างง่ายดายโดยใช้เครื่องมือสำหรับการจัดการข้อมูลขนาดใหญ่ รวมถึงเรียนรู้เกี่ยวกับวิธีการประเมินและเลือกกฏความสัมพันธ์ที่เหมาะสมเพื่อให้เกิดประสิทธิภาพสูงสุด
ความรู้ก่อนเรียน (Prerequisite knowledge)
- Module DS03: การเตรียมข้อมูล (Data Preprocessing)
เนื้อหา (Learning Contents) :
- หลักการวิเคราะห์กฎความสัมพันธ์
- การวัดความถี่ ความมั่นใจ และความขึ้นต่อกันของกฏความสัมพันธ์
- การเลือกกฏความสัมพันธ์เพื่อนำไปใช้ในระบบแนะนำ
- การประเมินประสิทธิภาพของระบบแนะนำ
- เครื่องมือและการแปลงข้อมูล
- ไปป์ไลน์ของการทำระบบแนะนำโดยใช้การวิเคราะห์กฏความสัมพันธ์
- แนวทางการนำไปใช้ในอนาคต
โมดูลนี้จะเรียนรู้วิธีการสร้างระบบแนะนำโดยใช้วิธีการกรองร่วมแบบต่าง ๆ ซึ่งนิยมใช้ในการสร้างระบบแนะนำเมื่อมีข้อมูลการปฏิสัมพันธ์ระหว่างผลิตภัณฑ์และลูกค้า เช่นความระดับความพึงพอใจของลูกค้าต่อผลิตภัณฑ์ เป็นต้น ซึ่งสามารถนำใช้งานได้ทั้งข้อมูลทั่วไปและข้อมูลขนาดใหญ่
ความรู้ก่อนเรียน (Prerequisite knowledge)
- Module DS03: การเตรียมข้อมูล (Data Preprocessing)
เนื้อหา (Learning Contents) :
- การทำนายความชอบโดยใช้พฤติกรรมของผู้ใช้ที่เหมือนกันเป็นฐาน
- การทำนายความชอบโดยใช้ผลตอบรับของสินค้าจากผู้ใช้เป็นฐาน
- การทำนายความชอบโดยใช้แบบจำลองการเรียนรู้ของเครื่อง
- การวัดประสิทธิภาพของระบบแนะนำ
- ไปป์ไลน์สำหรับการวิเคราะห์ข้อมูลของระบบแนะนำโดยใช้วิธีการกรองร่วม
- แนวทางการนำไปใช้
ในโมดูลนี้จะเป็นการวิเคราะห์ unstructured data โดยการวิเคราะห์ข้อความ ซึ่งจะได้เรียนรู้วิธีการสกัดคุณลักษณะเพื่อแปลงข้อความให้อยู่ในรูปของตัวเลขในรูปแบบต่าง ๆ ซึ่งสามารถนำไปใช้ในการสร้างแบบจำลองในการทำนายอารมณ์ หรือแม้แต่นำไปเป็น feature ประกอบกับข้อมูลอื่น เพื่อใช้ในการเพิ่มประสิทธิภาพการสร้างแบบจำลองการเรียนรู้ของเครื่อง หรือนำไปใช้สำหรับการสร้างแชทบอทเบื้องต้นได้ โมดูลนี้มีการฝึกปฏิบัติการสร้างแบบจำลองการทำนายอารมณ์โดยใช้เครื่องมือทั่วไปและเครื่องมือที่ใช้กับ Big Data
ความรู้ก่อนเรียน (Prerequisite knowledge)
- Module DS03: การเตรียมข้อมูล (Data Preprocessing)
เนื้อหา (Learning Contents) :
- การเตรียมข้อมูลให้อยู่ในรูปแบบข้อมูลแบบมีโครงสร้าง
- การแปลงข้อความเป็นเวกเตอร์ของตัวเลข
- การเลือกฟีเจอร์ที่สำคัญกับการวิเคราะห์
- ไปป์ไลน์ของการวิเคราะห์ข้อความ
- การใช้ Machine Learning model ช่วยในการวิเคราะห์ข้อความ
- แนวทางการนำไปใช้กับข้อมูลใหม่ในอนาคต
ภาพรวมของหลักสูตร
โมดูลกับวิชาเรียน
Advance data science tool
Visualization tool
Data ingestion and ETL tools
Other tool
Language
การให้คำปรึกษา
- ภาคทฤษฎีและปฏิบัติ ระหว่างวันที่ วันที่ 15 กันยายน 2562 – 26 เมษายน 2563
- เรียนทุกวันอาทิตย์ เวลา 09.00 – 16.00 น. ห้องปฏิบัติการ
คณะเทคโนโลยีสารสนเทศ มหาวิทยาลัยเทคโนโลยีพระจอมเกล้าธนบุรี
- เรียนทุกวันอาทิตย์ เวลา 09.00 – 16.00 น. ห้องปฏิบัติการ
- Worked Integrated Learning (WIL)
- ผู้เรียนเรียนรู้แก้ปัญหาจากโจทย์จริงของสถานประกอบการที่สังกัด ณ สถานประกอบการเต็มเวลา
จันทร์ – ศุกร์ (ธันวาคม 2562 – มีนาคม 2563) - ผู้สอนให้คำปรึกษาเพื่อร่วมแก้โจทย์ปัญหาจากสถานประกอบการ ตามนัดหมาย ทั้งหลังคลาสเรียนและการให้คำปรึกษาออนไลน์ผ่านทาง Microsoft Teams
- ผู้เรียนเรียนรู้แก้ปัญหาจากโจทย์จริงของสถานประกอบการที่สังกัด ณ สถานประกอบการเต็มเวลา
- ภาคทฤษฎีและปฏิบัติ ระหว่างวันที่ วันที่ 15 กันยายน 2562 – 26 เมษายน 2563
ผู้เชี่ยวชาญร่วมสอน
วิธีการวัดและประเมินผลของผลลัพธ์การเรียนรู้ (Learning Outcomes) ของหลักสูตร
1. ผลการทดสอบภาคทฤษฎีและปฏิบัติหลังเรียนจบแต่ละโมดูลเป็นรายบุคคล
- ผลทดสอบย่อยผู้เรียนรายบุคคล
2. ผลจากการฝึกปฏิบัติงานโดยมีโจทย์ปัญหาจากสถานประกอบการเป็นฐาน
- อาจารย์ที่ปรึกษาประเมินจากความก้าวหน้าของผลงาน
- พี่เลี้ยงฝั่งสถานประกอบการประเมินผลกระทบ/คุณค่าจากผลงานที่เกิดขึ้นกับองค์กร
การรับผลป้อนกลับ
- การรับผลป้อนกลับจากผู้เรียนเมื่อเรียนจบแต่ละโมดูล ผ่านแบบประเมินการเรียนการสอนและระหว่างการให้คำปรึกษา
เพื่อนำมาใช้ปรับปรุงการเรียนการสอนระหว่างโครงการ - การรับผลป้อนกลับจากพี่เลี้ยงฝั่งสถานประกอบการ ถึงประโยชน์ที่เกิดขึ้นกับผู้เรียนและองค์กร
ผ่านแบบประเมินผลงานและการสัมภาษณ์
- การรับผลป้อนกลับจากผู้เรียนเมื่อเรียนจบแต่ละโมดูล ผ่านแบบประเมินการเรียนการสอนและระหว่างการให้คำปรึกษา