Shinkansen stations in Japan dataset
การจะวิเคราะห์ข้อมูลบางทีก็ไม่ได้ยากหรือซับซ้อนหลายขั้นตอนเสมอไป หัวใจสำคัญมีอยู่ 3 อย่างคือ
1. ความรู้ความเข้าใจเกี่ยวกับข้อมูลที่ใช้งาน
2. การตั้งคำถามที่ดี เพื่อให้ insight ที่ดี
3. การเลือกใช้เครื่องมือ (Tools) ให้เหมาะสมกับงาน
บทความนี้ผมจะมาสอนการวิเคราะห์ข้อมูลแบบง่ายๆ เพื่อตอบคำถามจาก Trip ที่ผ่านมากันครับ
เวลาเราไปเที่ยวญี่ปุ่นผมมักจะซื้อ JR Pass เพื่อใช้นั่งรถไฟเวลาเดินทางครับเพราะมันคุ้มกว่าการซื้อตั๋วแยกเดี่ยวๆ มากเลยครับ และ รถไฟ Shinkansen ก็เป็นหนึ่งในทางเลือกที่ชาวเราต้องมาลองนั่งให้ได้สักครั้งในชีวิต ซึ่งมันเร็วมากจริงๆเวลาต้องการนั่งแบบข้ามภูมิภาค (เคยโดนสายการบินในประเทศเท flight จาก Hokkaido ไป Tokyo แต่ก็ได้ JR Pass นี่แหละช่วยชีวิตนั่ง Shinkansen กันยาวๆ 7 ชม. กลับมาเจอเพื่อที่นัดกันไว้ที่ Tokyo 555+)
ผมเลือก Shinkansen_stations_inJapan dataset จาก kaggle ตามลิ้งนี้เลย
https://www.kaggle.com/datasets/japandata509/shinkansen-stations-in-japan
หน้าตาของ dataset ที่ผู้ลงได้ prep เอาไว้ให้เราแล้วก็จะสวยงามตามรูปด้านล่างเลย
(ใครทำงานสาย Data จะรู้ว่า ชีวิตจริง data มันไม่ได้มาเรียบร้อยสวยงามเหมือนตัวอย่างนี้หรอกนะครับ 5555+)

ข้อมูลที่ดี เริ่มมาจากการตั้งคำถามที่ดี
สิ่งหนึ่งก่อนที่เราจะวิเคราะห์ data เลยก็คือเราต้องการที่จะ “รู้อะไร” จาก data ที่เรามีตัวนี้ ดังนั้นการรู้จักการ “การตั้งคำถาม” จึงเป็น skill ที่คนจะวิเคราะห์ข้อมูลต้องฝึกกันไว้นะครับ
งั้นเรามาฝึกการตั้งคำถามไปด้วยกันเลยครับ
- 5 อันดับแรกของ Shinkansen station ที่อยู่ไกลจาก Tokyo ที่สุดคือสถานนีไหนบ้าง?
- รถไฟ Shinkansen สายไหนที่ผ่านสถานีเยอะที่สุด?
การจะวิเคราะห์ข้อมูลนั้น ไม่ได้จำเป็นที่จะต้องใช้ program ที่มันอลังการหรือ เฉพาะทางเสมอไป ขึ้นอยู่กับจำนวนข้อมูล และลักษณะข้อมูลที่เรานำมาใช้งาน ดังนั้นแนะนำให้เลือก “ท่าที่ simple” ที่สุดครับ
ครั้งนี้ผมเลือกใช้ google sheet ที่คนทำงานออฟฟิศทั่วไปที่คุ้นเคยกับ Microsoft Excel ก็สามารถใช้ได้ง่ายๆ ครับเพียงแต่ ศึกษาเรื่องการทำ pivot table, pivot chart ก็จะช่วยให้งานเราง่ายขึ้นเยอะครับ
สำหรับใครที่ยังไม่เคยใช้งาน Google sheet ให้ไปสมัครใช้งานตาม link นี้ได้เลยคร้าบบ
https://docs.google.com/spreadsheets/create?hl=th
Question1: 5 อันดับแรกของ Shinkansen station ที่อยู่ไกลจาก Tokyo ที่สุดคือสถานนีไหนบ้าง?
1. Import data
เข้าไปที่หน้า google sheet แล้วเลือก file > import เพื่อ import dataset ที่เราโหลดมาจาก kaggle ลงไปครับ

เลือก upload > เลือก file dataset > open > สุดท้ายเลือก import

ข้อมูล dataset ก็จะมาอยู่ใน google sheet เราเรียบร้อย (อย่าลืมคลิกตั้งชื่อไฟล์เราด้วยนะ)

2. Create pivot table
คลิกที่ cell A1 แล้วกด Ctrl+A เพื่อเลือกทั้งตาราง

เลือก Data > Named ranges เพื่อตั้งชื่อ ตาราง (table) ของเรา

เลือก Add range > ตั้งชื่อ table ให้เรียบร้อย

เลือก Insert > Pivot table

ให้ใส่ range ของ data เราลงไป (หรือให้เลือกรูปตารางสี่เหลียมทางด้านขวา จะทำให้เราเลือกคลุม cell เองได้ และ google sheet ยังฉลาดที่จะ suggest range ให้เราเลือกเลยก็ได้ครับ)
เสร็จแล้วให้เลือก Insert to > New sheet เพื่อให้ pivot table เราไปขึ้นที่ sheet ใหม่ แล้วเลือก Create


Pivot table ของเราจะขึ้นเป็นตารางเปล่าๆ ใน sheet ใหม่

มาถึงตรงนี้ผมอยากจะให้เพื่อนไปศึกษาเพื่อเติมในเรื่องของ measure และ dimension กันด้วยนะครับ สามารถเข้าไปศึกในหัวข้อ Dimension and Measure ตามลิ้งนี้ได้เลย การสร้าง Dashboard เบื้องต้น แต่หากอยากลองทำตามไปก่อนก็ได้เช่นกัน ไปลุยกันเลยย
ให้ Add Rows, Columns, Values ตามตัวอย่างด้านล่างนี้ได้เลยครับ

จากนั้น คลิกขวาที่ cell C1 > เลือก Create a filter

3. Transform data
เปลี่ยน Sort by ของ Station_Name เป็น Sum of Distance from Tokyo station

เลือก Order ทั้ง Station_Name และ Prefecture เป็น Descending เพื่อเรียงจาก มากไปน้อย (Ascending order คือเรียงจาก น้อยไปมา นะครับ)

เราจะได้ระยะทางที่เรียงลำดับจากมากไปน้อยสุดครับ

Question 2: รถไฟ Shinkansen สายไหนที่ผ่านสถานีเยอะที่สุด?
คำถามนี้เราจะมาปรับ pivot table ของเรานิดหน่อยเพื่อจับกลุ่มจำนวนสถานีในแต่ละสายรถไฟ (Stations Group by line)
ให้นำข้อมูล Station_Name และ Prefecture ออกไปจากตารางโดยการกดปิด ให้เหลือแต่ Shinkansen_Line

ในส่วนของ Values (Distance from Tokyo st) ให้เลือก COUNT ในช่อง Summarize by

ในส่วน Shinkansen_Line ให้ตั้ง เป็น Descending Order และ Sort by COUNT of Distance from Tokyo st
แล้วเราก็จะได้จำนวนสถานีแยกตามสายรถไฟจากมากไปน้อย (ง่ายจนงงงง)


4. Create pivot chart
ทีนี้มาลองนำจำนวนสถานีแยกตามสายรถไฟ มาทำเป็นกราฟ (visualization) เพื่อให้ดูเข้าใจง่ายขึ้นกันครับ
ให้คลิกที่ cell ไหนก็ได้ที่อยู่ในตาราง pivot table ของเรา จากนั้น เลือก Insert > Chart แค่นี้ เราก็จะได้กราฟขึ้นมาง่ายๆเลย (คลิ๊กแค่ 3 ที เองงงง)


เราได้อะไรจากข้อมูลนี้บ้าง?
- กลับมาที่คำถามของเรานะครับ Q1: 5 อันดับแรกของ Shinkansen station ที่อยู่ไกลจาก Tokyo ที่สุดคือสถานนีไหนบ้าง? จาก pivot table แรกจะเห็นว่าสถานีที่อยู่ไกลที่คือ Kagoshima-Chuo station ที่ เกาะ Kyushu ทางใต้ของประเทศญี่ปุ่นนะคร้าบ
- นอกจากนั้น 5 อันดับแรกของเราก็อยู่บนเกาะ Kyushu ทั้งหมด ซึ่งหมายความว่า “เส้นทางรถไฟ Shinkansen สายใต้ เป็นสายที่ยาวที่สุดในญึ่ปุ่น” (ความรู้ใหม่เลยนะเนี่ยย)


- ส่วน Q2: รถไฟ Shinkansen สายไหนที่ผ่านสถานีเยอะที่สุด? ดูข้อมูลเร็วๆจากกราฟตอบได้เลยครับ นั่นก็คือ! สาย Tohoku Shinkansen นั่นเอง ซึ่งปลายทางของสายนี้จะไปสุดที่ Shin-Aomori station (อ้างอิงจากข้อมูลไม่นับที่วิ่งต่อสาย Hokkaido นะคร้าบ)


Google sheet เป็น tool ตัวนึงในการวิเคราะห์ข้อมูลจำนวนไม่มากได้ดีเลย ที่สำคัญคือ”ฟรี”ด้วยนี่แหละ แค่มีเน็ตก็ใช้งานหรือแชร์ให้เพื่อนของเราได้แล้ว เพื่อนๆลองไปใช้งานกันดูนะคร้าบไว้โพสหน้าจะหาข้อมูลอย่างอื่นมาฝึกวิเคราะห์กันนะครับ
สำหรับเพื่อนๆที่อยากตามการเดินทางของเราทริปนี้สามารถไปตามลิ้งนี้ได้เลยครับบ
https://datatrippu.com/2024/04/17/osaka-nagano-tokyo-newyear
