วันพุธที่ 19 มกราคม พ.ศ. 2554

AI613 Lecture: Class 09 (19/01/2011)


Data Management (Cont’d) and Business Intelligence

Data Management (Cont’d)
Data warehouse suitability
การเก็บคลังข้อมูลเหมาะสำหรับองค์กรที่มีลักษณะดังต่อไปนี้
  • ข้อมูลจำนวนมากจำเป็นต้องถูกเข้าถึงโดยผู้ใช้ปลายทาง
  • ข้อมูลปฏิบัติการถูกเก็บไว้ในหลายระบบ
  • มีการบริหารโดยวิธีที่อาศัยข้อมูลเป็นพื้นฐาน
  • มีฐานลูกค้าที่ใหญ่และหลากหลาย
  • ข้อมูลเดียวกันถูกนำเสนอแตกต่างกันในระบบที่แตกต่างกัน
  • ข้อมูลถูกเก็บอยู่ในรูปแบบทางเทคนิค ซึ่งยากที่จะถอดรหัส
  • มีการคำนวณอย่างกว้างขวางของผู้ใช้ข้อมูล

Data warehouse process
นำข้อมูลปฎิบัติการหรือข้อมูลภายนอกมาเข้าสู่ขั้นตอน Data staging หรือ ETL คือ Extract, Clean (กำจัด attribute ที่ไม่จำเป็น), Transform (ทำให้อยู่ในรูปแบบที่นำไปใช้ประโยชน์ได้), และ Load (โหลดข้อมูลที่ได้จากการแปลงลง Data cube) จากนั้นเก็บข้อมูลในคลังข้อมูล และนำมาใช้ในหัวข้อต่างๆทางธุรกิจ หลังจากนั้นก็นำเสนอผลที่ได้จากการวิเคราะห์ข้อมูลในรูปแบบต่างๆ เพื่อทำการตัดสินใจต่อไป โดยอาจใช้ Dashboard ช่วยในการนำเสนอ

Metadata
เป็นข้อมูลที่เกี่ยวกับข้อมูล สร้างขึ้นจากข้อมูลปฏิบัติการและข้อมูลภายนอก ซึ่งจะให้สารสนเทศเกี่ยวกับเนื้อหาของคลังข้อมูล รวมถึงแนวทางการเคลื่อนย้ายข้อมูลไปยังคลังข้อมูล กฎสำหรับการสรุปข้อมูล ศัพท์ทางธุรกิจที่ใช้ในการอธิบายข้อมูล เทคโนโลยี และกฎในการคัดแยกข้อมูล

The data mart
เป็นรูปแบบของคลังข้อมูลที่ขนาดเล็กลง ออกแบบมาเพื่อใช้ในหน่วยธุรกิจเชิงกลยุทธ์ (SBU) หรือแผนก และเนื่องจากมีข้อมูลน้อยกว่าคลังข้อมูล จึงสามารถตอบสนองได้อย่างรวดเร็วและสามารถค้นหาตำแหน่งได้ง่ายกว่าคลังข้อมูล
Data marts มี 2 ชนิด คือ
  1. Replicated data mart: เป็นส่วนย่อยขนาดเล็กของคลังข้อมูล ชนิดนี้จะเป็นการคัดลอกข้อมูลส่วนย่อยของคลังข้อมูลมาไว้ใน Data marts ที่มีขนาดเล็กกว่า โดยแต่ละ Data mart ก็ใช้สำหรับหน้าที่งานหรือแผนกหนึ่งโดยเฉพาะ
  2. Stand-alone data marts: เป็น Data marts อิสระแบบไม่อาศัยคลังข้อมูล โดยทั่วไปใช้ในด้านการตลาด การเงิน และวิศวกรรม ซึ่ง Data marts ชนิดนี้จะยากที่จะนำมารวมเป็นคลังข้อมูลในภายหลัง

The data cube
คือฐานข้อมูลที่มีหลายมิติ หรือเรียกว่า OLAP ซึ่งเป็นที่เก็บข้อมูลที่จัดข้อมูลในมิติต่างๆ เช่น พื้นที่การขาย ไลน์สินค้า พนักงายขาย หรือเวลา Cube จะช่วยให้สามารถสืบค้น แบ่ง รวบรวม และเจาะลึกข้อมูลได้รวดเร็วยิ่งขึ้น

Business Intelligence
เป็นการรวบรวมสถาปัตยกรรม เครื่องมือ ฐานข้อมูล โปรแกรมคอมพิวเตอร์ และระเบียบวิธีเข้าด้วยกัน เพื่อให้เกิดการเข้าถึงข้อมูลเชิงโต้ตอบ จัดการข้อมูล และการวิเคราะห์ข้อมูลที่เหมาะสมสำหรับผู้บริหารและนักวิเคราะห์ ด้วยกระบวนการแปลงข้อมูลเป็นสารสนเทศ จากนั้นก็นำไปสู่การตัดสินใจ และสู่การปฏิบัติจริงต่อไป

Enterprise reporting systems
  • ให้รายงานที่มีมาตรฐาน
  • ลดข้อมูลแฝง
  • ลดเวลาที่ต้องใช้ในการเก็บข้อมูล เพิ่มเวลาในการวิเคราะห์ข้อมูลเพื่อการตัดสินใจที่ดีขึ้น

Dashboards & Scorecards
  • Dashboard โดยทั่วไปเป็นการปฎิบัติและกลวิธีในการใช้งาน เป็นตัวนำเสนอออกมาเป็นรูปภาพในการติดตามผลการดำเนินงานในการปฏิบัติการ
  • Scorecards ผู้ใช้งานมักเป็นผู้บริหารระดับสูงหรือพนักงานในระดับกลยุทธ์
    • Balance scorecard เป็นทั้งเครื่องมือวัดผลการดำเนินงาน ตารางความคืบหน้า เปรียบเทียบผลที่ได้จริงกับเป้าหมายที่วางไว้ และยังเป็นระเบียบวิธีการบริหาร ที่จะช่วยแปลการเงิน ลูกค้า กระบวนการภายใน และการเรียนรู้ของอค์กรออกมาในรูปแบบของการดำเนินการในทางปฏิบัติ และยังเป็นการทำให้การปฎิบัติงานขององค์กรสอดคล้องกับกลยุทธ์องค์กรโดยรวมด้วย

Business performance management
ต้องอาศัยวิธีที่จะประเมินผลการดำเนินงานกับเป้าหมาย วัตถุประสงค์ และความสอดคล้องกับกลยุทธ์ ได้ง่ายและเร็ว
ขึ้นอยู่กับรายงานการวิเคราะห์ การสืบค้น dashboards และ scorecards

OLAP
เทคโนโลยีที่ทำให้นักวิเคราะห์ และผู้บริหาร ได้เห็นข้อมูลในรูปแบบต่างๆ ผ่านช่องทางเชิงโต้ตอบที่รวดเร็วและสอดคล้องกัน
ช่วยระบุปัญหา บทวิเคราะห์ไม่ซับซ้อนมากนัก

Data mining
  • กระบวนการคัดแยกสารสนเทศที่ไม่มีใครรู้มาก่อน สามารถเข้าใจได้ และนำไปปฎิบัติได้ จากฐานข้อมูลขนาดใหญ่และใช้ในการตัดสินใจทางธุรกิจที่สำคัญ
  • คาดการณ์แนวโน้มโดยอัตโนมัติ 
  • ค้นพบรูปแบบที่ไม่มีใครรู้มาก่อนโดยอัติโนมัติ

Text mining  
เป็นโปรแกรม data mining สำหรับไฟล์เนื้อหาที่ไม่มีโครงสร้างหรือมีโครงสร้างน้อย เพื่อค้นหาเนื้อหาที่ซ่อนอยู่ของเอกสารหรือความสัมพันธ์ เช่น ค้นพบว่าลูกค้าที่อยู่คนละสายผลิตภัณฑ์มีคุณลักษณะที่เหมือนกัน โดยโปรแกรมนี้จะช่วยตรวจจับ e-mail spam หรือ phishing ผ่านการวิเคราะห์เนื้อหาเอกสารด้วย

วันพฤหัสบดีที่ 13 มกราคม พ.ศ. 2554

AI613 Lecture: Class 08 (12/01/2011)


Data Management

ระบบสารสนเทศ คืออะไร?
องค์ประกอบของระบบ 
  • วัตถุประสงค์
  • ส่วนประกอบ 
    • กระบวนการทำงานของระบบ ได้แก่ Inputs -> Process -> Outputs
เว็บไซท์อย่าง Twitter, Facebook, www.tbs.tu.ac.th, และ Google นั้นยังไม่ถือเป็นระบบสารสนเทศ ส่วนเว็บไซท์ที่เป็นตัวอย่างของระบบสารสนเทศ ได้แก่ Amazon เป็นต้น

การจัดการข้อมูลทำได้ยากด้วยสาเหตุต่างๆ เช่น
  • ข้อมูลเพิ่มขึ้นอย่าง exponential ตามเวลา 
  • ข้อมูลเกิดที่จุดที่งานเกิด จึงมีการกระจายอยู่ทุกส่วนขององค์กร 
  • ข้อมูลซ้ำซ้อนถูกสร้าง และเก็บ และใช้งานโดยไม่มีการควบคุมคุณภาพที่เพียงพอ ซึ่งแต่ละหน่วยงานก็จะมีลักษณะเฉพาะแตกต่างกันไป 
  • ข้อมูลภายนอกจำเป็นต้องถูกนำมาประกอบการพิจารณาในการตัดสินใจระดับองค์กร 
  • ความปลอดภัย และคุณภาพของข้อมูลเป็นสิ่งสำคัญมาก 
  • การเลือกเครื่องมือในการจัดการข้อมูลก็อาจเป็นปัญหาใหญ่ได้

เป้าหมายในการจัดการข้อมูลคือแปลงข้อมูลดิบให้เป็นสารสนเทศที่มีคุณภาพมากที่สุดสำหรับองค์กร ซึ่งจะสามารถสร้างได้นั้นจะต้องมี 4 องค์ประกอบนี้
  1. Data profiling: ทำความเข้าใจกับข้อมูล ข้อมูลอยู่ที่ไหน ใครเป็นเจ้าของ 
  2. Data quality management: พัฒนาคุณภาพของข้อมูล  
  3. Data integration: รวมข้อมูลที่เหมือนกันจากหลายๆแหล่งเข้าด้วยกัน 
  4. Data augmentation: พัฒนาคุณค่าของข้อมูล นำไปใช้ให้ตรงเป้าหมาย

Data Life Cycle Process
  1. การเก็บข้อมูลใหม่เกิดขึ้นจากหลายแหล่งข้อมูล ทั้ง Internal Data, External Data, และ Personal Data ซึ่งคือข้อมูลที่พนักงานใช้ เป็นความรู้อยู่ในระบบ Knowledge Management
  2. ข้อมูลจะถูกเก็บชั่วคราวในฐานข้อมูล จากนั้นนำไปประมวลผลก่อนเพื่อให้รูปแบบสอดคล้องกับคลังข้อมูลขององค์กร
  3. ผู้ใช้เข้าถึงคลังข้อมูลและคัดลอกข้อมูลที่ต้องการไปใช้ในการวิเคราะห์
  4. วิเคราะห์ข้อมูลเพื่อการบริหารด้วย Data analysis tools หรือ Data mining tools
ตั้งแต่ขั้นที่ 2 เป็นต้นไปจะเป็นกระบวนการที่สร้าง Value ให้กับข้อมูล ซึ่งทุกอย่างไม่จำเป็นต้องอยู่ในระบบ Computerize เสมอไป แต่ถ้ามีก็จะช่วยในการอำนวยความสะดวก

Data Warehouses (คลังข้อมูล) เป็น inputs ของ Data mining แต่ไม่ใช่ Database หลายอันรวมกันเป็นขนาดใหญ่
วัตถุประสงค์ของ Data warehouse คือเพื่อจัดตั้งเป็นที่เก็บข้อมูล ที่ทำให้เข้าถึงข้อมูลปฏิบัติการได้ในรูปแบบที่พร้อมใช้ในกระบวนการวิเคราะห์ โดยประโยชน์หลักๆของ Data warehouses ได้แก่ สามารถเข้าถึงข้อมูลได้อย่างรวดเร็ว เนื่องจากถูกเก็บไว้ในที่เดียว และสามารถเข้าถึงได้ง่าย และบ่อยด้วยตัวผู้ใช้เอง โดยผ่าน Web browsers
Data warehouse ไม่จำเป็นต้องมีในทุกองค์กร แต่องค์กรที่ต้องอาศัยข้อมูลในการตัดสินใจวิเคราะห์บ่อยๆ หรือเป็น Information-based organization ควรมี Data warehouse

Characteristics of Data Warehouses
  1. Organization: ข้อมูลถูก organize แบบ Subject-oriented
  2. Consistency: ข้อมูลจากฐานข้อมูลต่างๆอาจถูกเข้ารหัสไว้แตกต่างกัน แต่ในคลังข้อมูลจะถูกเข้ารหัสไว้ในรูปแบบเดียวกัน
  3. Time variant: ข้อมูลถูกเก็บไว้เป็นช่วงเวลา 5 ถึง 10 ปี ดังนั้นจึงสามารถดูแนวโน้ม พยากรณ์ และเปรียบเทียบได้ตามระยะเวลา
  4.  Non-volatile: เมื่อเข้าสู่คลังข้อมูลแล้ว ข้อมูลเหล่านั้นจะไม่มีการอัพเดทหรือเปลี่ยนแปลงใดๆทั้งสิ้น จะมีเพียงการเพิ่มเติม หรือ Refresh data เท่านั้น
  5. Relational: คลังข้อมูลใช้โครงสร้างเชิงสัมพันธ์ แฟ้มข้อมูลมีความสัมพันธ์เชื่อมโยงกันอยู่ การเรียกหาข้อมูลในแฟ้มหนึ่งจะโยงไปหาแฟ้มอื่นได้
  6. Client/Server: คลังข้อมูลใช้ Client หรือ Server เพื่อให้ผู้ใช้ข้อมูลสามารถเข้าถึงข้อมูลได้ง่าย