หน้าเว็บ

3.การสืบค้นข้อมูลสารสนเทศ

ความหมายของ search engine
            Search Engine คือ เครื่องมือการค้นหาข้อมูลผ่านอินเตอร์เน็ต ที่ทุกคนสามารถหาข้อมูลผ่านอินเตอร์เน็ตก็ได้ โดยกรอก ข้อมูลที่ต้องการค้นหา หรือ Keyword (คีย์เวิร์ด) เข้าไปที่ช่อง Search Box แล้วกด Enter แค่นี้ข้อมูลที่เราค้นหาก็จะถูกแสดงออกมาอย่างมากมาย เพื่อให้เราเลือกข้อมูลตรงกับความต้องการของเรามากที่สุด โดยลักษณะการแสดงผลของ Search Engine นั้นจะทำการแสดงผลแบบ เรียงอันดับ Search Results ผ่านหน้าจอคอมพิวเตอร์ของเรา

ประเภทของ search engine
1. แบบอาศัยการเก็บข้อมูลเป็นหลัก (Crawler-Based Search Engine)
              หลักการนี้เป็นการใช้เครื่องมือที่เรียกว่า Crawler-Based Search Engine เป็นเครื่องมือที่ทำการบันทึกและเก็บข้อมูลเป็นหลัก ซึ่งเป็นประเภท Search Engine ที่ได้รับความนิยมมากที่สุดในปัจจุบันซึ่งการทำงานประเภทนี้ จะใช้โปรแกรมตัวเล็ก ๆ ที่เรียกว่าWeb Crawler หรือ Spider หรือที่เรียกอีกอย่างว่า Search Engine Robots หรือที่เรียกสั้น ๆ ว่า บอท ในภาษาไทย www คือเครือข่ายใยแมงมุม ตัวโปรแกรมเล็ก ๆ ตัวนี้ก็คือแมงมุมนั่นเอง โดยเจ้าแมงมุมตัวนี้จะทำการไต่ไปยังเว็บไซต์ต่าง ๆ ทั่วโลกอินเตอร์เน็ต โดยอาศัยไต่ไปตาม URL ต่าง ๆ ที่มีการเชื่อมโยงอยู่ในแต่ละเพจ แล้วทำการ Spider กวาดข้อมูลที่จำเป็นต่าง ๆ (ขึ้นอยู่กับ Search Engine แต่ละที่ว่าต้องการเก็บรวบรวมข้อมูลอะไรบ้าง) แล้วเก็บลงฐานข้อมูล การใช้โปรแกรมกวาดข้อมูลแบบนี้ จึงทำให้ข้อมูลที่ได้มีความแม่นยำ และสามารถเก็บรวบรวมข้อมูลได้เร็วมาก Search Engine ที่เป็นประเภทนี้ เช่น Google Yahoo MSN
2. แบบสารบัญเว็บไซต์ (Web Directory)
             Search Engine ที่เป็นแบบนี้มีอยู่หลายเว็บไซต์มาก ๆ ที่ดังที่สุดในเมืองไทย ที่เอ่ยออกไปใครใครคงต้องรู้จัก นั้นก็คือที่สารบัญเว็บของ Sanook.com ซึ่งหลาย ๆ คนคงเคยเข้าไปใช้บริการ หรืออย่างที่ Truehits.com เป็นต้น สิ่งที่เราจะสังเกตเห็นจาก Search Engine ประเภทนี้ก็คือ ลักษณะของการจัดเก็บข้อมูลที่แสดงให้เราเห็นทั้งหมด ว่ามีเว็บอะไรบ้างอยู่ในฐานข้อมูล ซึ่งแตกต่างจากประเภทแรก ที่หากคุณไม่ค้นหาโดยใช้คำค้น หรือ Keyword แล้ว คุณจะมีทางทราบเลยว่ามีเว็บไซต์อะไรอยู่บ้าง และมีเว็บอยู่เท่าไหร่ แบบสารบัญเว็บไซต์ จะแสดงข้อมูลที่รวบรวมเว็บไซต์ที่มีทั้งหมดในฐานข้อมูล และจะแบ่งเป็นหมวดหมู่ และอาจจะมีหมวดหมู่ย่อย ซึ่งผู้ค้นหาข้อมูลสามารถคลิกเข้าไปดูได้ หลักการทำงานแบบนี้ จะอาศัยการเพิ่มข้อมูลจากเจ้าของเว็บไซต์ต่าง ๆ ที่ต้องการประชาสัมพันธ์เว็บ หรืออาจใช้เจ้าหน้าที่ที่ดูแลส่วน Search Engine เป็นผู้หาข้อมูลเว็บไซต์มาเพิ่มในฐานข้อมูล ซึ่งข้อมูลในส่วนของสารบัญเว็บไซต์จะเน้นในด้านความถูกต้องของฐานข้อมูล ซึ่งข้อมูลเว็บไซต์ที่ถูกเพิ่มเข้ามาจะถูกตรวจสอบและแก้ไขจากผู้ดูแล
3. แบบอ้างอิงในคำสั่ง Meta Tag (Meta Search Engine )
             Search Engine ประเภทนี้จะอาศัยข้อมูลใน Meta tag ซึ่งเป็นส่วนของข้อมูลที่อยู่ในแท็ก HEAD ของภาษา HTML ซึ่งข้อมูลในส่วนนี้ จะเป็นส่วนที่ให้ข้อมูลกับ Search Engine Robots 
Search Engine ประเภทนี้ไม่มีฐานข้อมูลของตนเอง แต่จะอาศัยข้อมูลจาก Search Engine Index Server ของที่อื่น ๆ ซึ่งข้อมูลจะมาจาก Server หลาย ๆ ที่ ดังนั้น จึงมักได้ผลลัพธ์จากการค้นหาที่ไม่แม่นยำ ตัวอย่างเว็บที่ใช้งานประเภทนี้ metacrawler.com

เทคนิคการสืบค้นข้อมูล
        เพื่อประหยัดเวลาในการสืบค้น ได้ข้อมูลในปริมาณไม่มากเกินไป และได้ผลการสืบค้นที่ตรงตามประสงค์ของผู้สืบค้น สามารถใช้เทคนิคเหล่านี้ ได้แก่

1. เลือก Search Engine ที่เหมาะสม
2. เลือกเว็บไซต์ที่อยู่ใกล้และอยู่ในช่วงเวลาที่เหมาะสม
3. การเลือกใช้คำสำคัญ (Keyword) หรือหัวเรื่อง(Subject) ที่ตรงกับเรื่องที่ต้องการ
4. กำหนดขอบเขตของคำค้น โดยใช้ตัวเชื่อมบูลีน(Boolean Operators) เช่น AND OR NOT
NEAR BEFORE เป็นต้น หรือการค้นวลี(Phrase Searching) การตัดคำ หรือการใช้คำเหมือน ดังต่อไปนี้ 
      4.1 Boolean Operators
- AND หรือ เครื่องหมาย + ใช้เมื่อต้องการให้ค้นเอกสารที่มีคำทั้งสองคำปรากฏ เช่น
ค้นหาคำว่า Research AND Thailand ข้อมูลที่ได้จะมีเฉพาะคำว่า Research และ Thailandอยู่ในเอกสาร
- OR ใช้เมื่อต้องการค้นหน้าเอกสารที่มีคำใดคำหนึ่งปรากฏ เช่น Research OR
Thailand ข้อมูลที่ได้จะมีคำใดคำหนึ่งหรือมีทั้งสองคำปรากฏอยู่ในเอกสาร
- NOT หรือ เครื่องหมาย – ใช้เมื่อต้องการตัดคำที่ไม่ต้องการให้ค้นออก (คำหลัง NOT
หรือ เครื่องหมาย -) เช่น Research NOT Thailand ข้อมูลที่ได้จะมีคำว่า Research แต่จะไม่มีคำว่า
Thailand อยู่ในเอกสาร
- NEAR ใช้เมื่อต้องการให้คำที่กำหนดอยู่ห่างจากกันไม่เกิน 10 คำ ในประโยคเดียวกัน
หรือใกล้เคียงกัน (อยู่ด้านหน้าหรือหลังก็ได้) เช่น Research NEAR Thailand ข้อมูลที่ได้จะมีคำว่า Research และ Thailand ที่ห่างกันไม่เกิน 10 คำ ตัวอย่างเช่น Research on the Cost of Transportation in Thailand
- BEFORE ใช้เมื่อต้องการกำหนดให้คำแรกปรากฏอยู่ข้างหน้าคำหลังในระยะห่างไม่เกินคำ เช่น Research BEFORE Thailand
- AFTER ใช้เมื่อต้องการกำหนดให้คำแรกปรากฏอยู่ข้างหลังคำหลังในระยะห่างไม่เกิน 8คำ เช่น Research AFTER Thailand
- (parentheses) ใช้เมื่อต้องการกำหนดให้ทำตามคำสั่งภายในวงเล็บก่อนคำสั่งภายนอก เช่น (Research OR Quantitative) and Thailand

        4.2 การค้นวลี (Phrase searching)
เป็นการใช้เครื่องหมายอัญประกาศ (“ ”) เมื่อต้องการกำหนดให้ค้นเฉพาะหน้าเอกสารที่มีการเรียงลำดับคำตามที่กำหนดเท่านั้น เช่น “Methodology Research”

       4.3 การตัดคำ (Word stemming / Truncation)
เป็นการใช้เครื่องหมาย asterisk (*) ตามท้ายคำ คำขึ้นไป เพื่อค้นหาคำที่ขึ้นต้นด้วยตัวอักษรที่กำหนด เช่น Research*

      4.4 คำพ้องความหมาย (Synonym)
เป็นการใช้คำเหมือนที่มีความหมายเดียวกันหรือใกล้เคียงกันเพื่อช่วยให้ค้นเรื่องที่ครอบคลุม เช่น Ocean Sea Marine

      4.5 เขตข้อมูลเพื่อการค้น (Field Searching)
เป็นการกำหนดเขตข้อมูลเพื่อการค้น เช่น ชนิดของข้อมูล หรือที่อยู่ของข้อมูล เป็นต้น
เช่น text: “green tea” url: NASA

     4.6 ตัวเล็กตัวใหญ่ถือว่าต่างกัน (Case sensitive)
เป็นการใช้ตัวอักษรใหญ่กับตัวเล็กในความหมายที่แตกต่างกัน เช่นใช้ตัวอักษรใหญ่ขึ้นต้นชื่อเฉพาะ เช่น George W. Bush

     4.7 ภาษาธรรมชาติ (Natural Language)
เป็นการสืบค้นจากคำถามที่เป็นภาษาธรรมชาติ เช่น ใช้คำถามภาษาอังกฤษง่ายๆ ที่ต้องการให้ Search Engine หาคำตอบให้ เช่น What is Research?

การใช้งาน google
               Google เป็นเว็บไซต์ฐานข้อมูลที่ใหญ่มากแห่งหนึ่งของโลก ในอดีตเป็นบริษัทที่ดำเนินการด้านฐานข้มูลเพื่อให้บริการแก่เว็บไซต์ค้นหา อื่นๆ ปัจจุบันได้เปิดเว็บไซต์ค้นหาเอง ด้วยฐานข้มูลมากกว่าสามพันล้านเว็บไซต์และเพิ่มขึ้นเรื่อยๆ ทุกวัน ที่เหนือกว่าผู้ให้บริการรายอื่นๆ คือ เป็นเว็บไซต์ค้นหาที่สนับสนุนภาษาต่างๆ มากกว่า 80 ภาษาทั่วโลก (รวมทั้งภาษาไทย) และมีเครื่องเซิร์ฟเวอร์ให้บริการในส่วนต่างๆ ของโลกมากถึง 36ประเทศ


             เมื่อเราเปิดบราวเซอร์และพิมพ์ URL : www.google.com ลงไป ด้วยระบบตรวจสอบภาษาของเว็บไซต์ Google เมื่อพบว่าเราใช้บราวเซอร์บนวินโดว์ภาษาไทยระบบจะสวิทช์เป้าหมายมายัง www.google.co.th โดยอัตโนมัติดังภาพข้างบน
บริการค้นหาของ Google แยกฐานข้อมูลออกเป็น หมวด (ในแต่ละหมวดมีการค้นหาแบบพิเศษเพิ่มเติมด้วย) คือ 
1.  เว็บ : เป็นการค้นหาข้อมูลจากเว็บไซต์ต่างๆ ทั่วโลก
2.  รูปภาพ : เป็นการค้นหารูปภาพหลากหลายฟอร์แมตจากเว็บไซต์ต่างๆ ทั่วโลก
3.  กลุ่มข่าว : เป็นการค้นหาเรื่องราวที่น่าสนใจจากกลุ่มข่าวต่างๆ
4.  สารบบเว็บ : การค้นหาข้อมูลจากเว็บไซต์ที่แยกออกเป็นหมวดหมู่

การค้นหาเว็บแบบเจาะลึก




              การค้นหาแบบเจาะลึกเกี่ยวกับเว็บ สามารถระบุรายละเอียดต่างๆ ได้ เพื่อให้สามารถจำกัดวงในการค้นหาให้แคบเข้า เช่น การกำหนดคำหลักที่ต้องการ คำที่คล้ายคลึงและคำที่ไม่ต้องการให้ปรากฏอยู่ด้วย กำหนดเฉพาะภาษา ชนิดของไฟล์ (เอกสารเว็บ(html) เอกสารเวิร์ด (word)) ช่วงระยะเวลาที่เอกสารนั้นสร้างขึ้น จากโดเมนเว็บไซต์ชื่ออะไร เป็นต้น

การค้นหาภาพระดับสูง



               การค้นหาภาพเพื่อให้สามารถค้นหาได้รวดเร็วควรใช้การค้นหาระดับสูง เพราะสามารถระบุชื่อหรือบางส่วนของชื่อ ชนิดรูปภาพเป็นไฟล์ฟอร์แมตใด (JPG, GIF, PNG)ชนิดของสี (Black/White, Grayscale, Color) ชื่อของโดเมนที่คาดว่าน่าจะมีภาพนั้นๆ

ไม่มีความคิดเห็น:

แสดงความคิดเห็น