จากบทความที่แล้วนะค่ะ จะทำให้เราทราบหลักการทำงานของ search engine ในเบื้องต้น คือ เมื่อมีผู้ใช้ป้อนคำค้นเข้ามา จะมี query engine ที่เป็นตัวไปค้นหาคำค้นนั้นๆ จาก page ที่เกี่ยวข้อง โดยดึงมาจาก indexer และ page repository ซึ่งเมื่อดึงมาได้แล้วจะมี ranking module เป็นส่วนที่จัดลำดับผลลัพธ์ก่อนที่จะส่งผลลัพธ์ที่ได้จากการค้นหาให้แก่ผู้ใช้
การที่จะส่งผลลัพธ์ที่ได้จากการค้นหานั้นไปให้ผู้ใช้โดยให้สอดคล้องกับ keyword ของผู้ใช้มากที่สุดและรวดเร็วที่สุด อาจจะต้องใช้ Algorithm ที่หลากหลายมาช่วยในการประมวลผล ซึ่งหลายๆ คนอาจก็จะยังไม่ทราบ ในวันนี้ก็จะมีตัวอย่างของ Algorithm ที่ Google Search Engine ใช้ในการจัดลำดับผลลัพธ์ ซึ่งอาจจะมีประโยชน์ต่อไปในการทำ blog search ค่ะ
โดยหลักๆ แล้ว Algorithm ของ Google นั้น แบ่งออกได้ดังนี้ (อ้างอิง : http://www.idayblog.com/archives/23)
1. PageRank (PR)
PageRank (PR) เป็น Algorithm ชนิดหนึ่งในระบบ Algorithm ใหญ่ๆทั้งหมดของ Google ใช้หลักการคำนวณจากการอ้างอิง (ลิงค์) จาก Website/Blog อื่นๆ ที่ชี้มาที่ website/Blog คุณ ถ้ามีลิงค์ชี้มาที่ website/Blog คุณมากแสดงว่าเนื้อหา website/Blog คุณมีความน่าสนใจและน่าเชื่อถือ แต่ทั้งนี้แล้วทาง Google จะทำการพิจารณาว่า ลิงค์ที่ชี้มามีความเชื่อถือได้มากน้อยเพียงใด ไม่ใช่เป็นแค่ลิงค์ขยะ
2. TrustRank (TR)
TrustRank (TR) เป็น Algorithm ของ Google ที่ใช้คนตัวตรวจสอบและทำการให้คะแนน ไม่มีระบบคอมพิวเตอร์ใดๆที่เกี่ยวข้อง ใช้ตรวจสอบความน่าเชื่อถือของ website/Blog ต่างๆ ที่ทำการลิงค์มาหาคุณ ถ้าคุณได้รับการลิงค์จาก website/Blog ที่น่าเชื่อถือคือทาง Google ยอมรับ ค่า PageRang คุณก็จะเพิ่มมากขึ้นด้วย ปัจจุบันทาง Google ให้ความสำคัญกับ TrustRank มากกว่า PageRank ด้วยซ้ำไป
3. Hilltop
Algorithm Hilltop พิจารณาเนื้อหาของ website/Blog ที่ทำการลิงค์มาที่ website/Blog เรามีเนื้อหาที่ลักษณะที่ไปในทางเดียวกันมากน้อยเพียงใด โดยจะพิจารณาจาก Title และหัวเรื่อง Algorithm นี้ถูกนำมาใช้หลังจากมีการเปลี่ยนแปลง Algorithm ครั้งใหญ่ ที่เรียกว่า Google Update Floria
4. Latent Semantic Indexing (LSI)
Latent Semantic Indexing (LSI) เป็น Algorithm ที่สำคัญในการเก็บข้อมูลของ Google Search Engine คือทำให้ Robot ของ Google เข้าใจเนื้อหาของหน้าเพ็จต่างๆ โดยอาศัยหลักการสมการทางคณิตศาสตร์อันสลับซับซ้อน มาช่วยในการเข้าใจเนื้อหา ซึ่งเทคโนโลยีนี้ถูกนำมาใช้ใน Google AdSense นั่นเอง
5. TemPoral Analysis
TemPoral Analysis เป็น Algorithm ที่ใช้ตรวจสอบความสำคัญของเนื้อหา การเปลี่ยนแปลงเนื้อหา ลักษณะของลิงค์ที่เชื่อมโยงเข้ามา ตรวจสอบแม้กระทั่งว่ามีใครได้ BookMark ไว้มากเท่าไหร่
6. Topic Sensitive PageRank
Topic Sensitive PageRank มีลักษณะคล้ายคลึงกับการทำงานของ PageRank แต่จะแตกต่างตรงที่ Topic Sensitive PageRank จะให้ความสำคัญกับลิงค์ที่มาจาก website/Blog ที่มีลักษณะเนื้อหาไปในทางเดียวกันมากว่าลิงค์ ที่มาจาก website/Blog ที่เนื้อหาไม่เข้ากันเลย ดังนั้นถ้าได้รับลิงค์มาจาก website/Blog มีเนื้อหาทางเดียวกันแต่มีค่า PR4 ก็สำคัญกว่าการได้รับลิงค์ที่มาจาก website/Blog ที่เนื้อหาไม่เข้ากันเลย แต่มีค่า PR7
แหล่งอ้างอิง
http://www.idayblog.com/archives/23
วันพฤหัสบดีที่ 24 มกราคม พ.ศ. 2551
Search engine Structure
หลังจากที่เราทราบแล้วว่าอะไรคือ blog search engine จากบล็อกที่แล้ว ซึ่งจะเห็นได้ว่า blog search ก็มีลักษณะการทำงานคล้ายๆ กับ search engine ทั่วไป แต่จะแตกต่างกันที่ blog search จะทำการค้นหาข้อมูลจาก blog เพียงอย่างเดียว สำหรับวันนี้ก็จะนำเสนอข้อมูลเกี่ยวกับโครงสร้างของ Search engine ทั่วไปก่อนค่ะ ส่วนหลักการทำงานของส่วนต่างๆ และการทำงานร่วมกันจะเน้นรายละเอียดในบล็อกต่อๆ ไปค่ะ
โครงสร้างหลักของ Search engine ประกอบด้วย
- Crawler
Crawler / Spider คือ ซอฟต์แวร์ที่ทําหน้าที่ในการเก็บรวบรวมเอกสารอิเล็กทรอนิกส์บนเว็บทั้งหมด (เช่น แฟ้มเอกสารประเภท HTML, PHP, PDF, DOC และอื่นๆ) บนเว็บ ซึ่งจะเรียกสั้นๆ ว่า เอกสารบนเว็บ หรือ เอกสาร (Web Documents)
- Storage
เป็นที่จัดเก็บข้อมูล Web Documents ที่ crawler ไปเก็บรวบรวมมา
- Indexing
การทําดัชนี (Indexing) เป็นวิธีการในการจัดทําดัชนีของคําหลักที่พบภายในเอกสาร ดัชนีของคําหลักที่สกัดได้จากเอกสารจะถูกเก็บรวบรวมไว้เพื่อจัดเตรียมไว้สําหรับการสืบค้น
- Ranking
เป็นการจัดระดับหรือลำดับความนิยม ความสำคัญของ page ต่างๆ
รูปภาพ : Search Engine Architecture
โครงสร้างหลักของ Search engine ประกอบด้วย
- Crawler
Crawler / Spider คือ ซอฟต์แวร์ที่ทําหน้าที่ในการเก็บรวบรวมเอกสารอิเล็กทรอนิกส์บนเว็บทั้งหมด (เช่น แฟ้มเอกสารประเภท HTML, PHP, PDF, DOC และอื่นๆ) บนเว็บ ซึ่งจะเรียกสั้นๆ ว่า เอกสารบนเว็บ หรือ เอกสาร (Web Documents)
- Storage
เป็นที่จัดเก็บข้อมูล Web Documents ที่ crawler ไปเก็บรวบรวมมา
- Indexing
การทําดัชนี (Indexing) เป็นวิธีการในการจัดทําดัชนีของคําหลักที่พบภายในเอกสาร ดัชนีของคําหลักที่สกัดได้จากเอกสารจะถูกเก็บรวบรวมไว้เพื่อจัดเตรียมไว้สําหรับการสืบค้น
- Ranking
เป็นการจัดระดับหรือลำดับความนิยม ความสำคัญของ page ต่างๆ
รูปภาพ : Search Engine Architecture
- เริ่มต้นที่ crawler โดยเราต้องมี list รายการเริ่มต้นของ URLs ที่จะเริ่มก่อน (ถูกเรียกว่า seeds) เช่น http://www.about.com ให้ไปกับ crawler จากนั้น crawler ก็จะไปยังเว็บไซต์นั้นๆ พร้อมทั้งทำการคัดลอก page ไปเก็บไว้ที่ page repository แล้วทำการอ่านหน้า web ที่ไปมาและถอด URL ออก หลังจากนั้นนำเซ็ทของ URL ทีได้ส่งให้กับ craw control เพื่อพิจารณาว่า URL นี้เคยไปมาหรือยัง ถ้าไม่เคยก็จะจัดลำดับคิว แค่ถ้าเคยก็จะ skip ไป
- ในการจัดทำ index จะมีโมดูลย่อยในการจัดทำ index 2 โมดูล คือ indexer module (ไปดึงข้อมูลที่จัดเก็บไว้ใน page repository ทีละ page แล้วก็นำมาถอดว่ามีคำอะไรบ้างใน page นั้นๆ แล้วจัดทำเป็นดัชนีเก็บไว้ใน text index เพื่อบอกว่าคำๆ นี้อยู่ใน document ไหน) และ collection anlysis (ดึงข้อมูลมาจาก Page Repository แล้วนำข้อมูลจาก Text index และ Structure (ซึ่งมีลักษณะเป็นกราฟ เป็นที่เก็บโครงสร้างของเว็บ เช่น เว็บนี้จะมี link เชื่อมโยงไปเว็บไหนบ้าง) มาประมวลผล แล้วจัดเก็บข้อมูลในรูปแบบอื่นๆ ไว้ใน Utility Index )
- เมื่อผู้ใช้ป้อนคำค้นเข้ามา เรียกว่า query จะมีโมดูลที่เรียกว่า query engine ทำการค้นหา page ที่เกี่ยวข้อง โดยดึงมาจาก indexer และ Page Repository เมื่อดึงผลลัพธ์มาได้แล้วก็ส่งให้ ranking module เพื่อจัดลำดับผลลัพธ์ หลังจากนั้นก็ส่งผลลัพธ์ที่ได้จัดลำดับแล้วให้แก่ผู้ใช้
แหล่งอ้างอิง
http://www2006.org/programme/files/xhtml/5503/fp5503-pingali/fp5503-pingali-xhtml.html
http://newbiedevman.blogspot.com/2007/08/spiders-robots.html
Introduction to Blog Search Engine
ยินดีต้อนรับเข้าสู่ blog search engine ค่ะ โดย blog แห่งนี้จะนำเสนอเรื่องราวเกี่ยวกับหลักการและการทำงานของ blog search engine ซึ่งเนื้อหาในตอนแรกนี้จะเป็นการแนะนำให้รู้จักกับ blog search engine และblog มาเกี่ยวกับ search engine ได้อย่างไร
Blog Search Engine คืออะไร
Blog Search คือ เครื่องมือค้นหาสำหรับ Blog หรือ เครื่องมือใช้ค้นหาข้อมูลของ บล็อก นั่นเอง จากในอดีตเราอาจเคยเห็นเครื่องมือค้นหาจำพวก Search Engine ที่เป็นเครื่องมือในการค้นหาข้อมูลผ่านอินเตอร์เน็ต ค้นหาข้อมูลของเว็บไซต์ต่าง ๆ มากมาย ยกตัวอย่างเช่น google, yahoo, altavista และอีกมากมาย
Blog Search คือ เครื่องมือค้นหาสำหรับ Blog หรือ เครื่องมือใช้ค้นหาข้อมูลของ บล็อก นั่นเอง จากในอดีตเราอาจเคยเห็นเครื่องมือค้นหาจำพวก Search Engine ที่เป็นเครื่องมือในการค้นหาข้อมูลผ่านอินเตอร์เน็ต ค้นหาข้อมูลของเว็บไซต์ต่าง ๆ มากมาย ยกตัวอย่างเช่น google, yahoo, altavista และอีกมากมาย
แล้ว Blog Search มาเกี่ยวข้องกันได้อย่างไร ตราบใดที่เป็นมูลค่าทางการตลาดของ Search Engine แล้ว ผู้ที่ครองตลาดอย่าง google ย่อมไม่พลาดโอกาสอย่างแน่นอน ถึงแม้ในปัจจุบันจะมี Blog Search ที่มีประสิทธิภาพสูงและรวดเร็วอย่าง Technorati และ icerocket เป็นผู้ครองตลาดก็ตาม ยุทธจักรนี้ยังต้องมีส่วนแบ่งให้กับยักษ์ใหญ่แห่งวงการ Search Engine อยู่ดี
Blog Search ในแบบยักษ์ใหญ่ Google ปล่อยตัว Google Blog Search (Beta) มาให้ทดลองใช้ก็นานแล้วเช่นกัน จากที่ทดลองใช้ดูก็รวดเร็วและแม่นยำมาก เหมือนกับ Technorati แต่ว่าจะคงแบบฉบับของ Google Search Engine อยู่ คือยังมีการจัดอันดับผลการค้นหาในข้อมูลนั้นๆในแบบ Page Rank เช่นเดียวกับ Google Search นับว่าเป็นข้อได้เปรียบของยักษ์ใหญ่อย่าง Google ปัจจุบันก็ได้เข้าครองตลาดเป็นอันดับที่ 1 ใน Blog Search และ Technorati ไปเป็นอันดับความนิยมที่ 2 รองมาเป็นอันดับที่ 3 นั่นก็คือ icerocket นั่นเอง ซึ่งอีกไม่นาน Google Blog Search ก็จะเป็นตัวเต็ม และ อีกไม่นานเช่นกัน ก็จะมี โฆษณาในลักษณะ Advertising Networks แบบ Pay Per Click (PPC) เช่นเดียวกับ Google Adword จากผลการค้นหาด้วย Keyword ต่าง ๆ ที่เราต้องการ อย่างแน่นอน
Icerocket นับเป็น Blog Search Engine อีกแห่งที่มีผลการค้นหาได้แม่นยำตรงตาม Keyword ของการค้นหาและมีการจัดอันดับต่าง ๆ ให้ด้วย ความรวดเร็วในการค้นหาไม่เป็นรองใคร และ ข้อมูลที่นี่ทันสมัยมาก เพราะสามารถเข้าถึงข้อมูลได้รวดเร็ว และ ตรงประเด็นครับ ก็เป็นอีกสุดยอดของ Blog Serch Engine อีกเช่นกัน คุณสมบัติพิเศษ ที่ Icerocket มีก็คือเก็บข้อมูลได้รวดเร็วทันใจวัยรุ่น และสามารถค้นหาข้อมูลได้อย่าง แม่นยำทั้งภาษาไทยด้วยนอกจากนี้ยังมี Blog Search Engine อีกมากเลย สามารถเข้าไปดูและศึกษาคุณสมบัติต่างๆ ตาม link นี้ค่ะ
สมัครสมาชิก:
บทความ (Atom)

