วันพฤหัสบดีที่ 24 มกราคม พ.ศ. 2551

Google Search Engine Algorithm

จากบทความที่แล้วนะค่ะ จะทำให้เราทราบหลักการทำงานของ search engine ในเบื้องต้น คือ เมื่อมีผู้ใช้ป้อนคำค้นเข้ามา จะมี query engine ที่เป็นตัวไปค้นหาคำค้นนั้นๆ จาก page ที่เกี่ยวข้อง โดยดึงมาจาก indexer และ page repository ซึ่งเมื่อดึงมาได้แล้วจะมี ranking module เป็นส่วนที่จัดลำดับผลลัพธ์ก่อนที่จะส่งผลลัพธ์ที่ได้จากการค้นหาให้แก่ผู้ใช้

การที่จะส่งผลลัพธ์ที่ได้จากการค้นหานั้นไปให้ผู้ใช้โดยให้สอดคล้องกับ keyword ของผู้ใช้มากที่สุดและรวดเร็วที่สุด อาจจะต้องใช้ Algorithm ที่หลากหลายมาช่วยในการประมวลผล ซึ่งหลายๆ คนอาจก็จะยังไม่ทราบ ในวันนี้ก็จะมีตัวอย่างของ Algorithm ที่ Google Search Engine ใช้ในการจัดลำดับผลลัพธ์ ซึ่งอาจจะมีประโยชน์ต่อไปในการทำ blog search ค่ะ

โดยหลักๆ แล้ว Algorithm ของ Google นั้น แบ่งออกได้ดังนี้ (อ้างอิง : http://www.idayblog.com/archives/23)

1. PageRank (PR)

PageRank (PR) เป็น Algorithm ชนิดหนึ่งในระบบ Algorithm ใหญ่ๆทั้งหมดของ Google ใช้หลักการคำนวณจากการอ้างอิง (ลิงค์) จาก Website/Blog อื่นๆ ที่ชี้มาที่ website/Blog คุณ ถ้ามีลิงค์ชี้มาที่ website/Blog คุณมากแสดงว่าเนื้อหา website/Blog คุณมีความน่าสนใจและน่าเชื่อถือ แต่ทั้งนี้แล้วทาง Google จะทำการพิจารณาว่า ลิงค์ที่ชี้มามีความเชื่อถือได้มากน้อยเพียงใด ไม่ใช่เป็นแค่ลิงค์ขยะ

2. TrustRank (TR)

TrustRank (TR) เป็น Algorithm ของ Google ที่ใช้คนตัวตรวจสอบและทำการให้คะแนน ไม่มีระบบคอมพิวเตอร์ใดๆที่เกี่ยวข้อง ใช้ตรวจสอบความน่าเชื่อถือของ website/Blog ต่างๆ ที่ทำการลิงค์มาหาคุณ ถ้าคุณได้รับการลิงค์จาก website/Blog ที่น่าเชื่อถือคือทาง Google ยอมรับ ค่า PageRang คุณก็จะเพิ่มมากขึ้นด้วย ปัจจุบันทาง Google ให้ความสำคัญกับ TrustRank มากกว่า PageRank ด้วยซ้ำไป

3. Hilltop

Algorithm Hilltop พิจารณาเนื้อหาของ website/Blog ที่ทำการลิงค์มาที่ website/Blog เรามีเนื้อหาที่ลักษณะที่ไปในทางเดียวกันมากน้อยเพียงใด โดยจะพิจารณาจาก Title และหัวเรื่อง Algorithm นี้ถูกนำมาใช้หลังจากมีการเปลี่ยนแปลง Algorithm ครั้งใหญ่ ที่เรียกว่า Google Update Floria

4. Latent Semantic Indexing (LSI)

Latent Semantic Indexing (LSI) เป็น Algorithm ที่สำคัญในการเก็บข้อมูลของ Google Search Engine คือทำให้ Robot ของ Google เข้าใจเนื้อหาของหน้าเพ็จต่างๆ โดยอาศัยหลักการสมการทางคณิตศาสตร์อันสลับซับซ้อน มาช่วยในการเข้าใจเนื้อหา ซึ่งเทคโนโลยีนี้ถูกนำมาใช้ใน Google AdSense นั่นเอง

5. TemPoral Analysis

TemPoral Analysis เป็น Algorithm ที่ใช้ตรวจสอบความสำคัญของเนื้อหา การเปลี่ยนแปลงเนื้อหา ลักษณะของลิงค์ที่เชื่อมโยงเข้ามา ตรวจสอบแม้กระทั่งว่ามีใครได้ BookMark ไว้มากเท่าไหร่

6. Topic Sensitive PageRank

Topic Sensitive PageRank มีลักษณะคล้ายคลึงกับการทำงานของ PageRank แต่จะแตกต่างตรงที่ Topic Sensitive PageRank จะให้ความสำคัญกับลิงค์ที่มาจาก website/Blog ที่มีลักษณะเนื้อหาไปในทางเดียวกันมากว่าลิงค์ ที่มาจาก website/Blog ที่เนื้อหาไม่เข้ากันเลย ดังนั้นถ้าได้รับลิงค์มาจาก website/Blog มีเนื้อหาทางเดียวกันแต่มีค่า PR4 ก็สำคัญกว่าการได้รับลิงค์ที่มาจาก website/Blog ที่เนื้อหาไม่เข้ากันเลย แต่มีค่า PR7

แหล่งอ้างอิง
http://www.idayblog.com/archives/23

ไม่มีความคิดเห็น:

Powered By Blogger