Thứ Ba, 25 tháng 8, 2015

Định nghĩa về Spider – Crawler – Bot

Tất cả những điều chúng ta đã biết về SEO nó chỉ là một bề nổi, chỉ như một hạt cát nhỏ giữa sa mạc. Vì vậy, muốn nắm vững được tất cả những kiến thức sâu rộng đó, điều đầu tiên, các SEOer cần phải bắt đầu từ những khái niệm cơ bản nhất. Qua bài viết này tôi muốn chia sẻ với các bạn về Spider - Crawler Bot, đây là những khái niệm cơ bản nhất trong SEO, giúp các bạn có cái nhìn rõ nét nhất về Search Emgine.
google search
Google search

Định nghĩa về Spider – Crawler – Bot

Thuật ngữ Spider, Crawler hay Bot dùng để mô tả một công cụ hay phần mềm có chức năng thu thập dữ liệu cho các công cụ tìm kiếm – Search Engine, tên gọi chung là Web Crawler. Phần mềm này được thiết kế để có thể xâm nhập vào website trên mạng World Wide Web một cách có hệ thống nhất, nhằm mục đích thu thập thông tin, dữ liệu của những trang web đó v công cụ tìm kiếm (crawl dữ liệu), nhằm mục tiêu lưu trữ chỉ mục các trang web đó vào kho dữ liệ của Search Engine.

Spider là gì?

Spider hay còn được gọi là nhện, đây là cách gọi hình tượng hóa của Web Crawler, cách gọi này được dựa theo nguyên lý hoạt động và lưu trữ thông tin của Web Crawler tương tự với những hoạt động của một con nhện. Bắt đầu từ một website ban đầu, Spider sẽ len lỏi vào mọi ngóc ngách trên website và truy cập vào các liên kết có trên trang. Tiến hành đánh dấu các liên kết đã được truy cập và nối các trang có liên kết với trang gốc giống như việc tạo ra một sợi tơ liên kết 2 trang lại với nhau. Từ một trang ban đầu, Spider có thể kết nối thêm hàng triệu website lại với nhau thành một mạng lưới chằng chịt như một mạng nhện đích thực.
Spiders
Spiders

Crawler là gì?

Crawler (con b trườn) đây là cách gọi theo chức năng của Web Crawler, mô tả các hành động truy cập và thu thập thông tin của Web Crawler trên một website giống như một con bọ đang bò trườn trên trang web đó. Như vậy, đây chính cách gọi nhân cách hóa của Web Crawler, biến một phần mềm vô tri vô giác trở nên sinh động giống như một sinh vật sống.

Bot là gì?

Bot (Internet Bot) là một loại web robot (World Wide Web robot), một phần mềm ứng dụng được chạy tự động trên Internet nhằm mục đích thực hiện một số công việc đơn giản và được lặp đi lặp lại có hệ thống cho người sử dụng. Web Crawler chính là một tập hợp con của Internet Bot. Web Crawler cũng được coi là một loại bot được sử dụng nhiều nhất trong số các Internet Bot.
Google bot
Google bot

Hoạt động của Web Crawler như thế nào?

Web Crawler dùng để khám phá và tìm hiểu thông tin trên các trang website công khai hiện nay có trên trên mạng WWW. Các công cụ thu thập thông tin này sẽ lần lượt truy cập vào các trang web và dò theo từng liên kết trên các trang đó, giống như việc chúng ta duyệt từng nội dung trên trang. Bằng việc lần lượt đi từ liên kết này tới liên kết khác, chúng thu thập dữ liệu trên các trang và đem các dữ liệu đó về cho máy chủ Search Engine.
Web Crawler cũng đồng thời xác định được những trang web nào cần thu thập thông tin, tần suất cũng như số lượng trang cần tìm nạp từ mỗi trang web. Chúng hoạt động tự động và ít chịu sự can thiệp bởi con người. Sau khi thu thập đầy đủ dữ liệu của trang, các Crawler sẽ tổng hợp lại những dữ liệu đó với những dữ liệu ngoài trang như số lượng backlink trỏ đến website, lượng visits,… và gửi chúng về ngân hàng dữ liệu để tiến hành xét duyệt trước khi bắt đầu được index.



Không có nhận xét nào:

Đăng nhận xét