Tất cả những
điều chúng ta đã biết về SEO nó chỉ là một bề nổi, chỉ
như một hạt cát nhỏ giữa sa mạc. Vì vậy, muốn nắm vững được tất cả những
kiến thức sâu rộng đó, điều đầu tiên, các SEOer cần phải bắt đầu từ những khái
niệm cơ bản nhất.
Qua bài viết này tôi muốn chia sẻ với các bạn về Spider - Crawler – Bot, đây là những khái niệm cơ bản nhất trong SEO, giúp các bạn có cái nhìn
rõ nét nhất về Search Emgine.
Google search |
Định nghĩa về Spider – Crawler – Bot
Thuật ngữ Spider,
Crawler hay Bot dùng để mô tả một công cụ hay phần
mềm có chức năng thu thập dữ liệu cho các công cụ tìm kiếm –
Search Engine, có tên gọi chung là Web Crawler. Phần mềm này được
thiết kế để có thể xâm
nhập vào website trên mạng World
Wide Web một cách có hệ thống nhất, nhằm mục đích thu thập thông tin, dữ liệu của những trang web đó về công cụ tìm kiếm (crawl dữ liệu), nhằm
mục tiêu lưu trữ chỉ mục các trang web
đó vào kho dữ liệ của Search Engine.
Spider là gì?
Spider hay
còn được gọi là nhện, đây là cách gọi hình tượng hóa của Web Crawler, cách gọi này được dựa theo
nguyên lý hoạt động và lưu trữ thông tin của Web
Crawler tương tự với những hoạt động của một con nhện. Bắt đầu
từ một website
ban đầu, Spider sẽ len lỏi vào mọi ngóc ngách trên website và
truy cập vào các liên kết có trên trang. Tiến hành đánh dấu các liên kết đã được truy cập và nối các trang có liên kết với trang gốc giống như việc tạo ra một sợi tơ liên kết 2 trang lại với nhau. Từ một trang ban đầu, Spider có thể kết nối
thêm hàng triệu website lại với nhau thành một mạng lưới chằng chịt như một mạng nhện đích thực.
Spiders |
Crawler là gì?
Crawler (con bọ
trườn) đây là cách gọi theo chức
năng của Web Crawler, nó mô tả các hành động
truy cập và thu thập thông tin của Web Crawler
trên một website giống như một con bọ đang bò trườn trên trang web đó. Như vậy, đây chính là cách gọi
nhân cách hóa của Web Crawler, biến một phần mềm vô tri vô giác trở nên sinh động
giống như một sinh vật sống.
Bot là gì?
Bot (Internet
Bot) là một loại web robot (World
Wide Web robot), một phần mềm ứng dụng được chạy tự động trên Internet nhằm mục đích thực hiện một số công việc đơn giản và được lặp đi lặp lại có hệ thống cho người sử dụng. Web
Crawler chính là một tập hợp con của Internet Bot. Web
Crawler cũng được
coi là một loại bot được sử dụng
nhiều nhất trong số các Internet Bot.
Google bot |
Hoạt động của Web
Crawler như thế nào?
Web Crawler dùng để khám phá và tìm hiểu
thông tin trên các trang website công khai hiện nay có trên trên mạng WWW. Các công cụ thu thập thông tin này sẽ lần
lượt truy cập vào các trang web và dò theo từng liên kết trên
các trang đó, giống như việc chúng ta duyệt từng nội dung trên trang. Bằng việc
lần lượt đi từ liên kết này tới liên kết khác, chúng thu thập dữ liệu trên các
trang và đem các dữ liệu đó về cho máy chủ Search Engine.
Web Crawler cũng đồng thời xác định được những
trang web nào cần thu thập thông tin, tần suất cũng như số lượng trang cần tìm
nạp từ mỗi trang web. Chúng hoạt động tự động và ít chịu sự can thiệp bởi con
người. Sau khi thu thập đầy đủ dữ liệu của trang,
các Crawler sẽ tổng hợp lại những dữ liệu đó với
những dữ liệu ngoài trang như số lượng backlink trỏ đến website, lượng visits,…
và gửi chúng về ngân hàng dữ liệu để tiến hành xét
duyệt trước khi bắt đầu được index.
Không có nhận xét nào:
Đăng nhận xét