Crawling & Indexing : Giải nghĩa và cách tối ưu trong SEO 2022
Bạn có biết các công cụ tìm kiếm như Google tìm và quét nội dung cả tỉ website trên thế giới để đưa ra kết quả cho một truy vấn tìm kiếm? Vậy thì hôm nay hãy để Vinalink Media giải nghĩa cho bạn Crawling & Indexing là gì để tối ưu chiến lược SEO cho mình nhé.
Mục lục
Crawling là gì?
Crawling là một quá trình cho phép các công cụ tìm kiếm khám phá nội dung mới trên internet. Để thực hiện việc này, họ sử dụng các bot thu thập thông tin, dữ liệu theo liên kết từ các trang đã biết đến các trang mới.
Vì hàng nghìn trang web được ra đời hoặc cập nhật mỗi ngày nên quá trình thu thập thông tin là một cơ chế lặp đi lặp lại không bao giờ kết thúc
Martin Splitt, Nhà phân tích xu hướng quản trị trang web của Google, mô tả quá trình thu thập thông tin chỉ đơn giản là:
“Chúng tôi bắt đầu với một số URL, và sau đó cơ bản là theo các liên kết từ đó. Vì vậy, chúng tôi đang thu thập thông tin theo cách này thông qua internet, từ trang này qua trang khác.”
Crawling dữ liệu là bước đầu tiên trong quá trình này. Tiếp theo là lập chỉ mục index, đánh giá xếp hạng (các trang trải qua các yếu tố xếp hạng từ khoá khác nhau) và cuối cùng là phục vụ kết quả tìm kiếm của người dùng.
Hãy đi sâu hơn một chút ở đây và xem cách hoạt động của Crawling là gì nhé.
Search Engine Crawler là gì?
Search Engine Crawler (còn được gọi là web spider hoặc bot thu thập dữ liệu) là một phần của công đoạn thu thập dữ liệu các trang web, quét nội dung và thu thập dữ liệu cho mục đích lập chỉ mục.
Bất cứ khi nào con bọ này lần mò một trang web mới thông qua các hyperlink, nó sẽ xem xét nội dung mà nó thu được – quét tất cả văn bản, yếu tố hình ảnh, liên kết, tệp HTML, CSS hoặc JavaScript, v.v. – và sau đó chuyển (hoặc tìm nạp) các dữ liệu này này để xử lý và lập chỉ mục index.
Google với tư cách là một công cụ tìm kiếm phổ biến nhất hiện nay, sử dụng trình thu thập thông tin web của riêng mình được gọi là Googlebot.
Có 2 loại trình thu thập thông tin chính:
- Googlebot Smartphone – trình thu thập thông tin chính.
- Googlebot Desktop – trình thu thập thông tin thứ cấp.
Googlebot thích thu thập dữ liệu các trang web chủ yếu dưới dạng trình duyệt trên điện thoại thông minh, nhưng nó cũng có thể thu thập lại mọi trang web bằng trình thu thập thông tin trên máy tính để bàn để kiểm tra cách trang web hoạt động như thế nào, và có giống như cách hoạt động dưới dạng trình duyệt điện thoại hay không?
Tần suất thu thập dữ liệu của các trang mới được xác định bởi Crawl Budget
Vậy Crawl Budget là gì?
Crawl Budget số lượng và tần suất thu thập dữ liệu của các con bot thực hiện. Nói cách khác – nó quy định bao nhiêu trang sẽ được thu thập thông tin và tần suất các trang đó sẽ được Googlebot thu thập lại thông tin.
Khối lượng thu thập dữ liệu được xác định bởi 2 yếu tố chính:
- Giới hạn tốc độ thu thập dữ liệu – số lượng trang có thể được thu thập thông tin đồng thời trên trang web mà không làm quá tải máy chủ của nó.
- Thu thập dữ liệu nhu cầu – số lượng trang cần được Googlebot thu thập thông tin và / hoặc thu thập lại thông tin.
Crawl Budget quan trọng đối với các trang web lớn với hàng triệu trang con khác nhau, chứ không phải cho các website nhỏ chỉ chứa vài trăm trang con.
Ngoài ra, Crawl Budget lớn không có lợi thế xếp hạng nào cho website vì nó không phải là tín hiệu về chất lượng cho các công cụ tìm kiếm.
Lập chỉ mục website (Indexing) là gì?
Indexing là một quá trình phân tích và lưu trữ nội dung từ các trang web được thu thập thông tin vào cơ sở dữ liệu(còn gọi là index).
Chỉ các trang được lập chỉ mục mới có thể được xếp hạng và sử dụng trong các truy vấn tìm kiếm có liên quan.
Bất cứ khi nào trình thu thập thông tin web phát hiện ra một website mới, Googlebot sẽ chuyển nội dung của nó (ví dụ: văn bản, hình ảnh, video, thẻ meta, thuộc tính, v.v.) vào giai đoạn lập chỉ mục nơi nội dung được phân tích bằng các thuật toán để hiểu rõ hơn về ngữ cảnh và được lưu trữ trong hệ thống.
Martin Splitt giải thích phần lập chỉ mục:
“Một khi chúng tôi có được những trang này (…), chúng tôi cần hiểu những trang này. Chúng ta cần tìm hiểu các trang này nói về cái gì và nó phục vụ cho mục đích gì. Vì vậy, đó là giai đoạn thứ hai, đó là lập chỉ mục index.”
Để làm điều này, Google sử dụng cái gọi là hệ thống lập chỉ mục Caffeine đã được giới thiệu vào năm 2010.
Cơ sở dữ liệu của Hệ thống lập chỉ mục Caffeine có thể lưu trữ hàng triệu triệu gigabyte trang web. Các trang này được Googlebot xử lý và lập chỉ mục (và thu thập dữ liệu lại) một cách có hệ thống theo nội dung mà chúng có được.
Googlebot không chỉ quét các website bằng trình thu thập dữ liệu trên thiết bị di động trước mà còn thích lập chỉ mục nội dung có trên các phiên bản di động của họ kể từ bản cập nhật Mobile-First Indexing.
Mobile-First Indexing là gì?
Tính năng ưu tiên lập chỉ mục trên thiết bị di động lần đầu tiên được giới thiệu vào năm 2016 khi Google thông báo rằng họ sẽ chủ yếu lập index và sử dụng nội dung có sẵn trên phiên bản di động của trang web.
Tuyên bố chính thức của Google về Mobile-first Indexing nêu rõ:

Vì hầu hết ngày nay mọi người sử dụng điện thoại di động để truy cập Internet , nên có nghĩa là Google muốn đánh giá website như cách mà người dùng thường làm. Nó cũng là một lời nhắc nhở đối với chủ sở hữu web rằng hãy đảm bảo trang web của họ thân thiện với thiết bị di động.
Lưu ý: Điều quan trọng ở đây là ngày nay ưu tiên lập chỉ mục trên thiết bị di động không có nghĩa là Google sẽ không thu thập dữ liệu các trang web bằng máy tính để bàn (Googlebot Desktop) để so sánh nội dung của cả hai phiên bản.
Làm cách nào để Google thu thập dữ liệu và lập chỉ mục trang web của bạn?
Trên thực tế khi nói tới Crawling và Indexing, không có “lệnh trực tiếp” nào khiến các công cụ tìm kiếm index trang web của bạn.
Tuy nhiên, có một số cách để ảnh hưởng đến việc trang web của bạn sẽ được Crawling và Indexing khi nào, khi nào hoặc như thế nào.
Vì vậy, hãy kiểm tra các cách sau xem cách của bạn là gì để cho Google biết về sự tồn tại của bạn.
Chỉ cần không làm gì – cách tiếp cận thụ động
Từ góc nhìn kỹ thuật, bạn không phải làm bất cứ điều gì để webste của bạn được Google thu thập thông tin và index.
Tất cả những gì bạn cần là một liên kết từ trang web bên ngoài và Googlebot cuối cùng sẽ bắt đầu thu thập thông tin và index tất cả các trang có sẵn.
Tuy nhiên, việc thực hiện phương pháp “không làm gì cả” có thể gây ra sự chậm trễ trong việc thu thập thông tin và index các trang của bạn vì có thể mất một khoảng thời gian rất lâu để trình thu thập thông tin web khám phá ra trang web của bạn.
Gửi các trang web qua công cụ Kiểm tra URL
Một trong những cách bạn có thể crawling và indexing “an toàn” đối với các website riêng lẻ là trực tiếp yêu cầu Google lập chỉ mục (hoặc lập chỉ mục lại) các trang của bạn bằng cách sử dụng Công cụ kiểm tra URL trong Google Search Console.
Công cụ này rất hữu ích khi bạn có một trang hoàn toàn mới hoặc bạn đã thực hiện một số tối ưu với trang hiện có của mình và muốn index nó càng sớm càng tốt.
Quá trình này khá đơn giản:
- Truy cập Google Search Console và chèn URL của bạn vào thanh tìm kiếm ở trên cùng. Nhấp Enter.
- Search Console sẽ hiển thị cho bạn trạng thái của trang. Nếu nó chưa được lập chỉ mục, bạn có thể yêu cầu index ngay lập tức. Nếu nó được lập chỉ mục rồi, bạn không phải làm bất cứ điều gì hoặc có thể yêu cầu lại (nếu bạn đã thực hiện bất kỳ thay đổi lớn nào trong trang).
- Công cụ kiểm tra URL sẽ bắt đầu kiểm tra xem phiên bản trực tiếp của URL có thể được lập chỉ mục hay không (có thể mất vài giây hoặc vài phút).
- Khi quá trình kiểm tra được thực hiện thành công, một thông báo sẽ bật lên, xác nhận rằng URL của bạn đã được thêm vào hàng thu thập thông tin ưu tiên để index. Quá trình lập chỉ mục có thể mất từ vài phút đến vài ngày.
Lưu ý: Phương pháp index này chỉ nên làm khi bạn muốn index nhanh một vài URL; không lạm dụng công cụ này nếu bạn có một số lượng lớn các URL mà bạn muốn lập chỉ mục
Yêu cầu lập chỉ mục không đảm bảo rằng URL của bạn sẽ được lập chỉ mục ngay. Nếu URL bị chặn crawling và indexing hoặc có một số vấn đề về chất lượng không đúng với các nguyên tắc về chất lượng của Google, thì URL có thể không được lập chỉ mục.
Gửi sơ đồ trang web
Sơ đồ trang web là một danh sách hoặc một tệp ở định dạng XML chứa tất cả các trang web của bạn mà bạn định thu thập dữ liệu và index bởi công cụ tìm kiếm.
Lợi ích chính của sơ đồ trang web là giúp công cụ tìm kiếm thu thập dữ liệu trang web của bạn dễ dàng hơn nhiều. Bạn có thể gửi một số lượng lớn các URL cùng một lúc và do đó tăng tốc quá trình lập chỉ mục tổng thể của website của bạn.
Để cho Google biết về sơ đồ trang web của bạn, bạn sẽ sử dụng lại Google Search Console.
Lưu ý: Cách dễ nhất để tạo sơ đồ trang cho trang web WordPress của bạn là sử dụng plugin Yoast SEO sẽ tự động làm điều đó cho bạn. Xem hướng dẫn để tìm hiểu cách tìm URL của sơ đồ trang web của bạn.
Sau đó, đi tới Google Search Console> Sơ đồ trang web và dán URL của sơ đồ trang web của bạn trong Thêm sơ đồ trang web mới:
Sau khi gửi, Googlebot cuối cùng sẽ kiểm tra sơ đồ trang web của bạn và thu thập dữ liệu mọi trang được liệt kê mà bạn đã cung cấp (nếu chúng không bị ngăn thu thập dữ liệu và lập chỉ mục theo bất kỳ cách nào).
Thực hiện liên kết nội bộ thích hợp
Một cấu trúc liên kết nội bộ mạnh mẽ là một cách tiếp cận lâu dài tuyệt vời để làm cho các trang web của bạn dễ dàng thu thập thông tin
Nó là như thế nào? Câu trả lời là một cấu trúc trang web phẳng. Nói cách khác, có tất cả các trang ít hơn 3 liên kết với nhau:
Một kiến trúc liên kết tốt có thể bảo mật thu thập thông tin của tất cả các trang web mà bạn muốn được lập chỉ mục vì trình thu thập thông tin web sẽ dễ dàng truy cập vào tất cả chúng. Cấu trúc này quan trọng đối với các trang web lớn (ví dụ: thương mại điện tử) có hàng nghìn trang có sản phẩm.
Mẹo: Liên kết nội bộ là quan trọng nhưng bạn cũng nên nhắm đến việc nhận được các liên kết từ các website mạnh từ bên ngoài và có liên quan từ các website có độ uy tín cao. Nó có thể dẫn đến việc thu thập dữ liệu và lập chỉ mục thường xuyên cũng như xếp hạng cao hơn trong các SERPS có liên quan.
Làm cách nào để chặn Google không Crawling và Indexing trang của bạn?
Có nhiều lý do để ngăn Googlebot thu thập dữ liệu hoặc không index các phần tử của trang web của bạn. Ví dụ:
- Nội dung riêng tư (ví dụ: thông tin của người dùng sẽ không xuất hiện trong kết quả tìm kiếm)
- Các trang web trùng lặp (ví dụ: các trang có nội dung giống hệt nhau không được thu thập thông tin để tiết kiệm ngân sách thu thập thông tin và / hoặc xuất hiện nhiều lần trong kết quả tìm kiếm)
- Các trang trống hoặc trang lỗi (ví dụ: các trang đang trong quá trình làm việc không được chuẩn bị để được index và hiển thị trong kết quả tìm kiếm)
- Các trang có giá trị nhỏ (ví dụ: các trang do người dùng tạo không mang lại bất kỳ nội dung chất lượng nào cho các truy vấn tìm kiếm).
Tại thời điểm này, rõ ràng là Googlebot rất hiệu quả khi phát hiện ra các trang web mới ngay cả khi nó không nằm trong ý định của bạn.
Như Google khẳng định: “Phương thức giữ bí mật một máy chủ web bằng cách không xuất bản các đường liên kết đến máy chủ đó hầu như không có hiệu quả”.
Hãy xem xét các tùy chọn của chúng tôi khi đề cập đến việc ngăn chặn thu thập dữ liệu hoặc lập chỉ mục.
Sử dụng robots.txt (để ngăn thu thập thông tin)
Robots.txt là một tệp văn bản nhỏ chứa các lệnh trực tiếp cho trình thu thập dữ liệu web về cách chúng nên thu thập dữ liệu trang web của bạn.
Bất cứ khi nào trình thu thập dữ liệu web truy cập trang web của bạn, trước tiên họ sẽ kiểm tra xem trang web của bạn có chứa tệp robots.txt hay không và hướng dẫn dành cho chúng là gì. Sau khi đọc các lệnh từ tệp, họ bắt đầu thu thập dữ liệu trang web của bạn theo hướng dẫn.
Bằng cách sử dụng lệnh “allow” và “disallow” trong tệp robots.txt, bạn có thể cho trình thu thập thông tin biết những phần nào của trang web nên được truy cập và thu thập thông tin và những trang nào nên được để riêng.
Dưới đây là một ví dụ về tệp robots.txt trên trang web của Kenh14.vn với nhiều lệnh không cho phép:
Ví dụ: bạn có thể ngăn Google bot thu thập thông tin:
- các trang có nội dung trùng lặp
- trang cá nhân
- URL có tham số truy vấn
- các trang có nội dung yếu kém
- trang đang thử nghiệm
Nếu không có hướng dẫn từ tệp này, Crawling Bot sẽ truy cập mọi trang mà nó có thể tìm thấy, bao gồm các URL mà bạn muốn tránh bị thu thập thông tin.
Mặc dù robots.txt có thể là một cách hay để ngăn Googlebot thu thập dữ liệu các trang của bạn, nhưng bạn không nên dựa vào phương pháp này như một cách để ẩn nội dung.
Google vẫn có thể lập chỉ mục các trang không được phép nếu một số trang web khác đang trỏ liên kết đến các URL này.
Để ngăn các trang web được lập chỉ mục, có một phương pháp khác hiệu quả hơn dưới đây.
Sử dụng lệnh “noindex” (để ngăn lập chỉ mục)
Các lệnh meta robots (đôi khi được gọi là thẻ meta) là các đoạn mã HTML nhỏ được đặt trong phần <head> của trang web để hướng dẫn các công cụ tìm kiếm cách lập chỉ mục hoặc thu thập dữ liệu trang đó.
Một trong những lệnh phổ biến nhất là cái gọi là chỉ thị “noindex” (một lệnh meta rô bốt có giá trị noindex trong thuộc tính content ). Nó ngăn các công cụ tìm kiếm lập chỉ mục và hiển thị trang web của bạn trong SERPs.
Nó trông như thế này:
<meta name = “robots” content = “noindex“>
Thuộc tính “robots” có nghĩa là lệnh áp dụng cho tất cả các loại trình thu thập thông tin web.
Lệnh noindex đặc biệt hữu ích cho các trang mà khách truy cập muốn xem nhưng bạn không muốn chúng được lập chỉ mục hoặc xuất hiện trong kết quả tìm kiếm.
Các noindex thường được kết hợp với follow hoặc nofollow thuộc tính để cho công cụ tìm kiếm cho dù họ phải thu thập dữ liệu liên kết trên trang.
Quan trọng: Bạn không nên sử dụng cả lệnh noindex và tệp robots.txt để chặn Google bot thu thập dữ liệu website của bạn.
Như Google đã tuyên bố rõ ràng:
“Lưu ý quan trọng: Để lệnh
noindex
có hiệu lực, tệp robots.txt không được chặn trang, nói cách khác là phải cho phép trình thu thập dữ liệu truy cập được trang đó. Nếu bị chặn bởi một tệp robots.txt hoặc không thể truy cập vào trang, thì trình thu thập dữ liệu sẽ không thể nhìn thấy lệnhnoindex
và trang đó vẫn có thể xuất hiện trong kết quả tìm kiếm, ví dụ như khi các trang web khác liên kết đến trang đó.”
Làm thế nào để tôi có thể kiểm tra xem website đã được index hay chưa?
Khi nói đến việc kiểm tra xem các trang web có được crawling và indexing hay không hoặc nếu website có một số vấn đề về việc này thì có 1 số cách sau
Kiểm tra thủ công
Cách đơn giản nhất để kiểm tra xem trang web của bạn được lập chỉ mục hoặc không phải là để làm điều đó bằng tay bằng cách sử dụng lệnh search: “site:domaincuaban.com”
Nếu website của bạn đã được thu thập thông tin và lập chỉ mục, bạn sẽ thấy tất cả các trang được lập chỉ mục gần đúng số lượng trang được lập chỉ mục trong phần “Khoảng xxx kết quả(xx giây)”.
Nếu bạn muốn kiểm tra xem một URL cụ thể đã được lập chỉ mục hay chưa, hãy sử dụng chính xác URL thay vì chỉ mỗi domain:
Nếu trang web của bạn đã được lập chỉ mục, bạn sẽ thấy nó trong kết quả tìm kiếm.
Kiểm tra Phạm vi lập chỉ mục trong Google Search Console
Để có cái nhìn tổng quan chi tiết hơn về các trang đã được lập chỉ mục (hoặc chưa), bạn có thể sử dụng Phạm vi lập chỉ mục trong Google Search Console.
Biểu đồ có chi tiết trong Phạm vi lập chỉ mục có thể cung cấp thông tin có giá trị về trạng thái của URL và các loại vấn đề với các trang được thu thập dữ liệu và lập chỉ mục.
Sử dụng công cụ Kiểm tra URL
Công cụ Kiểm tra URL có thể cung cấp thông tin về các trang riêng lẻ trong website của bạn từ lần cuối cùng chúng được thu thập thông tin.
Bạn có thể kiểm tra xem trang web của mình có:
- Có một số vấn đề (với chi tiết về cách nó được phát hiện)
- Đã được thu thập thông tin và lần thu thập thông tin cuối cùng.
- Liệu trang có được index và có thể xuất hiện trong kết quả tìm kiếm hay không.
Trên đây là bài viết của Vinalink Media về Crawling và Indexing – Thu thập dữ liệu và lập chỉ mục một website, nếu có khó khăn nào trong việc này hay để lại bình luận dưới bài viết để nhận được giải đáp sớm nhất nhé.