Chủ Nhật, 9 tháng 6, 2019

Link hỏng 404 có gây hại cho bạn hay không?

Tags


Bạn là một webmaster, và ngày đẹp trời nọ bạn nhìn thoáng qua mục Crawl index errors và giật mình dụi mắt khi con số 404 errors ngập tràn. Tận thế rồi chăng?


Không có gì phải sợ, cứ bình tĩnh, đọc hết bài này là bạn sẽ... master thôi

Xem thêm:

Chủ đề này không gì bằng Hỏi Đáp thực tế.

Q: Link hỏng 404 được Webmaster Tools liệt kê có ảnh hưởng tới rank của website?

A: 404s là một thành phần hoàn hảo của web. Internet luôn thay đổi không ngừng, nội dung mới ra đời từng giây phút, nội dung cũ chết đi, bị xóa bỏ, quên lãng, và lúc đó, khi một truy cập vào địa chỉ cũ của nó, một đoạn code 404 HTTP được gửi đến người dùng thay vì nội dung họ tìm kiếm. Những bộ máy tìm kiếm biết điều này và luôn để tâm đến.

Google hiện có rất nhiều trang lỗi 404 ngay trên trang chủ của họ, blog của họ (nhìn hình trên) dù họ tối ưu web/blog hàng ngày hàng giờ. Hãy chú ý rằng Google thích nhận được code chuẩn 404 HTTP phản hồi hơn là loại "soft 404", vì khi đó, con bot của họ vẫn có thể mò tìm ra nơi gây lỗi, đính flag 404 lên nó và lưu ý. Nếu đủ 404 phản hồi, họ có thể drop liên kết đó ra khỏi trang tìm kiếm. Vì vậy, khi trang web của bạn "chết", hãy để nó chết "tự nhiên" hoặc dùng Google webmaster tool để xóa liên kết đó, hơn là dùng robots.txt để block không cho Google bot dò tìm. Sự thật không giống giang hồ đồn đại đâu, vài trang web của bạn phản hồi code 404 cho Google không có nghĩa bạn sẽ bị đánh giá thấp, với 200 indexes chẳng hạn.

google-404

Q: Vậy là 404s không hề hại đến trang web của tôi?

A: Nếu vài địa chỉ URL trên site của bạn gửi code 404, nó hoàn toàn không làm tổn thương thứ hạng, điểm số của bạn trong cơ sở dữ liệu của Google. Tuy nhiên, có thể có một số lý do khác mà bạn sẽ cần cấu hình lại code 404 này. Ví dụ như vài trang web bạn thực sự quan tâm, bạn tìm hiểu tại sao lại bị Google đánh dấu errors khi index?

Nếu bạn thấy có sự nhầm lẫn gì đó ở đây về địa chỉ liên kết (chẳng hạn www.example.com/awsome thay vì www.example.com/awesome), thì điều đó có vẻ như ai đó rất thích bài đó và liên kết đến địa chỉ gốc, bằng một cách sai. Thay vì chấp nhận 404 code, bạn có thể cấu hình code 301 redirect URL thiếu sót đó để nó điều hướng đến đúng địa chỉ thật và giữ nguyên lưu lượng traffic. Bạn cũng cần bảo dảm, khi người dùng gặp trang 404 của bạn, hãy đảm bảo bạn cung cấp đủ thông tin để họ tìm được nơi cần tìm - hơn là dòng thông báo gọn lỏn “404 Not found."

Q: Giải thích thêm “soft 404s.”

A: soft 404 là khi web server trả về một code khác 404 (hoặc 410) khi trình duyệt web yêu cầu một đường link không tồn tại. Ví dụ thường thấy cho trường hợp này là khi admin của một trang web muốn trả về một trang 404 được tùy chỉnh với nhiều thông tin hữu ích cho người dùng. Lúc đó, thay vì chỉ gửi về 1 code phúc đáp 404 là đủ thì admin gửi về một lô 200 code phản hồi, có nghĩa bạn có thể gửi code 404 về cùng với một nội dung tùy ý.

Một ví dụ khác là khi trang web redirects tất cả các URL không rõ về trang chủ của nó thay vì về trang 404s như thường lệ. (khotuts.com dùng cách này, bạn có thể thử với một địa chỉ không có thực để xem). Cả hai trường hợp trên có thể sẽ có tác dụng phụ không mong muốn khi làm khó Google trong việc indexing và hiểu rõ trang web của bạn. Google khuyến cáo bạn nên thiết lập sao cho website của bạn phản hồi lại đúng code 404s đối với những trường hợp link bị hổng. Hãy nhớ rằng không phải trang web hiển thị dòng chữ 404 Page not found tức có nghĩa nó gửi về code 404 HTTP. Nếu bạn không biết cách cấu hình để trang web của bạn gửi code 404 một cách đúng đắn, hãy nhờ Google và nhờ tool này kiểm tra Fetch as Googlebot.

Q: Khi nào thì tôi nên dùng 404, hay 301, hoặc 410?

A: Khi bạn gỡ bỏ một trang liên kết khỏi website, hãy nghĩ tới nơi nó sẽ được chuyển đến hoặc bạn muốn chôn vùi nó vĩnh viễn. Nếu bạn di dời nội dung (content) đó đến một URL mới, bạn nên dùng 301 redirect URL cũ tới URL mới, giúp người dùng vẫn đến đúng nơi họ muốn. Nếu bạn không muốn lưu lại nội dung đó trên website lẫn internet, lúc đó URL cũ nên trả về một code 404 hoặc 410 HTTP. Hiện nay (April 2016) Google xem code 410 như là 404, nên bạn dùng cách nào thấy tiện.

Q: Hầu hết lỗi 404 của trang web đều xuất phát từ các URL rất kì lạ chưa tưng tồn tại trong trang web của tôi. Chuyện gì xảy ra vậy? Chúng từ đâu đến?

A: Nếu  Google tìm thấy một liên kết nơi nào đó trên trang web trỏ đến một page trên domain của bạn, nó sẽ cố gắng lần theo link đó để index, ngay cả khi nội dung đó có tồn tại hay không; và khi nó mò (crawl) theo link, website của bạn sẽ gửi Google một code 404 nếu không có nội dung nào tồn tại. Các liên kết kiểu đó có thể tạo ra bởi ai đó khi cố gắng liên kết đến trang web của bạn, hoặc do sự nhầm lẫn, cấu hình sai (như khi link tự động được tạo ra bởi các CMS như WordPress chẳng hạn) hoặc có thể bởi chính Google khi cố gắng xác định đích đến giữa muôn trùng Javascript và jQuery code, hoặc chỉ là một dạng test thử nghiệm mức độ phản hồi, đáp ứng của web server của bạn bằng cách gửi hàng loạt truy vấn nào đó (các tool check web online hay dùng kiểu này nhất) để đo lường khả năng đáp ứng của server với các liên kết họ gửi đến để test. Nếu bạn thấy code 404 trong link không tồn tại trên website của bạn, hãy đơn giản là bỏ qua mặc kệ chúng. Google không thể biết rằng URL nào là quan trọng với bạn hoặc URL nào sẽ gửi 404 nên họ sẽ liệt kê tất cả 404s URL và cho bạn quyền quyết định.

Q: Ai đó đã "mò mẫm" (scraped) trang web của tôi gây ra hàng tá 404s code. Đó nhìn chung lại toàn là URL có thực với một chút nhầm lẫn ở đây dạng như: http://www.example.com/images/kittens.jpg" width="100" height="300" alt="kittens"/>

A: Một cách tổng quát thì bạn không phải lo lắng về vấn đề "broken links" bởi nó chẳng thể làm hại trang web của bạn, đặc biệt về mặt SEO. Các webmaster rất khó kiểm soát trang web của mình từ việc bị quét, rà bởi người ngoài vì thực sự cần một số kiến thức khá cao cấp cho việc chống đỡ. Nếu bạn là chuyên gia về regex, bạn có thể điều hướng (redirect) các URLs đó theo cách mô tả ở đây nhưng tôi phải nhắc lại là bạn không cần quá lo âu về link hỏng loại này. Ngay cả người dùng cũng sẽ không bào giờ đi theo một liên kết như vậy. Bạn có thể yêu cầu takedown request khi tin rằng có ai đó ăn cắp nội dung của bạn.

Q: Tuần trước tôi vừa fixed tất cả lỗi 404s mà Webmaster Tools báo, nhưng sao nó vẫn hiển thị trong tài khoản của tôi. Tôi có làm sai điều gì chăng? Bao lâu thì nó biến mất?

A: Hãy xem qua cột ‘Detected’ ở trang Crawl errors của bạn—đó là những lỗi hiển thị gần đây nhất mà Google thu nhặt được từ website của bạn., điều đó có nghĩa Google không hề gặp bất kì lỗi 404s nào khác từ dạo bạn fix lần cuối.

Sau khi fix xong, bạn có thể kiểm tra lại Google có nhận được code phản hồi mới không bằng tool  Fetch as Googlebot. Thử kiểm tra vài URL, nếu ổn thì các lỗi đó sẽ nhanh chóng biến mất khỏi Crawl errors thôi.

Q: Tôi có thể sử dụng công cụ URL removal của Google để làm mấy cái lỗi 404 biến khỏi tài khoản của tôi nhanh hơn không?

A: KHÔNG; công cụ URL removal gỡ bỏ các URLs từ trang kết quả tìm kiếm của Google, không phải từ tài khoản Webmaster Tools của bạn. Nó được thiết kế nhằm hỗ trợ việc gỡ bỏ nhanh chóng thôi, và thực sự thì sử dụng nó cũng không cần thiết vì bản thân URL hỏng đã gửi code 404 về cho Google, tức là nó sẽ tự biến mất theo thời gian mà không cần động tay chân (tất nhiên là phải có code 404). Đọc thêm bài ở đây this blog post để tìm hiểu thêm về vấn đề bạn quan tâm nhé

Related Posts