Trùng lặp nội dung là gì? cánh sửa lỗi trùng lặp nội dung

Trùng lặp nội dung là gì? cánh sửa lỗi trùng lặp nội dung

Đánh giá bài viết này

Nội dung trùng lặp thường nói đến các nội dung thực trong 1 bài viết hoặc trên toàn miền, hoàn toàn khớp với nội dung khác hoặc rất giống với nội dung khác trên website. Hầu như, về nguyên gốc, đây không phải nội dung giả mạo. Ví dụ về nội dung trùng lặp không gây hại có thể là:

  • Các diễn đàn thảo luận họ có thể tạo cả trang thông thường và trang cơ sở nhằm hướng đến các thiết bị di động (giao diện trên di động)
  • Các mục lưu trữ được hiển thị hoặc được liên kết thông qua nhiều URL riêng biệt
  • Các phiên bản trang web chỉ dành cho máy in

Nếu trang web của bạn chứa nhiều trang có nội dung giống hệt nhau, bạn đừng lo có nhiều cách để bạn có thể chỉ cho Google URL ưa thích của bạn. (Việc này được gọi là “chuẩn hoá”.) Thêm thông tin về chuẩn hóa cho website.

Two twin babies, seven-month smiling girls in bed on white sheets
** Note: Visible grain at 100%, best at smaller sizes

Tuy nhiên, trong một số trường hợp, nội dung bị trùng lặp trên toàn trang web có chủ dích nhằm thao túng đưa web lên top xếp hạng của công cụ tìm kiếm hoặc để đạt được nhiều lưu lượng truy cập hơn. Những hành động giả mạo như vậy có thể dẫn đến việc người dùng cảm thấy khó chịu khi một khách truy cập xem được nội dung, về cơ bản, là giống nhau được lặp lại trong một loạt kết quả tìm kiếm. Google

1. Trùng lặp nội dung nội bộ website là gì?

Nội dung trùng lặp nội bộ website là nội dung giống hệt hoặc tương tự nằm trong một website có 1 domain chung. Những nội dung trùng lặp này được tạo ra bởi quá trình xây dựng nội dung cho website chưa có khảo sát tính toán cụ thể.

Dưới đây là các trường hợp thường gặp phải lỗi nội dung trùng lặp nội bộ website :

  • Trang Tag
  • Trang Filter
  • Kết quả trang search nội bộ
  • Trang Category
  • Trang sản phẩm đơn lẻ bị add vào nhiều Category khác nhau
  • Phân trang ( xem thêm hướng dẫn từ Google về nội dung được phân trang )

2. Tìm hiểu trùng lặp nổi dung là gì?

Nội dung trùng lặp ( duplicate content ) hiểu đơn giản chúng ta được hiểu là một nội dung mới giống 100% một bản sao với nội dung Gốc.

Những điển hình của nội dung trùng lặp :

  • Nội dung chính xác hoàn toàn , hoặc phần lớn các nội dung tương tự
  • Nội dung trên một số lĩnh vực, tên miền phụ hoặc URL đồng thời có thể truy cập (www / non-www / http / https / index.html /? Utm … =)
  • Từ khoá, tiêu đề, mô tả, nội dung trong bài giống hệt nhau

Các loại Google không cho là trùng lặp

  • Dịch thủ công
  • Nội dung trong Apps
  • Nội dung địa phương …vùng miền

3. Trùng lặp nội dung bên ngoài là gì?

Nội dung trùng lặp bên ngoài nói một cách dễ hiểu gần giống với nội dung trùng lặp nội bộ, đều là các nội dung giống hệt hoặc tương tự được sinh ra, nhưng điều khác ở đây là chúng không cùng nằm trong một  tên miền (domain).
Loại nội dung trùng lặp này thì thường sẽ là một lỗi khá nặng đối với bộ lọc của Google, sau đây Làm web chuẩn seo sẽ gợi ý vài trường hợp điển hình có thể gặp :

  • Các bài viết mô tả Sản Phẩm của những trang thương mại điện tử
  • Nội dung tạo ra bằng cách sử dụng kỹ thuật tạo từ đồng nghĩa hoặc mã hóa ( spin content )
  • Ăn trộm nội dung của đối thủ coppy thủ công
  • Nội dung cóp nhặt
  • Lấy nội dung qua RSS feeds
  • Sử dụng lại các thông cáo báo chí
  • Sử dụng nội dung (content) của các affiliate sites

4. Tìm hiểu cánh google phát hiện nội dung trùng lặp

Kĩ thuật lọc nội dung và xác định nội dung của công cụ Google nằm ở 3 điểm khi Google lập chỉ mục nội dung trên website :

  • Khi lên Lịch ( Scheduler )
  • Trong thời gian lập chỉ mục ( indexing )
  • Trong các kết quả tìm kiếm

5. Google đánh giá nội dung trung lặp như thế nào?

Google đang nỗ lực cố gắng  để lập chỉ mục và hiển thị các trang với thông tin riêng biệt, họ muốn đưa tới người dùng một kết quả tìm kiếm liên quan đến tìm kiếm của người dùng nhất mang đến nội dung mà người dùng thực sự cần.
Tuy nhiên thì vẫn có một vài lí do khác mà Google chưa đề cập đến :

Google phải tiết kiệm thời gian khi lọc nội dung

Có vẻ không khó hiểu với các bạn, nhưng Admin cũng xin nói qua một chút, Google có hàng chục triệu website mới cần index mỗi ngày và có hàng tỉ bài viết mới , với một khoảng thời gian giới hạn hệ thống cần phải thu thập hết dữ liệu về để phân loiaj xếp hạng.

Quá nhiều nội dung trả về mỗi ngày nên nếu nội dung trùng lặp không được loại bỏ ngay Google sẽ không còn đủ thời gian để crawl và nó sẽ kết thúc sớm hơn.

Và điều này dẫn tới các URL quan trọng không được lập chỉ mục.

Google phải tiết kiệm khả năng lưu trữ khi lọc nội dung

Lý do này thuyết phục nhất, bởi bộ nhớ Google mặc dù là khổng lồ, nhưng tốc độ tăng trưởng sinh ra các website thực sự quá nhanh, Google cần phải lo lắng cho hệ thống lưu trữ của mình và loại bỏ những nội dung trùng lặp là cần thiết

.

6. Google phạt nội dung trùng lặp như thế nào?.

Đối với trùng lặp nội dung nội bộ được nêu ở trên gần như Google không áp dụng hình phạt với chúng, tuy nhiên với trùng lặp nội dung bên ngoài Google rất gay gắt với chúng. Và có các hình phạt như

  • Thứ hạng giảm xuống nhanh chóng
  • Loại bỏ index
  • Loại bỏ website khỏi công cụ tìm kiếm nếu có nhiều bài sao chép trùng lặp

7. Google phát hiện bài viết gốc bằng cánh nào?

Admin xin trả lời như sau, Google xác định bài viết gốc khi mà chỉ khi website chứa bài viết được lập chỉ mục ( index ) đầu tiên.

Điều này nó gây ra những vấn đề đặc biệt mà trước đây đã từng gặp phải, là các trang web mới ( nó hiếm khi được Google bot ghé thăm và index ) bị một trang uy tín hay một trang được Google bot thường xuyên ghé thăm copy bài. Nghiễm nhiên kẻ copy lại được lên thứ hạng cao, trong khi nội dung gốc lại tụt dần và biến mất.

Để khắc phục điều mới nêu trên thì, sau khi viết bài xong các bạn hãy truy cập Search console của mình và submit URL của bài viết mới của mọi người ngay lập tức.

Dựa trên gợi ý của Google dưới đây, mọi người có thể dễ dàng giải quyết vấn đề về nội dung trùng lặp theo một số bước và đảm bảo rằng khách truy cập sẽ xem được nội dung mà mọi người muốn họ xem.8. Cách sử lý với nội dung trùng lặp!

  • Đồng nhất: Mọi người nên giữ liên kết nội bộ đồng nhất. Ví dụ: không liên kết tới example.com/page/ và example.com/page và example.com/page/index.htm.
  • Tránh xuất bản nội dung trang trống : người dùng không muốn nhìn thấy các trang “trống”.
  • Hiểu được hệ thống quản lý nội dung của mọi người : đảm bảo rằng mọi người biết rõ cách thức hiển thị nội dung trên trang web của mọi người.Ví dụ: rất dễ trùng lặp nếu mọi người để url theo các category hoặc tag khác nhau, nếu không tối ưu url ( example.com/abc/noi-dung-trung-lap và example.com/cde/noi-dung-trung-lap )
  • Sử dụng các tên miền cấp cao: Để giúp Google cung cấp phiên bản tài liệu phù hợp nhất, hãy sử dụng các tên miền cấp cao bất cứ khi nào có thể để quản lý nội dung theo từng quốc gia. Ví dụ: example.vn chứa nội dung tập trung vào nước Đức hơn là example.com/vi hoặc vn.example.com.
  • Thận trọng khi cung cấp nội dung ra ngoài: Nếu mọi người cung cấp nội dung của mình cho nhiều trang web khác, Google sẽ luôn hiển thị phiên bản mà Google cho là phù hợp nhất đối với người sử dụng trong mỗi tìm kiếm định sẵn.
  • Tuy nhiên, sẽ rất hữu ích khi đảm bảo rằng mỗi trang web được mọi người cung cấp nội dung đều có chứa một liên kết quay trở lại bài viết gốc của mình. Mọi người cũng có thể yêu cầu những người sử dụng tài liệu do mọi người cung cấp sử dụng thẻ meta noindex để ngăn công cụ tìm kiếm lập chỉ mục phiên bản nội dung của họ.
  • Sử dụng 301: Nếu mọi người đã cấu trúc lại trang web của mình, hãy sử dụng chuyển hướng 301 (“RedirectPermanent”) trong tệp .htaccess của mọi người để chuyển hướng nhanh người dùng, Googlebot và các trình thu thập dữ liệu khác
  • Sử dụng meta noindex : nếu phát hiện nội dung trùng lặp mọi người cũng có thể nhanh chóng triển khai trong meta thẻ noindex để chặn bot index bài viết này, tránh ảnh hướng xấu toàn site.
  • Sử dụng canonical : Nếu mọi người vẫn muốn giữ nội dung đó là cho website của mọi người mà không muốn sử dụng noindex thì mọi người có thể thêm rel=”canonical” vào trong thẻ meta.
  • Sử dụng Search Console : để cho Google biết cách mọi người muốn trang web của mọi người được lập chỉ mục. Mọi người có thể cho Google biết miền ưa thích của mình
  • (ví dụ: www.example.com hay example.com).
  • Giảm thiểu sự lặp lại của nội dung cần thiết : Ví dụ: thay vì đặt văn bản dài dòng về nội dung bản quyền ở cuối mỗi trang, hãy chèn một bản tổng hợp vắn tắt và sau đó liên kết tới một trang chi tiết hơn. Hoặc sử dụng hình ảnh chứa nội dung đó.
  • Giảm thiểu nội dung tương tự nhau: Nếu mọi người có nhiều trang tương tự nhau, hãy cân nhắc việc mở rộng mỗi trang hoặc hợp nhất các trang thành một.

Related posts