Waarom u zou moeten ophouden ongerust makend over het vermijden van de dubbele inhoudssanctie

Gepost op 21 September, 2007 in 8:47 am

O.k., zodat schijnt het als iedereen en iedereen die een blog of „beginnen optimaliseren van“ hun blog is betrokken over dubbele inhoudssancties van Google en zo volledig zwenken van remedies van het toevoegen van allerlei hebben bedacht verbied verklaringen  aan hun robots.txt dossiers aan het installeren van sEO-Geoptimaliseerde dubbel-tevreden-geneest plugins voor WordPress, enz.

En ik ben geen speciale persoon, heb ik meer dan 30 lijnen in mijn robots.txt dossier om Google van mijn omslagen van wp, mijn archiefpagina's, mijn markeringspagina's, en partijen meer te blokkeren! Ik heb ook SEO geïnstalleerde� WordPress plugin dat de hulp „supplementaire resultaten“ door toe te voegen verhindert NOINDEX meta markering aan mijn categorie en archiefpagina's. Fundamenteel, zijn de enige pagina's dat ik Google om toesta toegang te hebben tot daadwerkelijke permalinks URLs voor mijn posten en mijn statische pagina's.

Dat is het! Niets anders! Als u a uitvoert plaats: www.online-tech-tips.com zoek in Google, zal u zien het enkel mijn artikelen en niets anders is.

google plaats

Nu toen I eerst dit uitvoerde, dacht ik dat ik iets deed die mijn het rangschikken in Google nadenkend zou bevorderen het geworpen zou vermijden wordend in de supplementaire resultaten. Nochtans, in de loop van de laatste maanden, heb ik andere bloggers als gevraagd Lorelle en Amit ongeveer welke soorten maatregelen zij hebben getroffen en geschokt om dubbele inhoud te verhinderen door de reacties.

Hier was de reactie van Lorelle op mijn vraag:

ik? Of WordPress.com? Dit is WordPress.com blog. U zult aan hen over hun robots.txt moeten spreken.

De dubbele inhoudskwestie is één dat bloggers Uitweg van controle hebben genomen. De dubbele inhoud is natuurlijk op blogs. Beklemtoon niet over het. De kwestie is specifiek verwant met kwade doers die dubbele inhoud voor hun splogs, en overdwars het stelen van inhoud van andere blogs of het kopiëren van inhoud van hun splogs aan hun andere splogs gebruiken. Het moet het kwaad, niet normale blogger aanpakken.

Met een bepaalde bedoeling dacht ik dat dergelijke grote bloggers helemaal over deze „kwesties“ zouden geweest zijn. Zo besliste ik a uit te voeren plaats: zoek op een paar grote naam blogs als ProBlogger.net, CopyBlogger.com, Lifehacker.com, en SEOMoz.com. Goed was het vrij interessant wat ik over kwam. Elk van deze plaatsen krijgen duizenden bezoekers een dag van de onderzoeksmotoren en toch enkel over alles door Google met inbegrip van archiefpagina's, categoriepagina's, markeringspagina's, en commentaren geïndexeerdn!

Zo na het doen van dit, werd ik nieuwsgieriger over de vraag of mijn 30 lijn robots.txt werkelijk noodzakelijk is! Welk soort robots.txt dossier gebruiken deze kerels? Zo hier is wat de mijn als vanaf op dit ogenblik kijkt:

Gebruiker-agent: Googlebot
Verbied: */feed*
Verbied: */rss*
Verbied: */trackback*
Verbied: */wp-admin
Disallow: */wp-content
Disallow: */wp-includes
Disallow: *wp-login.php
Disallow: */20*
Disallow: */comments*
Allow: */category/*/page/*
Disallow: /page*
Disallow: */search*
Disallow: */?s*
Disallow: */?p*
Disallow: */index.php?p*
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.cgi$
Disallow: /*.wmv$
Disallow: /*.cgi$
Disallow: /*.xhtml$
Disallow: /*.php*
Disallow: */trackback*
Disallow: /*?*
Disallow: /z/
Disallow: /wp-*
Disallow: */tag/
Disallow: */stats*
Disallow: */cgi-bin*
Allow: /wp-content/uploads/

User-agent: Googlebot-Image
Allow: /*

Sitemap: http://www.online-tech-tips.com/sitemap.xml

Now let’s take a look at a few from the big bloggers! So here’s what the robots.txt file looks like for the following sites:

Problogger.net

User-agent: *
Disallow:

LifeHacker.com

User-Agent: Googlebot
Disallow: /index.xml$
Disallow: /excerpts.xml$
Allow: /sitemap.xml$
Disallow: /*view=rss$
Disallow: /*?view=rss$
Disallow: /*format=rss$
Disallow: /*?format=rss$
Sitemap: http://lifehacker.com/sitemap.xml

CopyBlogger.com

User-agent: *
Disallow: /*/feed/
Disallow: /*/trackback/

TechCrunch.com

User-agent: *
Disallow: /*/feed/
Disallow: /*/trackback/

Mashable.com

User-agent: *
Disallow: /feed
Disallow: /*.xml$
Disallow: /*/feed/
Disallow: /*/trackback/

Ok, so as you can see from the above list, EVERYONE’s list is a hell of a lot shorter than mine and my list was created by reading through all kinds of posts talking about how everything must be blocked or disallowed. Well, obviously if the top bloggers are not worrying about duplicate content than why should I be! Actually, it seems like maybe it’s even helping them in some kind of way.

So before you go installing lots of plugins that prevent Google from indexing your site completely, remember two things:

1. Doesn’t seem like any of the really popular blogs are doing anything about it and

2. The supplemental results database no longer exists in Google anyway!

My next step is to remove all of my the disallow statements from my robots.txt file and see what happens! Any one else try this yet?

Also, another observation that may be obvious, but warrants a mention is the fact that all of these people write GREAT content and a LOT of it. So you can do all the optimizing you want, but unless you have really good content that people will link to, bookmark, and visit again, it’s not really going to matter!

Tell me what you think in the comments! ;)

Technorati Tags: , ,

Popularity: 2% [?]

If you enjoyed this post, make sure you subscribe to my RSS feed!

» Filed Under Blogging

Related Posts

4 Responses to “Why you should stop worrying about avoiding the duplicate content penalty”

  1. Siddharth said on :

    One question regarding duplicate content please ?
    I write for some more sites
    especially techtoday one of my really good friend
    I need to ask that I directly copy and paste from my site to his
    SO will it panelize me or him??????
    thx :-)


  2. akishore said on :

    Well it depends. If you write the content on your site and immediately post it on his site, the site that will be penalized will be the one that Google indexes LAST. So if the Google bot indexes your Page1.html, let’s say, first and then goes to his site and see the same content, his site will be penalized. But if it’s the other way around, you will be penalized.

    Basically, the content should only be on one person’s site because no matter how you do it, only one will be in the main index.


  3. Siddharth said on :

    hmm
    I immediately post in his site
    So wht if I do a bit of change in that article and then post it??????


  4. akishore said on :

    Your changes should be significant, minor changes won’t really help. Actually, it would be much smarter to write the article and have it posted on ONE site and then have the other site link back to that article with good keywords in the link. That way both sites will be getting high quality back links, which is one of the most important factors in Google’s ranking algorithm. Don’t worry about having the content on both sites.


Please post your comments/suggestions!