<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>SEO оптимизация, дорвеи &#187; Дорвеи</title>
	<atom:link href="http://seo007.ru/dorvei.html/feed" rel="self" type="application/rss+xml" />
	<link>http://seo007.ru</link>
	<description>Оптимизация wordpress, сервисы SEO, продвижение в поисковиках</description>
	<lastBuildDate>Sat, 21 Nov 2009 12:31:13 +0000</lastBuildDate>
	<generator>http://wordpress.org/?v=2.8.6</generator>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
			<item>
		<title>Как бы я уничтожал дорвеи</title>
		<link>http://seo007.ru/dorvei/kak-by-ya-unichtozhal-dorvei.html</link>
		<comments>http://seo007.ru/dorvei/kak-by-ya-unichtozhal-dorvei.html#comments</comments>
		<pubDate>Sat, 21 Nov 2009 11:40:57 +0000</pubDate>
		<dc:creator>admin</dc:creator>
				<category><![CDATA[Дорвеи]]></category>

		<guid isPermaLink="false">http://seo007.ru/?p=43</guid>
		<description><![CDATA[Если бы я был поисковиком, &#8230; я бы дорвеи уничтожал. А вот как&#8230; давайте подумаем!
Какие бывают дорвеи:
1) Из полностью генеренного текста, с долей ключевика и разных всяких частей речи в нужных пропорциях.
2) Сделанные из нормального текста со вставками ключевых слов или фраз в текст (или заменами части слов на ключевик).
3) Сделанные из блоков нормального контента [...]]]></description>
			<content:encoded><![CDATA[<p>Если бы я был поисковиком, &#8230; я бы дорвеи уничтожал. А вот как&#8230; давайте подумаем!</p>
<p>Какие бывают дорвеи:</p>
<p>1) Из полностью генеренного текста, с долей ключевика и разных всяких частей речи в нужных пропорциях.</p>
<p>2) Сделанные из нормального текста со вставками ключевых слов или фраз в текст (или заменами части слов на ключевик).</p>
<p>3) Сделанные из блоков нормального контента на левую тему и блоков текста с ключевиками, тоже нормального и человеческого.<br />
<span id="more-43"></span><br />
Дорвеи первого типа, полностью генеренные. Плюс для дорвейщика: уникальность текста &#8211; он действительно уникален. Минус для человека: бред полный написан. Но главное &#8211; их легче определять. Например, у поисковиков есть специальные эвристики, наборы правил для нормализации (приведения слова к нормальной форме) &#8211; причем простенькие. Это называется стемминг. Лежат в открытом доступе.</p>
<p>Логично, что и прикидку по падежам, числам, склонениям и т.п. робот поисковика может с хорошей вероятностью угадать, не залезая в словарь. И рассогласования. например, в числе существительного и прилагательного, стоящих рядом, отловить. И многое другое того же рода.</p>
<p>Понятно, что включать звоночек модератору автомат будет только при тотально неграмотном тексте (в пределах документа, раздела, сайта&#8230;). А для снижения нагрузки можно не по каждому термину документа эту проверку делать, а только по тем, которых заметная доля (в тех же пределах, сайта или документа) или просто тех, которые на странице больше 1 раза встречаются.</p>
<p>Дорвеи третьего типа. Плюс для человека &#8211; язык нормальный, человеческий. Минус для дорвейщика: неуникальность фраз, предложений, блоков текста. Причем если &#8220;левый&#8221; контент еще можно натырить из разных мест и сделать его малоповторяющимся, то с текстом с ключевиками такое не пройдет.</p>
<p>Ну способы ловли неуникальных фрагментов описаны, например, у И. Сегаловича. Ставим длину шингла поменьше, ищем в пределах сайта&#8230; Определяем, что ключевой текст размазан тонким слоем по сайту.</p>
<p>Их, в общем-то, и банить не надо, пессимизировать достаточно.</p>
<p>Ну и дорвеи второго типа. Посложнее, т.к. здесь и куски текста более уникальные, и ошибок в согласовании меньше (допустим даже, что их нет!, т.е., дорвейщик и падеж правильный поставил, и вместо существительного существительное влепил &#8211; все по уму).</p>
<p>Однако ж юзер, читая текст, легко определит дорвей. А для робота маркером может быть, конечно, не отсутствие смысла в тексте, а наличие большого количества пар слов, которые не употребляются (редко употребляются) в нормальной жизни. Типа &#8220;зеленая турфирма&#8221;, &#8220;радостный ноутбук&#8221; и т.п. Только есть закавыка &#8211; слов много, а их пар &#8211; еще больше&#8230;</p>
<p>На это есть решение. Во-первых, данные о частоте употребления тех или иных слов хранятся. Берем &#8220;часто употребительные&#8221; слова, отдельно по частям речи. Планку на &#8220;часто&#8221; ставим исходя из общего объема расчетов и объема, выделенного под хранении информации о парах слов. Дальше по выбранным словам строим заведомо подъемное количество пар слов (в нормальных формах) и пробиваем, насколько часто в базе встречается каждая.</p>
<p>Дальше смотрим на статистику и ставим еще одну планку, отделяющую &#8220;разумные&#8221; пары слов и выбрасывающую &#8220;неразумные&#8221;.</p>
<p>Ну и по документу (разделу, сайту&#8230;) смотрим, сколько среди &#8220;значимых&#8221; слов есть &#8220;разумных&#8221; и &#8220;неразумных&#8221; пар. И если неразумных много &#8211; звоним в звоночек модератору&#8230;</p>
<p>***</p>
<p>Все. Остается только ждать.</p>
<p>PS Кстати, текст, генеренный с использованием цепей Маркова, не берется такими способами&#8230; Упс. Но зато в этот текст по своему хотению кейвордов напихать сложно.</p>
]]></content:encoded>
			<wfw:commentRss>http://seo007.ru/dorvei/kak-by-ya-unichtozhal-dorvei.html/feed</wfw:commentRss>
		<slash:comments>29</slash:comments>
		</item>
	</channel>
</rss>

