В порядке бреда, уникальный контент
Welcome back!
Если честно, я никогда не задумывался о том, как Яшендекс и Гульбля анализируют контент на уникальность. Слышал про шинглы и всё такое. Но если подумать абстрактно. Есть миллиарды текстов. И есть наш один. Если мы будем брать его и используя сложные алгоритмы, всякие шинглы и прочее, сравнивать со всеми текстами, которые есть в нашей базе, то тому же яндексу придётся покупать отдельный гугл для того, чтобы занимался анализом. Или хотя бы парочку “суперкомпьютеров”. Так что есть два варианта:
1. Анализ уникальности очень прост и быстр.
2. Анализ уникальности текста проводится не в сравнении со всеми текстами, а в сравнении с группой текстов.
Я думаю, вероятнее второй вариант, учитывая то, что распознаётся и синонимизированный текст и генерированный и даже последнее время рерайты слетают только в путь. Вывод: анализ сложный. Текстов мало сравнивается, следовательно, есть предварительный отбор. Следовательно, чтобы наш текст был признан уникальным надо что? Просто попасть не в ту группу, откуда он взят.
Мысль эта пришла мне во ремя создания текста про автомобиль. Я пишу про одну модель, но ведь про неё написано дофига и везде одно и то же. Притом в топах зачастую тексты с путаницей информации. И посещает меня мысль: а если описать не эту модель, а другую? Вставив название нужной мне модели. Например, в текст про короллу можно вставить название шестёрки. Просекут ли ПСы? Вероятнее всего, да. А вот если в рецепты салатов начать вставлять медицинскую лексику… Или в стихи элементы автомобиля… Или в описании автомобиля на самом деле описывать смартфон…
В общем, при творческом подходе и некривых руках, можно автоматизировать процесс “донемогу” и “сработать” кнопку “бабло”.
Постовой.
Когда у меня будет дом, я буду знать, где можно купить бильярдный стол, потому что думаю на первом этаже сделать небольшой спортзал. бильярд не помешает. Даже в бане.
Популярность: 2%
Дата публикации:
Четверг, декабря 31, 2009 в 01:35 под рубрикой

товарисчи из Яндекса не скрывают некоторые подходы к поиску дублей
декабря 31, 2009 на 03:50ну мне кажется, в этом вопросе дезинформацию пустить только выгодно. )Так что увернности в том, что товарищи из яндекса не фантазируют лично у меня почему-то нет. ))
декабря 31, 2009 на 09:53Я полагаю, что сравнение с группой текстов – это очень легкий алгоритм. По-моему у яндекса или гугла достаточно мощностей, чтобы осуществить сравнение на уникальность по всему массиву.
января 4, 2010 на 23:23Проверять каждый текст по всем экзабайтам ежедневно входящей новой и псеводновой информации?
января 10, 2010 на 02:52Яндекс купил у америкосов скрипт, чтобы анализировать контент, так что рерайт теперь трудно печатать будет..
февраля 3, 2010 на 23:08Интересная мысль… Нужно будет попробовать…
марта 4, 2010 на 19:17Блин народ, да что вы всё завадили уникальность/копипаст!Очнитесь! Да фигня это всё- это далеко не самый главный фактор!Харош верить в хорошо пропаренные мифы…
марта 15, 2010 на 04:49Если бы было так, то в рунете не было бы такой кучи варезников и новостников тырящих новости друг у друга!