robots.txt и sitemap.xml

radev

Well-Known Member
Забелязах, че в много уеб сайтове вече хората хакат sitemap урл-та си със синтаксис:

HTML:
Sitemap: http://www.site.com/sitemap.xml

Това за какво се прави и от кога е?!
Хакнах и аз. Теста на файла мина няма грешки нищо няма.. Ново 20 ми е.

Тествам

HTML:
www.site.com/

и ми казва

Детектнато като директория различни файлове може да имат различни рестрикции

тествам:

HTML:
www.site.com

и ми казва

Allowed

горното съобщение, където казва, че УРЛ-то ми е директория не ме кефи много :evil:

така ли е при вас и нормално ли е?




Защо като искам да цъкна да показва урл-тата като www
и после ме кара да валидейтна същия сайт само че без www
и така имам два адреса валидейтнати в Google Webmasters Tools акаунта ми за един и същ сайт. И това нещо не ми вдъхва доверие.. :(
 
От: robots.txt и sitemap.xml

Това за какво се прави и от кога е?!
Хакнах и аз. Теста на файла мина няма грешки нищо няма.. Ново 20 ми е.

От скоро, казват, че помагало :).

Защо като искам да цъкна да показва урл-тата като www
и после ме кара да валидейтна същия сайт само че без www
и така имам два адреса валидейтнати в Google Webmasters Tools акаунта ми за един и същ сайт. И това нещо не ми вдъхва доверие.. :(

Пълно безумие, според тях е защото можело двата сайта да са на различни собственици. Аз вкарвам и двата и после изтривам този дето не го искам :)
 
От: robots.txt и sitemap.xml

Слагаше се в роботса преди 2-3 години, след което излезе информацията, че ботовете не обръщат внимание на това. После мненията се разделиха; едни не виждаха смисъл да си пълнят роботса с какво ли не, други пък спореха, че това упътвало паяците. А че се появило отново сега... ми въпрос на мода, най-вероятно. Както най-често се случва - някой видял някъде, та сложил и той да пробва. И лека-полека от компот до компот си става цел опаковъчен цех.
 
От: robots.txt и sitemap.xml

Аз сложих роботс-а щото посотянно Downloaded 4 hours ago и Not found. Търси си го всеки път поне да миряса. Никога не съм слагал тия файлове. Все тая
Зора ми е за тия глупости с сайтовете за какво трябва двата да верифайвам. Как сайта ввв.сайт.ком ще е мои, а сайт.ком ще е на Пешо. ?!
Верифайнах го, та наместих показването на домейните и после го изтрих. Искам само да не се скапе нещо.

А това някакви идеи:



HTML:
Тествам



www.site.com/

и ми казва

Детектнато като директория различни файлове може да имат различни рестрикции

тествам:

HTML Code:

www.site.com

и ми казва

Allowed

горното съобщение, където казва, че УРЛ-то ми е директория не ме кефи много
 
От: robots.txt и sitemap.xml

1. По протокол го има - [URL]http://www.sitemaps.org/protocol.php#submit_robots[/URL] , така че оплакванията са само от някои валидатори
2. Може Пешо да ти е администратора на мейл-сървъра на site.com примерно и идеята е админът на сайта www.site.com да няма права и да не се бърка в неговата работа, а двамата си имат различни акаунти в GWT. Затова вариантът на vaskoa си е най-разпространения засега - слагаш и двата в GWT, валидираш и после триеш излишния.
3. По третия въпрос, ако съм го разбрал правилно, то ботът възприема / като символ за директория и почва да я жъне като директория, докато без / за него си е страница с изходящи линкове
 
От: robots.txt и sitemap.xml

...
3. По третия въпрос, ако съм го разбрал правилно, то ботът възприема / като символ за директория и почва да я жъне като директория, докато без / за него си е страница с изходящи линкове

влез си в уебмастър туулса
иди на тестване на роботса
напиши URL-то с и без /
и виж как вади различни съобщения

тоест не знам дали на теб ще вади де.
Това питах
вади ли ти на теб?


@DR_GIGGULS
по темата имаш ли да казваш нещо или се правиш просто на умен?
 
От: robots.txt и sitemap.xml

Аз го казах и не е нужно много, за да ме разбере човек. Домейн, написан с www и такъв, написан без, могат да вадят съвсем различни страници.

ПП: дали ще е с наклонена черта накрая или не - това са митове - няма никакво значение.
 

Горе