Принципа, на работа на сайтове като pazaruvaj . com

От: Re: Принципа, на работа на сайтове като pazaruvaj . com

Боже....... , чакам да ми създадеш юзър за mysql само за една колона тогава :cry:
Тц, тц, тц ако искам и само определени колони от таблицата може да виждаш :)

Код:
GRANT (ЩеГледашАмаСамоТазиКолона) SELECT ON СуперТайнаБаза.АреГледайБе TO 'uni-web'@'*';
 
От: Re: От: Re: От: Re: Принципа, на работа на сайтове като pazaruvaj . com

Стяга ме защото се опитват някои хора да ме убедят, че е възможно и лесно, да се създаде нещо подобно универсално, или пък е лесно да се наблъскат различни ботове за всеки сайт и да се следи постоянно всеки сайт дали няма да думне някоя промяна някъде. Мисля знаеш на какъв принцип работи един бот.
И аз така знам - не разбирам тогава 'де те стега чепика.
Ако ти се занимава да правиш такъв сайт - вече имаш основата. Дерзай.
 
Хахаха лесно нема....даже и в кенефа.
Ако си умен - няма да проверяваш всеки сайт всеки ден, всички продукти. Ще проверяваш определен артикул само когато се иска.
Например апарати - Никон д50
Имаш 20 сайта за апарати, и 20 бота или 20 фукции в един бот. Скрейпваш 1 път на седмица/месец.
След това знаеш утл-то за никон д50 във всеки сайт. Ако някой иска да види цените, просто отваряш 20 урл-та и парсваш на живо. Това е.
 
От: Re: Принципа, на работа на сайтове като pazaruvaj . com

При такава честота, няма да ефективно, а и не говоря за няколко сайта, а примерно за всички сайтове за имоти в бг. да кажем.
Хахаха лесно нема....даже и в кенефа.
Ако си умен - няма да проверяваш всеки сайт всеки ден, всички продукти. Ще проверяваш определен артикул само когато се иска.
Например апарати - Никон д50
Имаш 20 сайта за апарати, и 20 бота или 20 фукции в един бот. Скрейпваш 1 път на седмица/месец.
След това знаеш утл-то за никон д50 във всеки сайт. Ако някой иска да види цените, просто отваряш 20 урл-та и парсваш на живо. Това е.
 
Зависи каква ефективност търсиш. А и от продукта - някои продукти не се добавят всеки ден. Освен това сайта ти представя това което знае. Няма сайт в който да има всички продукти на пазара. А и не е нужно. Знае се кой са най-масовите 50 телефона, 50 лаптопа и тн.
 
От: Re: Принципа, на работа на сайтове като pazaruvaj . com

Идеята е точно, да има всички продукти, ако са само 50 един продукт се вкарва за две мин. :)
Зависи каква ефективност търсиш. А и от продукта - някои продукти не се добавят всеки ден. Освен това сайта ти представя това което знае. Няма сайт в който да има всички продукти на пазара. А и не е нужно. Знае се кой са най-масовите 50 телефона, 50 лаптопа и тн.
 
Re: От: Re: Принципа, на работа на сайтове като pazaruvaj . com

Идеята е точно, да има всички продукти, ако са само 50 един продукт се вкарва за две мин. :)

Ти ще имаш много повече (колкото има магазина при обхождане). Но ако в нея седмица добави 10 нови продукти - тях ще ги имаш следващия път.
Това цялото ако няма РСС/база данни.
 
От: Принципа, на работа на сайтове като pazaruvaj . com

@uni-web Ъ?!? Какви ги говориш?
Казах ти, че е просто да се реализи сайт като посочените, а не универсален парсер на съдържание от всички сайтове.

В България явно проблема, е че повечето "магазинери" не искат да пуснат rss фийд.
В Англия пък проблема беше, че всички искаха да видят поне 5 магазина, за да ти дадат достъп до фийдавете си.
 
От: Re: Принципа, на работа на сайтове като pazaruvaj . com

Боже....... , чакам да ми създадеш юзър за mysql само за една колона тогава :cry:
Това е правилният начин и точно по тази причина всяка модерна СУБД има такава функционалност.
 
От: Принципа, на работа на сайтове като pazaruvaj . com

Прочетох темата по диагонал, ноооо не знам как изобщо се зароди този спор за такъв "бот", щом така го наричате.

Видях някъде за честотата на обхождане? Защо трябва да е толкова рядко, при синхронизация през xml/json напр. нещата стават доста бързо, стига продуктите да не са няколко хиляди. Но такива казуси се решават при възникването им, няма генерално решение на всичко.

Тъй като ми се струва че изгубихте насока и малко мерена на .. става последните 1-2 страници, ми се ще да ви попитам какво мислите за микроформатите. Учудвам се, че никой не ги споменава, при условие, че говорите за crawl-ване на информация от всякакъв тип. Микроформата е може би единствено унифицирано средство, по което можете да познаете кое какво е и да вземете ценното съдържание от дадена уеб страница. За жалост(или за щастие) все още не е толкова масова, за да се разчита на това.

Интересно ми е какво мислите ще се промени след някоя и друга година, когато наистина стане масова :)
 
От: Re: Принципа, на работа на сайтове като pazaruvaj . com

Не става въпрос до достъп до бд. не виждаш ли за какво говорим?
Това е правилният начин и точно по тази причина всяка модерна СУБД има такава функционалност.
 
От: Re: Принципа, на работа на сайтове като pazaruvaj . com

Не става въпрос до достъп до бд. не виждаш ли за какво говорим?
За това си писах с колегата по скайп, още преди да се почне темата и общо взето сдъвках казаното в темата с пет изречения :D
 
От: Re: Принципа, на работа на сайтове като pazaruvaj . com

И като го сдъвка кво изплю? Подобно решение на xml, или rss. Знаеш за кво иде реч.
Да, не казвам, че трудно някой би се навил да ти даде достъп до бд.
За това си писах с колегата по скайп, още преди да се почне темата и общо взето сдъвках казаното в темата с пет изречения :D
 
От: Принципа, на работа на сайтове като pazaruvaj . com

Аз не се хваля жените ме хвалят, за туй де. Па за другото, аз си карам по темата.
Шшшш, я по кротко да не си сменяме шапките!:p
Повече креативност и решения да чета и по-малко мерене на първични полови белези! :wink:
 
От: Re: Принципа, на работа на сайтове като pazaruvaj . com

И като го сдъвка кво изплю? Подобно решение на xml, или rss. Знаеш за кво иде реч.
Да, не казвам, че трудно някой би се навил да ти даде достъп до бд.
Е то колко варианта може да има?

1. Дават ти данните в унифициран формат
2. Скрейпиш и се молиш да не си сменят често формата фийдовете или от каквото там си дърпаш
3. Вариация на 1 - ти им даваш вариант на скрипт разработен за популярните системи, с който получаваш унифицирани данни.

Какво си се хванал за БД, това беше отговор на тези две мнения :
Едниственото което не съм сигурен, е може ли mysql да има потребител който да вижда само една таблица.

Само една таблица не, само една база данни да.

И аз ти дадох заявката, с която може да ограничиш дори и по колони от таблицата.
 
От: Re: Принципа, на работа на сайтове като pazaruvaj . com

Ок, за базата признавам, не знаех, но не говорим за такъв тип бот.
Е то колко варианта може да има?

1. Дават ти данните в унифициран формат
2. Скрейпиш и се молиш да не си сменят често формата фийдовете или от каквото там си дърпаш
3. Вариация на 1 - ти им даваш вариант на скрипт разработен за популярните системи, с който получаваш унифицирани данни.

Какво си се хванал за БД, това беше отговор на тези две мнения :




И аз ти дадох заявката, с която може да ограничиш дори и по колони от таблицата.
 
От: Принципа, на работа на сайтове като pazaruvaj . com

И аз имам въпрос:
примерно имам сайт и искам да се включа в подобен каталог за сравняване на цените

трябва ли заглавията на продуктите да са като на другите магазини?

само по заглавието ли групират продуктите?
 
От: Принципа, на работа на сайтове като pazaruvaj . com

Сори, че се намесвам. Но не виждам никакъв проблем, да се обходи някой български магазин. Българските магазини са малки и рядко имат повече от няколко хиляди артикула, които се скрапват буквално за минути. При скрапването се зарежда само текста от страниците и това го прави много бързо.
Писането на скрапер за конкретен сайт също се прави бързо. Необходими са малко тестове с xpath и два-три цикъла.
За пример, ако искаме да свалим заглавията на всички нови теми в predpriemach.com + линковете към темите, можем да започнем от това:
PHP:
<?php
//$site = file_get_contents("index.html");
$site = file_get_contents("http://www.predpriemach.com/search.php?searchid=3438191");

$doc = new DOMDocument;
@$doc->loadHTML($site);
$xpath = new DOMXPath($doc);

$query_titles = $xpath->query('//a[contains(@id,"thread_title")]'); // Екстракт на заглавията на темите
$query_hrefs = $xpath->query('//a[contains(@id,"thread_title")]/@href'); // Екстракт на линковете


for ($i=0; $i < $query_titles->length; $i++) { 
	$title = $query_titles->item($i)->nodeValue;
	$href = $query_hrefs->item($i)->nodeValue;

	echo $title."\nhttp://www.predpriemach.com/".$href."\n=======\n";
}
?>
Резултата е:
Код:
Модули за Opencart
http://www.predpriemach.com/showthread.php?t=52723
=======
Продавам 3000+ уникални статии на български
http://www.predpriemach.com/showthread.php?t=55728
=======
GiftsRocket -> най-големите измамници.
http://www.predpriemach.com/showthread.php?t=55665
=======
VPSBG.eu - гигабитов VPS Хостинг и промо кодове само за Predpriemach.com
http://www.predpriemach.com/showthread.php?t=43183
=======
Building a New Forum
http://www.predpriemach.com/showthread.php?t=55775
=======
Приемам гест блогинг с 5 рекламни полета в сайдбара
http://www.predpriemach.com/showthread.php?t=55489
... и т.н.

Много лесно може да се добави обхождане на страниците, ако има странициране (или страниране - не съм сигурен кое е по-вярно, като термин на бг). По същият начин се пишат и ботовете за онлайн-магазините или скраперите на news-сайтовете.
Ако искаме да обходим 10 магазина и да вземе стоките с цената, картинката, заглавието, за няколко часа ще напишем един клас с необходимите методи и ще зареждаме само необходимите xpath-заявки. Самите сайтове могат да се обхождат веднъж дневно, примерно сутрин, за да се актуализира инфото.
 
От: Принципа, на работа на сайтове като pazaruvaj . com

@madseason, един малко тъп въпрос:
как да задействат този скрипт. Има ли някакви специални изисквания от към хостинг параметрите?
 

Горе