Web Scraping for Email Addresses

Asen Asenov

New Member
Здравейте,
Започвам с това , че НЕ ЗНАМ дали темата е за този раздел :)

А сега по същество :
Някой попадало ли му е средство , скрипт или начин за : Web Scraping for Email Addresses and Phone numbers
Някога преди години ползвах един Python script на сървър, чрез wget нооо все си мисля че вече има и някое user friendly решение.

Обяснявам за какво ми трябва :
Член съм на няколко асоциации и организации. Искам да промотирам нововъедение т.е. да изпратя мейли на всички членове, поотделно. Оооообаче , списъците с членовете мейлите и телефоните им са разположени на от 5 до 50 страници , а и говорим за един обем от хиляди , а не стотици адреси. Ако трябва да оставя един човек да "събира" и да copy/paste в ексел , че да ги обърна в csv .... иии отиде една седмица ....

Та, колеги , ако някой има идея , моля да я сподели

Поздрави
 
Пробвах го току що .... няма никаква връзка с реалноста - нестига че го платих, но и се оказа че ми сваля и идентва мейли на колеги с които пиша всеки ден като неактивни , домейни като <name.name>@google.com ми ги искарва като Expire domain ( т.е. че gmail.com е експаирнал .... )
Така , това не е решението

P.S. : В момента им пиша мейл да върнат парите , пък да висим дали не са едни $97 на вятъра

P.S. 2 : Моля за тествани , работещи вариации - незнам дали за вас $100 са много или малко , но на мен не са ми излишни

Ето ви нещо от архивите , което незнайно вече немога да подкарам , а и работеше с едно по едно url. иначе да , задаваш му https://www.bia-bg.com/branch/ и изкопава всички мейли на всички ,

import urllib,re
f = urllib.urlopen("http://www.example.com")
s = f.read()
re.findall(r"\+\d{2}\s?0?\d{10}",s)
re.findall(r"[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,4}",s)

# Output
# ['+02 2323123789', '+01 2334325323', '+00 2323123323']
# ['[email protected]']
 
По-добре тези 100$ ги дай на някой от форума да ти направи такъв скрипт. Не е особено трудно за направа.
 
Пробвах го току що .... няма никаква връзка с реалноста - нестига че го платих, но и се оказа че ми сваля и идентва мейли на колеги с които пиша всеки ден като неактивни , домейни като <name.name>@google.com ми ги искарва като Expire domain ( т.е. че gmail.com е експаирнал .... )
Така , това не е решението

P.S. : В момента им пиша мейл да върнат парите , пък да висим дали не са едни $97 на вятъра

P.S. 2 : Моля за тествани , работещи вариации - незнам дали за вас $100 са много или малко , но на мен не са ми излишни

Ето ви нещо от архивите , което незнайно вече немога да подкарам , а и работеше с едно по едно url. иначе да , задаваш му https://www.bia-bg.com/branch/ и изкопава всички мейли на всички ,

import urllib,re
f = urllib.urlopen("http://www.example.com")
s = f.read()
re.findall(r"\+\d{2}\s?0?\d{10}",s)
re.findall(r"[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,4}",s)

# Output
# ['+02 2323123789', '+01 2334325323', '+00 2323123323']
# ['[email protected]']

Програмата ще ти свърши работа. Тук можеш да намериш информация как да я настроиш, другия вариант е да им пишеш.
 

Горе