optimize my scraper

Budgetrahmen
< 100 EUR
Ende der Angebotsphase
Angebotsphase abgeschlossen
Notwendige Expertise
Web & Programmierung, Data Mining, MySQL, PHP
Kunde
spe***  - Vereinigte Staaten von Amerika
Beschreibung

HelloI have had a programmer build me a web scraper that will pull data from one site and insert the data into mysql database. This includes text and pictures. It is build and working the only issue I have is...I need the scraper to perform much faster work.I am pulling 4 million pieces of data and at this rate it will take me a year to complete this project. Also I must monitor the scraper as it stops and I must refresh it to start.I already have the scraper programmed and inserting data...I need...a programmer to optimize the scraper and make it pull the data in a much quicker pace. I need to be done in a week or two maximum time.Keep in mind that we are talking about text and pictures. So if you do not have experience and need to find a solution for this do not apply....If you understand what exactly what I am saying in terms of the 4 million listings needed in two weeks and that I ALREADY have the scraper build and you are expert in php curl and mysql then apply.My budget is 30 to 60 dollars for this project as all the hard work is done regarding the design and implement of the scraper.I just need an expert to modify the steps it takes to move much faster as I said it is pulling 1k to 2 k listings a day if monitored. I need it to pull 4 million in two weeks. So for someone experienced this should be easy and take minimal time. Also cannot send everyone a copy of the script to study.If you are experienced it will be as if some one asks a mechanic to change his breaks.The mechanic will say yes sure 2 hours. A non mechanic will say well let me look into it. I need someone that has experience as the project was kind of complex. Building a spider to pull data is one thing but knowing how to insert into mysql in a specified way is quite another. All that is done....just make it work faster.At the present the script will stop and needs to be restarted I need it to run without need of monitoring and ten times the pulling speed so in essence this is a optimization job for already existing script.If you can do this and have experience bid if you have 20 jobs already and wont have the time to finish please do not bid. If you have a idea of how you might be able to do this do not bid.If you know exactly how to fix this then by all means bid.Also when bidding send me a message explaining how you plan on doing the job as well as how long it will take to complete and at what rate you can get the scraper to pull data(keep in mind this includes text and pictures which the pictures are taking the most time).Thank you for your consideration

 

Projekttyp Festpreis
Vertraulichkeit Meine Projektausschreibung soll für alle Besucher von twago und in Suchmaschinen (z.B. Google) sichtbar sein.
Implementation 19.09.2011 - 05.10.2011
Ausschreibungsdetails Die Angebote sollen lediglich für mich sichtbar sein.
Alle Fragen und Antworten  3 Personen folgen dem Projekt
Sie haben Fragen zum Projekt? Stellen Sie hier Ihre Fragen. Der Kunde antwortet hier ebenfalls, um allen die gleichen Informationen zu geben. Bitte geben Sie hier keine Kontaktdaten an. Inhalte, bei denen es nicht um Projektdetails geht, werden gelöscht. Sie möchten den Kunden direkt anschreiben? Bitte geben Sie zuerst Ihr Angebot ab. Ihr Angebot ist unverbindlich und jederzeit aktualisierbar. Anschließend können Sie mit dem Kunden persönlich kommunizieren.
Vor ca. einer Minute
Vor ca. einer Minute
Vor {0} Minute
Vor {0} Minuten
Vor {0} Stunde
Vor {0} Stunden
Vor {0} Tag
Vor {0} Tagen
Vor {0} Woche
Vor {0} Wochen
Vor {0} Monat
Vor {0} Monaten
Vor {0} Jahr
Vor {0} Jahren
[ausgeblendet]
Verifizierter Nutzer Nutzerverifikation

twago verifiziert Ihr Nutzerkonto. Zeigen Sie Geschäftspartnern, dass Ihr Profil geprüft ist. Verifizierten Nutzern wird ein höheres Vertrauen entgegen gebracht.
Medium Medium Mitglied

Unsere Medium Mitgliedschaft erfüllt die Bedürfnisse kleiner Unternehmen. Mit einer Medium Mitgliedschaft erhöhen Sie Ihre Chancen für ein Projekt ausgewählt zu werden. Upgraden Sie Ihren Account noch heute und arbeiten Sie demnächst noch erfolgreicher mit twago.
Premium Premium Mitglied

Unsere Premium Mitgliedschaft erfüllt die Bedürfnisse professioneller Unternehmen. Mit einer Premium Mitgliedschaft erhöhen Sie Ihre Chancen für ein Projekt ausgewählt zu werden. Upgraden Sie Ihren Account noch heute und arbeiten Sie demnächst noch erfolgreicher mit twago.
Freelancer Freelancer Mitglied

Unsere Freelancer Mitgliedschaft erfüllt die Bedürfnisse kleiner Unternehmen oder erfolgreicher Selbständiger. Mit einer Freelancer Mitgliedschaft erhöhen Sie Ihre Chancen für ein Projekt ausgewählt zu werden. Upgraden Sie Ihren Account noch heute und arbeiten Sie demnächst noch erfolgreicher mit twago.
Premium Premium Mitglied

Unsere Premium Mitgliedschaft ist speziell für unsere anspruchsvollen Kunden konzipiert. Mit einer Premium Mitgliedschaft erhöhen Sie Ihre Chancen für ein Projekt ausgewählt zu werden. Außerdem werden Sie in unserem Branchenbuch (directSearch) gelistet und unsere Nutzer können Sie direkt kontaktieren. Upgraden Sie Ihren Account noch heute und arbeiten Sie demnächst noch erfolgreicher mit twago.
VIP VIP Mitglied

Unsere VIP-Mitgliedschaft ist speziell für unsere besten Service-Anbieter konzipiert. Mit einer VIP-Mitgliedschaft erhöhen Sie Ihre Chancen für ein Projekt ausgewählt zu werden. Außerdem listen wir Sie in unserem Branchenbuch (directSearch). Upgraden Sie Ihren Account noch heute und arbeiten Sie demnächst noch erfolgreicher mit twago.
Verifizierte Referenz Referenzverifikation

twago verifiziert Ihre Referenzen und zeigt so Ihren Kunden das diese korrekt sind. Service-Anbieter mit verifizierten Referenzen haben eine signifikant höhere Chance für ein Projekt ausgewählt zu werden.
twago Nutzer
Vor 8 Monaten
Sorry, lunchbreak. Thanks so far for the detail. I would like to know some more parameters just to be sure (estimations): - how much images per page - average image size Using tor is (extremely) slow, like 3-5 times the usual request times. Using a home connection won't get you far either, as bandwidth is quiet limited. Getting you a bonus of like 10 times would be possible within 50 dollar budget if you do multi-curl images by page for a high image-by-page ratio. Doing some simple retry if connection fails (which is quiet likely with tor) might get some more pages a day. What might be quiet a killer is putting images into the database. Upload them to server and only store file name/ path in db. Also if you have an asynchronous connection uploading many images to your host is far to slow. Shared hosting like host big seems to provide is a no-go for your goal.
twago Nutzer
Vor 8 Monaten
You'd need a serious server for the scraping too. You get good offers for like 24 to 60 dollar a month, just look for big disks, bandwidth and cpu power. ram should be sufficient at 1 gb. If you only need the data once, you might want to try that for a short period, than copy the data to a cheaper host (local or shared). But just to be sure. 4 000 000 pages are at least 100 GB of data for text. Images might get you way past 1 TB. If you need the data frequently a small cluster of 2-4 virtual hosts is useful. (used that one time to work with a high capacity data mining). Sure you need just a script optimisation and no consulting?
Angebote und Service-Anbieter

Die Angebote sind nur für registrierte Nutzer sichtbar. Registrieren Sie sich oder loggen Sie sich ein, um mehr Details zu sehen.

Sie wollen für das Projekt arbeiten?
Registrieren Sie sich auf twago und geben Sie Ihr Angebot ab.
Sie möchten einen Experten finden?
Schreiben Sie Ihr Projekt aus und finden Sie die passenden Experten.
Version:5553

Über SSL Zertifikate
SagePAY
Diversity