Att göra datavetenskap i molnet med ScraperWiki

Att göra datavetenskap i molnet med ScraperWiki / internet

Om du har mentala kotletter, en känsla för programmering och berättande, och ett öga för design, kan du göra värre än att komma in i datavetenskap. Det är den nya stora tekniken; högt trendiga och mycket betalda, med datavetenskapare som sökts av några av världens största företag.

ScraperWiki är ett företag som länge varit associerat med datavetenskapsfältet. Under de senaste åren har den här Liverpool-baserade uppstarten erbjudit en plattform för kodare att skriva verktyg som får data, rengör det och analysera det i molnet.

Med en ny uppdatering och den ständigt ökande efterfrågan på datavetenskapare i företaget är det värt att ta en titt på ScraperWiki.

Fullständig information: Jag var en praktikant vid ScraperWiki förra sommaren.

Vad gör ScraperWiki?

ScraperWiki marknadsför sig som en plats att få, rena och analysera data, och den levererar på alla dessa räkningar. I sin enklaste form tillåter det dig - användaren - en plats där du kan skriva kod som hämtar data från en källa, verktyg för att konvertera det till ett format som är lätt att analysera och lagring för att hålla det för senare visualisering - vilket du kan också hantera ScraperWiki.

Det kommer också med ett antal förkonstruerade verktyg som automatiserar repetitiva uppgifter, bland annat att få data från PDF-filer, som är notoriskt svåra att avkoda. Detta är förutom Twitter söker 5 Cool Twitter Sök tricks för att övervaka vad folk säger om dig 5 Cool Twitter Sök tricks för att övervaka vad folk säger om dig Om du äger en webbplats eller bara försöker tjäna pengar på nätet som frilansare, Det är alltid bra att veta vad folk säger om dig via Internet. Människor kan citera ... Läs mer och skrapa verktyg. Du behöver inte någon mjukvaruutveckling för att kunna använda dessa.

Kosta

Som tidigare nämnts omfattar ScraperWiki freemium prismodellen och erbjuder en tjänst som har flera nivåer. De som bara har börjat med datavetenskap eller med begränsade behov kan utnyttja den fria tjänsten. Detta ger dig tre dataset - där du lagrar dina data och kod.

De som planerar att skriva flera skrapor eller vill göra berg med dataanalys kan gaffla ut lite pengar för ett premiumkonto. Dessa börjar vid $ 9 per månad och erbjuder 10 dataset. Om det fortfarande inte är tillräckligt kan du alltid uppgradera till sin högsta nivå som levereras med 100 dataset och kostar $ 29 per månad.

Kodning

Programmerare är ofta ganska speciella när det gäller hur de kodar. Vissa föredrar skriptspråk över kompilerade språk. Vissa föredrar upprepad erfarenhet av en textredigerare jämfört med en integrerad utvecklingsmiljö (IDE). ScraperWiki känner igen det och ger användaren en stor mängd val när det gäller hur du skriver din kod.

Om du är så benägen kan du skriva din kod i webbläsaren. Som du kan förvänta dig av alla professionella, webbbaserade Top 3 Browser-Based IDEs-kod i molnet Top 3 Browser-Based IDE: s till kod i Cloud Read More utvecklingsverktyget, kommer detta med funktioner som någon programmerare skulle anses vara avgörande, till exempel syntaxbelysning.

Det finns ett antal språk som erbjuds. Dessa inkluderar Python De 5 bästa hemsidorna att lära sig Python Programmering De 5 bästa webbplatserna att lära sig Python Programmering Vill du lära dig Python programmering? Här är de bästa sätten att lära sig Python online, varav många är helt gratis. Läs mer, ett populärt skriptspråk som används av Google och NASA. Ruby 3 Interaktiv, kul och gratis sätt att börja lära sig Ruby Programming Language 3 Interaktiva, roliga och fria sätt att börja lära Ruby Programming Language Ruby är ett uttrycksfullt, mycket högt skriptspråk. Den används på webben huvudsakligen som en del av Ruby on Rails webbutvecklingsram, men också fristående. Om du är nyfiken på vad Ruby (inte ... Läs mer, som driver ett antal populära webbplatser som Living Social, och det populära statistiska analysspråket, R.

Dessutom kan du också skriva kod från kommandoraden genom att använda SSH, Git och vilken textredigerare du tycker om att använda. Ja, du läste det rätt. SSH Vad SSH är och hur det skiljer sig från FTP [Teknologi förklaras] Vad SSH är och hur det skiljer sig från FTP [Teknologi förklaras] Läs mer. Varje ruta du använder är ett eget Linux-konto, och du kan ansluta till det som du skulle ha en VPS eller något annat skalkonto. Det finns ett antal textredigerare tillgängliga, inklusive Vim De bästa 7 skälen att ge Vim Text Editor en chans De bästa 7 skälen att ge Vim Text Editor en chans I åratal har jag provat en textredigerare efter en annan. Du heter det, jag försökte det. Jag använde var och en av dessa redaktörer i över två månader som min primära dagliga redaktör. På något sätt, jag ... Läs mer som kan utökas med plugins och genom att redigera konfigurationen. De som hotas av Vim kan använda Nano, vilket är en lätt kommandorad textredigerare.

Biblioteken installerade bör vara tillräckliga för att skriva verktyg för att hämta data och för att bearbeta det. Om du behöver något lite mer obskönt kan du alltid skapa en virtualenv från kommandoraden. Som du kan se finns det en stor flexibilitet till utvecklare.

Datavisualisering

Så, du har dina uppgifter. Du har normaliserat det. Du har rengjort det. Du har analyserat det. Nu är det dags att göra lite visualisering och visa världen vad du har lärt dig.

ScraperWiki tillåter utvecklare att visa sina data med hjälp av webbsidor som är konstruerade från den allmänt kända trifekten av HTML, CSS och JavaScript. Dessutom stöds Bootstrap-komponenter ut ur lådan.

Det finns ett antal färdiga visualiseringar tillgängliga, inklusive de som kartlägger dina data på en karta och hittar trender inom dina resultat. För att kunna använda dessa måste du se till att dina data lagras som SQLite-fil med filnamnet "scraperwiki.sqlite". Sedan lägger du helt enkelt till den visualisering du är intresserad av. Enkelt, rätt?

Slutsats

ScraperWiki erbjuder mycket till utvecklare som vill göra viss dataanalys utan att deras utvecklingsmiljö blir på väg, samtidigt som de har flexibilitet att behaga även de mest krävande användarna. Men vad tycker du? Låt mig veta i kommentarerna nedan.
Fotokredit: Rocket Science (Dan Brown)

Utforska mer om: Cloud Computing, Web Analytics.