Gör Visionära Webbforskning Studier Använda Deep Web Data & Excel Web Queries
Vad skulle du säga om jag berättade för dig att du har de verktyg som står till ditt förfogande för att göra banbrytande, jordförstörande forskning? Tja, du gör det, och jag ska visa dig hur.
Regeringar, akademiska institutioner och ideella forskningsorganisationer publicerar tabeller som är fulla med data till allmänheten. Utan någon som använder denna information kommer det sanna värdet aldrig att bli känt. Tyvärr har få personer insikt, färdigheter eller verktyg för att ta data och göra intressanta korrelationer mellan till synes ouppkopplad information.
Bakgrund
Mycket av den forskning som jag gör för min egen blogg innebär att man gräver igenom det som är känt som den osynliga webben 10 sökmotorer för att utforska det osynliga webben 10 sökmotorer för att utforska den osynliga webben Vi är bekanta med webben. Men visste du att det finns en stor cache med information som sökmotorer som Google inte har direkt tillgång till? Detta är den osynliga webben. Läs mer, för att avslöja data som har släppts till allmänheten, men dolda från sökmotorer De 5 mest avancerade sökmotorerna på webben De 5 mest avancerade sökmotorerna på webben Läs mer i en online-databas. Detta är den djupa webben TorSearch har som mål att vara Google för den djupa webben TorSearch har som mål att vara Google för den djupa webben Tor är en dold tjänst och en del av Deep Web. TorSearch är en ny anonym sökmotor som grundaren Chris MacNaughton vill göra “Google av Tor”. Läs mer, och det är skönt med värdefulla data. Mycket ofta stöter jag på webbsidor som bara är chockfyllda med några av de mest värdefulla uppgifterna om ämnen som driver spalten från folkräkningsdata till epidemiologiska studier om sällsynta sjukdomar. Jag har ständigt nya idéer om hur man försöker korrelera de olika datakällorna med hjälp av olika verktyg - och ett av de värdefullaste verktygen jag hittat är Web Query inuti Microsoft Excel.
Hitta intressanta datakorrelationer
Vad jag ska visa dig idag är ett exempel på hur du kan använda Excel Web Queries för att dra in data från olika webbplatser och kartlägga dem mot varandra för att söka efter potentiella korrelationer mellan data.
Sättet att starta en övning så här är att komma med en intressant hypotes. Till exempel - för att hålla saker intressanta här - jag kommer att slumpmässigt postulera att skyrocketing autism satser i USA orsakas av antingen vaccin inokuleringar eller ökande närvaro av elektromagnetiska fält i och runt barn, som mobiltelefoner. Det är en galen hypotes som du hittar på de flesta konspirationsteoriwebbplatser, men det är det som gör det roligt. Så låt oss börja, ska vi?
Öppna först Excel, gå över till data menyalternativet och hitta “Från webben” ikonen i menybandet.
Det här är vad du ska använda för att importera de olika datatabellerna från de många webbplatser där ute som har publicerat dem.
Importera webbdata till Excel
Så i gamla tider måste du försöka kopiera data från den tabellen på en webbsida, klistra in den i Excel och ta itu med alla de galna formateringsproblemen som är inblandade i att göra det. Total krångel, och många gånger är det bara inte värt huvudvärk. Tja, med Excel Web Queries, dessa dagar är borta. Självklart, innan du kan importera data måste du Google på väg över hela webben för att hitta de uppgifter du behöver i tabellformat. I mitt fall hittade jag en webbplats som hade publicerat utbildningsstatistiken för antalet amerikanska offentliga skolelever som identifierades som autism. Ett fint bord där gav siffror från 1994 hela vägen till och med 2006.
Så du klickar bara på “Från webben”, klistra in webbsidans webbadress i fältet för sökadress och rulla sedan ner sidan tills du ser den gula pilen bredvid tabellen med de data du vill importera.
Klicka på pilen så att den blir en grön ruta.
Slutligen berätta för Excel vilket fält du vill klistra in i tabeldata inuti ditt nya kalkylblad.
Då - Voila! Data strömmar automatiskt direkt in i kalkylbladet.
Så, med en trend av offentliga skolautismsatser från 1996 till 2006 på plats, är det dags att gå ut på jakt efter vaccination och användningsutveckling för mobiltelefoner också.
Lyckligtvis hittade jag snabbt trender för mobiltelefonabonnenter i USA från 1985 till 2012. Utmärkt data för den här studien. Återigen använde jag verktyget Excel Web Query för att importera den tabellen.
Jag importerade den tabellen till ett rent, nytt ark. Därefter upptäckte jag vaccinationstrender för procentandel av skolbarn vaccinerade för olika sjukdomar. Jag importerade det bordet med hjälp av webbsökningsverktyget till ett tredje ark. Så äntligen hade jag tre lakan med de tre tabellerna fyllda med de till synes oanslutna data som jag hade upptäckt på webben.
Nästa steg använder Excel för att analysera data och försöka identifiera eventuella korrelationer. Det är där ett av mina favoritdataanalysverktyg spelas in - PivotTable.
Analysera data i Excel med pivottabellen
Det är bäst att skapa din PivotTable i ett helt nytt, tomt ark. Du vill använda guiden för vad du ska göra. För att aktivera guiden PivotTable i Excel måste du trycka på Alt-D samtidigt tills ett meddelandefönster dyker upp. Släpp sedan av dessa knappar och tryck på “P” nyckel. Då ser du guiden dyka upp.
I guiden först fönster vill du välja “Flera konsolideringsområden”, som låter dig välja data från alla ark som du har importerat. Genom att göra det kan du konsolidera allt det till synes orelaterade data till en, kraftfull pivotabel. I vissa fall kan du behöva massera några av data. Till exempel var jag tvungen att fixa “År” fält i autismtabellen så att det visade “1994” istället för “1994-1995” - vilket gör det bättre med borden på de andra lakan, som också hade det primära årsfältet.
Det gemensamma fältet mellan data är vad du behöver för att försöka korrelera information, så kom ihåg när du jaktar på webben för dina data.
När pivottabellen är klar och du har alla de olika datavärdena som visas i ett bord, är det dags att göra en visuell analys för att se om det finns någon uppenbar anslutning som hoppar ut på dig.
Visualisering av data är nyckeln
Att ha en massa siffror i ett bord är bra om du är ekonom, men det snabbaste och enklaste sättet att få det “a ha!” ögonblick när du försöker hitta anslutningar som en nål i en höstack, via diagram och graf. När du har en PivotChart på plats med alla dataseten du har samlat, är det dags att skapa din graf. Vanligtvis är en linjediagram bäst, men det beror på data. Det finns tillfällen då ett stapeldiagram fungerar mycket bättre. Försök att förstå vilken typ av data du tittar på och vilka formulär jämförelser som fungerar bäst.
I det här fallet tittar jag på data över tiden, så en linjediagram är verkligen det bästa sättet att se trender över åren. Kartläggning av autismsatser (grön) mot nedsatt vaccinationshastighet (mörkblå), kycklingpoxvacciner (ljusblå) och mobiltelefonanvändning (lila), en ojämn korrelation uppträdde plötsligt i det här urvalet av data som jag spelade med.
Otroligt nog var trenden i mobiltelefonanvändning från 1994 till 2006 nästan perfekt matchad med stigningen i autism under samma tidsperiod. Samtidigt som mönstret var helt oväntat är det ett perfekt exempel på hur koppling av intressanta data kan avslöja fascinerande ledningar, vilket ger dig större insikt och motivation för att hålla framåt och söka efter mer data som ytterligare kan stärka din hypotes.
En korrelation som ovan visar inte något. Det finns många trender som stiger över tiden - mönstret kan vara tillfälligt men det kan också vara en viktig ledtråd i ditt pågående sökande efter mer data på Internet. Tack och lov har du ett kraftfullt verktyg som heter Excel Web Queries, vilket gör den uppgiften bara lite enklare.
Fotokredit: Kevin Dooley via fotopin cc
Utforska mer om: Microsoft Excel.