Compensare Pentru Semnul Zodiacal
Substabilitatea C Celebrități

Aflați Compatibilitatea Prin Semn Zodiacal

10 instrumente care pot ajuta jurnaliştii de date să lucreze mai bine, să fie mai eficienţi

Buletine Informative

Este greu să fii la fel de bun la toate sarcinile care se încadrează în jurnalismul de date. Pentru a înrăutăți lucrurile (sau mai bine, într-adevăr), jurnaliștii de date descoperă și aplică noi metode și instrumente tot timpul.

În calitate de jurnalist de date începător, veți dori să vă dezvoltați un simț al instrumentelor pe care ceilalți le folosesc pentru a face munca pe care o admirați. Nu le vei putea învăța pe toate deodată și nu ar trebui să încerci. Ar trebui, totuși, să dezvolți un fel de conștientizare ambientală a instrumentelor utilizate (ceva precum cunoștințele pe care ți le oferă Facebook despre viața colegilor tăi de liceu). Păstrați o listă de instrumente de verificat. Urmăriți demonstrațiile și răsfoiți documentația sau codul. Apoi, când proiectele tale creează nevoia, îți vei aminti destule pentru a începe.

Totuși, mai imediat, alege unul sau două instrumente și face-le parte din ADN-ul tău. Alegeți un instrument și stoarceți din el tot ce puteți. Citiți tot ce puteți găsi despre el. Învață fiecare idiosincrazie și optimizare. Cumpărați o cană de cafea cu tastele de comandă rapidă pe ea. Doar fiți gata să ridicați o unealtă nouă când simțiți strângerea care spune că trebuie să existe o cale mai ușoară. Mai jos sunt 10 instrumente care fac parte din centura de instrumente a aproape fiecare jurnalist de date.

1. Foaia de calcul

Aproape fiecare jurnalist de date începe cu foaia de calcul. (Dezvăluire: eu sunt o excepție aici, la fel ca și alți programatori-jurnalişti. Am învățat să folosesc foi de calcul pentru a lucra cu colegii mei care se bazează pe ele.)

Foaia de calcul este un format de date aproape universal, mai ales dacă salvați datele ca fișier delimitat cu text simplu, cum ar fi un fișier cu valori separate prin virgulă. Toată lumea fie are deja un program comercial de foi de calcul, fie poate descărca cu ușurință un gratuit unul, iar aplicațiile moderne pentru foi de calcul sunt remarcabil de versatile.

Sunt câteva site-uri și cursuri disponibil pentru a vă ajuta să vă dezvoltați abilitățile de tabelar. Începeți cu sortarea, filtrarea și subtotalurile și treceți la formule mai avansate. Pe măsură ce înveți să folosești formule, încearcă uneori să le introduci direct, în loc să folosești vrăjitorii. Această practică vă va oferi cunoștințe mai intime despre formulele pe care le utilizați și, de asemenea, vă va ajuta să începeți să vă exprimați ideile în cod, ceea ce vă va fi util pe măsură ce alegeți alte instrumente.

2. SQL

După un timp, este posibil să începeți să simțiți ciupirea din cauza limitărilor foilor de calcul. Mulți jurnaliști de date se îndreaptă către un manager de baze de date relaționale (de exemplu, SQLite, MySQL, PostgreSQL, Access) atunci când au mai mult de două foi de calcul de alăturat sau seturi de date foarte mari pentru a interoga. SQL vă permite să descrieți exact subsetul de date pe care doriți să le extrageți sau modificările exacte pe care doriți să le faceți și vă permite să efectuați aceste interogări în seturi de date asociate. De asemenea, puteți salva comenzile ca script, astfel încât să puteți documenta tot ce ați făcut cu datele și să puteți repeta automat acești pași pe un set de date viitor.

Aproape fiecare program de baze de date relaționale folosește o anumită aromă de SQL, așa că odată ce ați învățat elementele de bază (câteva zeci de cuvinte cheie și câteva semne de punctuație), puteți interoga bazele de date în orice număr de sisteme, atât gratuite, cât și comerciale. De asemenea, bazele de date relaționale sunt utilizate frecvent pentru a stoca datele în aplicații Web, astfel încât cunoștințele dumneavoastră despre SQL pot fi direct utile în dezvoltarea Web.

Iată un tutorial pentru a începe.

3. Instrumente de curățare a datelor

Toate seturile de date sunt „murdare”. Repetați asta de trei ori de fiecare dată când deschideți laptopul.

Pentru a curăța datele și a le aduce într-un format util, probabil veți folosi o varietate de instrumente. Preferatul meu este Google Refine , care seamănă puțin cu o foaie de calcul, dar este concepută pentru lucruri precum standardizarea numelor, astfel încât să puteți crea numărări fiabile. (Puteți dori ca „John Smith”, „Smith, John” și „John Q. Smith” să fie socotiți ca o singură persoană, de exemplu, mai degrabă decât trei). Folosind Google Refine Expression Language , veți putea face transformări sofisticate de date și veți face un alt pas în a vă exprima în cod. ( Data Wrangler este un instrument nou cu unele funcționalități similare cu cea a lui Refine, care merită, de asemenea, verificat.)

De asemenea, ar trebui să deveniți conștienți de instrumentele din sistemul dvs. de operare care vă pot ajuta să gestionați fișierele și datele din acestea. Dacă sunteți pe OSX sau Linux, aveți dar, awk, grep și găsi . (Sunt porturi pentru Windows, de asemenea.) Folosind aceste utilitare, puteți începe să explorați și să vă masați datele fără să vă obosiți măcar să deschideți o foaie de calcul sau un program de bază de date.

Și în timp ce vă uitați la instrumentele din linia de comandă, verificați CSVKit , o suită uimitoare de instrumente — dezvoltată de jurnaliști — care vă va ajuta să lucrați magic în acel format comun.

4. Instrumente de vizualizare

Vizualizarea nu este decor. Nu este ceva care doar însoțește și ilustrează jurnalismul de date; este esențial pentru sarcină. O vizualizare bună vă va permite să vedeți valori aberante și tendințe în moduri care vă pot modifica profund înțelegerea datelor.

Majoritatea aplicațiilor pentru foi de calcul au cel puțin diagrame și grafice de bază (și adesea vizualizări mai sofisticate disponibile prin suplimente). Câteva instrumente de vizualizare bazate pe web devin tarif standard. Verifică Google Fusion Tables și Consiliul Public . Ambele oferă ușurință în utilizare și câteva rezultate destul de impresionante.

În cele din urmă, poate doriți ceva mai flexibil și mai puternic; experții apelează adesea la ceva de genul open source R pachet de statistici, care combină instrumente puternice de analiză și vizualizare într-un limbaj de programare robust.

5. Software de cartografiere

Tabelele Google Fusion și Tableau Public includ ambele capabilități de cartografiere rapide și intuitive. Când niciuna dintre hărțile lor nu vă oferă ceea ce doriți, verificați gratuit QGIS pachet de cartografiere. (Sau, dacă redacția dvs. are o licență de rezervă, ArcView este o opțiune comercială puternică.) Pentru o introducere a QGIS centrată pe jurnaliști, verificați aceasta tutorial .

Există, de asemenea, extensii spațiale pentru managerii de baze de date care pot ajuta la adresarea întrebărilor geografice despre datele dvs. Acestea extind capacitățile SQL pentru a include interogări despre geografie, cum ar fi identificarea locațiilor în interiorul unei granițe (de exemplu, județ sau district congresului). PostGIS și SpatiaLite sunt soluții gratuite și populare.

6. Limbajul de scripting

Alegeți o limbă, cumpărați o carte, rezolvați o problemă. Învățarea programelor vă va extinde rapid acoperirea ca jurnalist de date: Guvernul nu vă va oferi datele din spatele unui site web? Razuieste-l. Nu reușiți să obțineți datele în forma dorită folosind instrumentele existente? Construiește-ți propriul. Există o putere amețitoare în a deveni nu doar un utilizator de software, ci și un producător de software.

Cu toate acestea, nu contează atât de mult limba pe care o alegi Piton și Rubin par a fi actualele favorite printre jurnalişti. Dacă cineva pe care îl cunoști deja lucrează Perl sau PHP și este dispus să vă ajute să începeți, poate doriți să începeți de acolo. Ca și în cazul limbilor naturale, odată ce ai învățat una, învățarea următoarei este mai ușoară, iar a învăța să gândești ca un programator este mult mai important decât învățarea unei anumite sintaxe. (De asemenea, copiii mișto ar putea folosi ceva complet diferit până când devii priceput în limba momentului.)

Dacă doriți să începeți cu Web scraping, aruncați o privire la Ghidul excelent de răzuit al ProPublica . ScraperWiki este o altă modalitate de a vă uda picioarele și de a învăța prin exemplu. Învață să programezi este o introducere excelentă în conceptele de programare care se întâmplă să folosească Ruby ca limbaj țintă.

7. Cadru web

Indiferent dacă construiți instrumente pentru dvs. sau creați aplicații orientate spre lume, dacă construiți pentru web, aveți nevoie de un cadru web: django pentru Python, Sine pentru Ruby , symfony pentru PHP, Catalizator pentru Perl, alegeți.

Un cadru vă va împiedica munca plictisitoare și repetitivă, vă va ajuta să adoptați cele mai bune practici, vă va menține organizat și vă va facilita colaborarea cu ceilalți. Multe cadre vin cu un program de instalare cu un singur clic, care poate ajuta la atenuarea durerii de la început. Aruncă o privire la Bitnami django și Rubin stive, de exemplu.

În timpul construirii unui instrument web, veți obține o cantitate suficientă de HTML și CSS. Dar toate semnele indică importanța tot mai mare a JavaScript în toată dezvoltarea web. Dacă doriți ca aplicația dvs. web să se simtă mai mult ca o aplicație desktop, cunoașteți ceva JavaScript, în special biblioteci precum jQuery .

8. Un editor flexibil

Pentru a scrie cod, aveți nevoie de un editor de cod. Asta înseamnă un editor care nu introduce caractere inteligente și fanteziste în textul tău (se uită la tine, Microsoft Word) și, sperăm, că adaugă câteva clopote și fluiere, cum ar fi colorarea sintaxelor specifice limbii, care te va ajuta să identifici cu ușurință cuvintele cheie și alte limbi. elemente pe măsură ce scrieți.

Nu există o modalitate mai sigură de a începe o ceartă între tocilari decât să întrebi care editor de cod este cel mai bun. TextMate (pentru Mac) este o opțiune comercială viabilă. Și Notepad++ (pentru Windows) este o opțiune gratuită bună. Există, de asemenea, opțiuni open source personalizabile infinit AM VENIT și Emacs . Fii pregătit pentru o curbă de învățare cu fiecare dintre ei, totuși. În cele din urmă, un programator Java vă va sugera că aveți nevoie de un complet Mediu de dezvoltare integrat . Dacă cineva vă ajută să învățați să codificați, adoptați-i editorul și aflați toate comenzile rapide și trucurile de configurare pe care le puteți. Un editor este cel mai personal instrument și vei dori să-l faci pe al tău să se simtă ca acasă.

9. Controlul revizuirii

Nu faci niciodată greșeli? Nu vrei să colaborezi niciodată cu nimeni? Atunci poate nu ai nevoie controlul reviziilor . Dar merită folosit dacă doriți o modalitate elegantă de a salva copii de rezervă, de a încerca lucruri pe versiuni temporare de fișiere și de a îmbina munca dvs. cu altele. Poate că cea mai ușoară modalitate de a învăța controlul revizuirii este utilizarea Github . De asemenea, puteți instala merge sau Subversiune la nivel local.

10. Instrumente de analiză a documentelor

Poate cea mai interesantă frontieră în jurnalismul de date este încercarea de a trata seturi mari de documente ca date. DocumentCloud oferă o interfață la îndemână pentru slăbirea legăturilor formatului PDF, permițând căutarea în documente și extragerea punctelor de interes.

Jigsaw este un software desktop care este util pentru a naviga într-un set de documente relativ mare. În cele din urmă, poate doriți să analizați potențialul lingvistic computațional al pachetelor precum Setul de instrumente pentru limbajul natural al lui Python sau Stanford CoreNLP . Și pentru că jurnaliștii tocmai au zgâriat suprafața acestei zone, nouă unelte care tratează documentele ca date care apar tot timpul.

Aceasta este a doua poveste dintr-o serie în două părți despre jurnalismul de date. Puteți citi prima poveste, „5 sfaturi pentru a începe în jurnalismul de date”, aici.


Această poveste face și parte dintr-un Poynter Hackeri/Hackeri seriale cu Cum să se concentreze pe ceea ce pot învăța jurnaliștii din tendințele emergente în tehnologie și noile instrumente.

Corecţie: O versiune anterioară a acestei povești spunea că utilizatorii trebuie să plătească pentru Notepad++. De fapt, este gratuit.