Hur man beräknar utsläpp

Författare: Janice Evans
Skapelsedatum: 23 Juli 2021
Uppdatera Datum: 1 Juli 2024
Anonim
Hur man beräknar utsläpp - Samhälle
Hur man beräknar utsläpp - Samhälle

Innehåll

I statistik är outliers värden som skiljer sig kraftigt från andra värden i den insamlade datamängden. En outlier kan indikera avvikelser i datadistributionen eller mätfel, så outliers är ofta uteslutna från datasetet. Genom att eliminera outliers från datamängden kan du komma till oväntade eller mer exakta slutsatser. Därför är det nödvändigt att kunna beräkna och uppskatta avvikelser för att säkerställa en korrekt förståelse av statistiken.

Steg

  1. 1 Lär dig att känna igen potentiella outliers. Potentiella avvikare bör identifieras innan uteslutare utesluts från datamängden. Outliers är värden som skiljer sig mycket från de flesta värdena i datamängden; med andra ord, outliers ligger utanför trenden med de flesta värden. Detta är lätt att hitta i värdetabeller eller (särskilt) i grafer. Om värdena i datauppsättningen är ritade kommer avvikarna att ligga långt från de flesta andra värden. Om till exempel de flesta av värdena faller på en rak linje, ligger extremvärdena på båda sidor av en sådan rak linje.
    • Tänk till exempel på en datamängd som representerar temperaturen för 12 olika objekt i ett rum. Om 11 föremål är ungefär 70 grader, men det tolfte föremålet (möjligen en ugn) är 300 grader, kan en snabb titt på värdena indikera att ugnen är en trolig utblåsning.
  2. 2 Sortera data i stigande ordning. Det första steget för att bestämma outliers är att beräkna medianen för datamängden. Denna uppgift är mycket förenklad om värdena i datamängden är ordnade i stigande ordning (från minsta till största).
    • Fortsätt med exemplet ovan, betrakta följande dataset som representerar temperaturen för flera objekt: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Denna uppsättning bör beställas enligt följande: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}.
  3. 3 Beräkna medianen för datamängden. Medianen för en datamängd är värdet i mitten av datamängden. Om datamängden innehåller ett udda antal värden är medianen värdet före och efter vilket det finns samma antal värden i datamängden. Men om datauppsättningen innehåller ett jämnt antal värden måste du hitta det aritmetiska medelvärdet för de två medlen. Observera att vid beräkning av avvikare brukar medianen kallas Q2, eftersom den ligger mellan Q1 och Q3, de nedre och övre kvartilerna, som vi kommer att definiera senare.
    • Var inte rädd för att arbeta med datamängder som har ett jämnt antal värden- det aritmetiska medelvärdet för de två medlen är ett tal som inte finns i datamängden; det här är normalt. Men om de två medelvärdena är samma tal, så är det aritmetiska medelvärdet lika med detta tal; detta är också i ordningsföljd.
    • I exemplet ovan är de två mellersta värdena 70 och 71, så medianen är ((70 + 71) / 2) = 70,5.
  4. 4 Beräkna den nedre kvartilen. Detta värde, kallat Q1, ligger under vilket 25% av datamängden ligger. Med andra ord är det hälften av värdena upp till medianen. Om det finns ett jämnt antal värden från datamängden före medianen måste du hitta det aritmetiska medelvärdet för de två medlen för att beräkna Q1 (detta liknar beräkningen av medianen).
    • I vårt exempel ligger 6 värden efter medianen och 6 värden- före den. Detta betyder att för att beräkna den nedre kvartilen måste vi hitta det aritmetiska medelvärdet för de två medelvärdena för de sex värdena som ligger före medianen. Här är medelvärdena 70 och 70. Q1 = ((70 + 70) / 2) = 70.
  5. 5 Beräkna den övre kvartilen. Detta värde, kallat Q3, ligger över vilket 25% av datamängden ligger. Processen för att beräkna Q3 liknar processen för att beräkna Q1, men här beaktas värdena efter medianen.
    • I exemplet ovan är de två genomsnitten av de sex efter medianen 71 och 72. Så Q3 = ((71 + 72) / 2) = 71,5.
  6. 6 Beräkna interkvartilintervallet. Efter att ha beräknat Q1 och Q3 är det nödvändigt att hitta avståndet mellan dessa värden. För att göra detta, subtrahera Q1 från Q3. Värdet på interkvartilintervallet är oerhört viktigt för att bestämma gränserna för värden som inte är avvikande.
    • I vårt exempel är Q1 = 70 och Q3 = 71,5. Interkvartilintervallet är 71,5 - 70 = 1,5.
    • Observera att detta även gäller negativa Q1- och Q3 -värden. Till exempel, om Q1 = -70, är ​​interkvartilintervallet 71,5 -(-70) = 141,5.
  7. 7 Hitta de "inre gränserna" för värdena i datamängden. Outliers bestäms genom att analysera värdena- oavsett om de faller inom de så kallade "inre gränserna" och "yttre gränserna" eller inte. Ett värde utanför de "inre gränserna" klassificeras som en "mindre outlier", medan ett värde utanför "de yttre gränserna" klassificeras som en "signifikant outlier". För att hitta de inre gränserna måste du multiplicera interkvartilintervallet med 1,5; resultatet måste läggas till Q3 och subtraheras från Q1. De två siffrorna som finns är de inre gränserna för datamängden.
    • I vårt exempel är interkvartilintervallet (71,5 - 70) = 1,5. Vidare: 1,5 * 1,5 = 2,25. Detta nummer måste läggas till Q3 och subtraheras från Q1 för att hitta de inre gränserna:
      • 71,5 + 2,25 = 73,75
      • 70 - 2,25 = 67,75
      • Således är de inre gränserna 67,75 och 73,75.
    • I vårt exempel ligger bara ugnstemperaturen - 300 grader - utanför dessa gränser och kan betraktas som en obetydlig utsläpp. Men dra inte slutsatser - vi måste avgöra om denna temperatur är en betydande avvikelse.
  8. 8 Hitta "yttergränserna" för datamängden. Detta görs på samma sätt som för inre gränser, förutom att interkvartilintervallet multipliceras med 3 istället för 1,5. Resultatet måste läggas till Q3 och subtraheras från Q1. De två siffrorna som finns är de yttre gränserna för datamängden.
    • I vårt exempel multiplicerar du interkvartilintervallet med 3: 1,5 * 3 = 4,5. Beräkna de yttre gränserna:
      • 71,5 + 4,5 = 76
      • 70 - 4,5 = 65,5
      • Så de yttre gränserna är 65,5 och 76.
    • Alla värden som faller utanför de yttre gränserna anses vara betydande utsläpp. I vårt exempel anses en ugnstemperatur på 300 grader vara en betydande utblåsning.
  9. 9 Använd en kvalitativ uppskattning för att avgöra om avvikare ska uteslutas från datamängden. Metoden som beskrivs ovan låter dig avgöra om vissa värden är outliers (mindre eller signifikanta). Gör dock inga misstag - ett värde som klassificeras som en outlier är bara en "kandidat" för ett undantag, vilket innebär att du inte behöver utesluta det. Orsaken till outlier är den viktigaste faktorn som påverkar beslutet att utesluta outlier. Som regel är undantag som uppstår på grund av fel (i mätningar, inspelningar etc.) uteslutna. Å andra sidan lämnas vanligtvis avvikare som inte är förknippade med fel utan med ny information eller trend i datamängden.
    • Det är lika viktigt att bedöma effekten av outliers på medianen av datamängden (oavsett om de snedvrider den eller inte). Detta är särskilt viktigt när du drar slutsatser från medianen för en datamängd.
    • I vårt exempel är det extremt osannolikt att ugnen värms upp till en temperatur på 300 grader (om vi inte tar hänsyn till naturliga avvikelser). Därför kan man dra slutsatsen (med hög grad av säkerhet) att en sådan temperatur är ett mätfel som måste uteslutas från datamängden. Dessutom, om du inte utesluter outlier, kommer medianen för datamängden att vara (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300) / 12 = 89,67 grader, men om du utesluter outlier, kommer medianen att vara (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73) / 11 = 70,55 grader.
      • Outliers är vanligtvis resultatet av mänskliga fel, så outliers måste uteslutas från datamängder.
  10. 10 Förstå vikten av de (ibland) outliers som finns kvar i datasetet. Vissa avvikelser bör uteslutas från datamängden eftersom de beror på fel och tekniska problem. andra avvikare bör lämnas i datamängden. Om till exempel en outlier inte är resultatet av ett fel och / eller ger en ny förståelse för fenomenet som testas, bör det lämnas i datasetet. Vetenskapliga experiment är särskilt känsliga för outliers - genom att av misstag eliminera en outlier kan du missa någon ny trend eller upptäckt.
    • Till exempel utvecklar vi ett nytt läkemedel för att öka fiskens storlek i fiske. Vi kommer att använda den gamla datauppsättningen ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), men den här gången representerar varje värde fiskens vikt (i gram) efter intag av experimentellt läkemedel. Med andra ord leder det första läkemedlet till en ökning av fiskens vikt upp till 71 g, det andra läkemedlet - upp till 70 g osv. I denna situation är 300 en betydande outlier, men vi får inte utesluta det; om vi antar att det inte fanns några mätfel, så är en sådan outlier en betydande framgång i experimentet. Läkemedlet, som ökade fiskens vikt till 300 gram, fungerar mycket bättre än andra droger; 300 är alltså det viktigaste värdet i datamängden.

Tips

  • När avvikare hittas, försök att förklara deras närvaro innan du utesluter dem från datamängden. De kan indikera mätfel eller distributionsanomalier.

Vad behöver du

  • Kalkylator