[[matematik:start|Tilbage til matematik]] ===== B-files analyse ===== Jeg har kigget på b000001.txt til b321963.txt. ---- ==== Stats ==== * 172.234 "b-file synthesized from sequence entry" * 145.911 ikke "synthesized" * 3.818 a- og b-filer mangler. Dvs. alle fra 306.183 til 310.000 ==== Problemer ==== Følgende problemtyper har fundet: * 14.578 filer mangler eol. {{ :matematik:missing-eol.txt |}} * 931 filer har tabs istedet for space mellem index og værdi. {{ :matematik:tabs.txt }} * 49 bfiler er mindre end afiler og mindre end beskrevet på siden. F.eks. A031143 siger at bfilen indeholder 46 værdier ligesom a-filen, men der er kun 45 værdier for bfilen. {{ :matematik:strange.txt |}} * Filer i formattet "" * Filer med specielt format: * B068740 (tommer linjer) * B133515 (tab i slutningen af en linje med værdier) * Filer, der har nogle (få) linjer i formattet "{3}" * 35 b-filer, hvor a(0)=0 er første værdi i a-filen, men a(1) er første værdi i b-filen. {{ :matematik:missing-first-1.txt |}} * Uforståelige problemer. Stor forskel mellem a-filen og b-filen. * B004722 * B054827 * B081368 * B083753 * B261862 * B111076 (første værdi 0 eller 1?) * 234 sekvenser, hvor b-filen er helt forskellig for a-filen. {{ :matematik:very-different.txt |}} * 2 b-filer, hvor a(0)=0, a(1)=0 er første værdier i a-filen, men a(2) er færste værdi i b-filen: * B013235 * B244099 * 35 b-filer, hvor a(0)=1 er første værdi i a-filen, men a(1) er første værdi i b-filen: {{ :matematik:missing-first-2.txt |}} * 1 b-filer, hvor a(0)=0, a(1)=1 er første værdier i a-filen, men a(2) er færste værdi i b-filen: * B030123 * 2 b-filer, hvor a(0)=2 er første værdi i a-filen, men a(1) er første værdi i b-filen: * B054679 * B085420 * 1 b-filer, hvor a(0)=0 er første værdi i b-filen, men a(1) er første værdi i a-filen: * B124832 * B209873 * 1 b-fil, hvor de to første værdier 1,8 mangler i b-filen: * B138179 * 1 b-fil, hvor de to første værdier 1,6 mangler i b-filen: * B180857 * 1 b-fil, hvor første værdi mangler i b-filen: * B191341 * 1 b-fil, hvor de første 3 værdier mangler i b-filen: * B192857 * ---- ==== Compress stats ==== === xz === real 197m6.429s user 196m7.350s sys 0m32.020s 32,4% af original størrelse === xzcat === real 4m33.938s user 4m31.809s sys 0m2.076s === gzip === real 18m32.684s user 16m51.940s sys 0m12.044s 42,4% af original størrelse === zcat === real 1m36.638s user 1m34.148s sys 0m2.113s === bzip2 === real 22m38.687s user 20m30.668s sys 0m10.189s 40,5% af originale størrelse === bzcat === real 10m11.027s user 10m4.175s sys 0m5.752s ----