User Tools

Site Tools


matematik:b-file_analyse

Tilbage til matematik

B-files analyse

Jeg har kigget på b000001.txt til b321963.txt.


Stats

  • 172.234 “b-file synthesized from sequence entry”
  • 145.911 ikke “synthesized”
  • 3.818 a- og b-filer mangler. Dvs. alle fra 306.183 til 310.000

Problemer

Følgende problemtyper har fundet:

  • 14.578 filer mangler eol. missing-eol.txt
  • 931 filer har tabs istedet for space mellem index og værdi. tabs.txt
  • 49 bfiler er mindre end afiler og mindre end beskrevet på siden. F.eks. A031143 siger at bfilen indeholder 46 værdier ligesom a-filen, men der er kun 45 værdier for bfilen. strange.txt
  • Filer i formattet “<space><index><space><space><value>”
  • Filer med specielt format:
    • B068740 (tommer linjer)
    • B133515 (tab i slutningen af en linje med værdier)
  • Filer, der har nogle (få) linjer i formattet “<space><space><index><space>{3}<value><space>”
  • 35 b-filer, hvor a(0)=0 er første værdi i a-filen, men a(1) er første værdi i b-filen. missing-first-1.txt
  • Uforståelige problemer. Stor forskel mellem a-filen og b-filen.
    • B004722
    • B054827
    • B081368
    • B083753
    • B261862
    • B111076 (første værdi 0 eller 1?)
  • 234 sekvenser, hvor b-filen er helt forskellig for a-filen. very-different.txt
  • 2 b-filer, hvor a(0)=0, a(1)=0 er første værdier i a-filen, men a(2) er færste værdi i b-filen:
    • B013235
    • B244099
  • 35 b-filer, hvor a(0)=1 er første værdi i a-filen, men a(1) er første værdi i b-filen: missing-first-2.txt
  • 1 b-filer, hvor a(0)=0, a(1)=1 er første værdier i a-filen, men a(2) er færste værdi i b-filen:
    • B030123
  • 2 b-filer, hvor a(0)=2 er første værdi i a-filen, men a(1) er første værdi i b-filen:
    • B054679
    • B085420
  • 1 b-filer, hvor a(0)=0 er første værdi i b-filen, men a(1) er første værdi i a-filen:
    • B124832
    • B209873
  • 1 b-fil, hvor de to første værdier 1,8 mangler i b-filen:
    • B138179
  • 1 b-fil, hvor de to første værdier 1,6 mangler i b-filen:
    • B180857
  • 1 b-fil, hvor første værdi mangler i b-filen:
    • B191341
  • 1 b-fil, hvor de første 3 værdier mangler i b-filen:
    • B192857

Compress stats

xz

real 197m6.429s user 196m7.350s sys 0m32.020s

32,4% af original størrelse

xzcat

real 4m33.938s user 4m31.809s sys 0m2.076s

gzip

real 18m32.684s user 16m51.940s sys 0m12.044s

42,4% af original størrelse

zcat

real 1m36.638s user 1m34.148s sys 0m2.113s

bzip2

real 22m38.687s user 20m30.668s sys 0m10.189s

40,5% af originale størrelse

bzcat

real 10m11.027s user 10m4.175s sys 0m5.752s


matematik/b-file_analyse.txt · Last modified: 2023/10/21 19:19 by 127.0.0.1

Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki