matematik:b-file_analyse
Table of Contents
B-files analyse
Jeg har kigget på b000001.txt til b321963.txt.
Stats
- 172.234 “b-file synthesized from sequence entry”
- 145.911 ikke “synthesized”
- 3.818 a- og b-filer mangler. Dvs. alle fra 306.183 til 310.000
Problemer
Følgende problemtyper har fundet:
- 14.578 filer mangler eol. missing-eol.txt
- 931 filer har tabs istedet for space mellem index og værdi. tabs.txt
- 49 bfiler er mindre end afiler og mindre end beskrevet på siden. F.eks. A031143 siger at bfilen indeholder 46 værdier ligesom a-filen, men der er kun 45 værdier for bfilen. strange.txt
- Filer i formattet “<space><index><space><space><value>”
- Filer med specielt format:
- B068740 (tommer linjer)
- B133515 (tab i slutningen af en linje med værdier)
- Filer, der har nogle (få) linjer i formattet “<space><space><index><space>{3}<value><space>”
- 35 b-filer, hvor a(0)=0 er første værdi i a-filen, men a(1) er første værdi i b-filen. missing-first-1.txt
- Uforståelige problemer. Stor forskel mellem a-filen og b-filen.
- B004722
- B054827
- B081368
- B083753
- B261862
- B111076 (første værdi 0 eller 1?)
- 234 sekvenser, hvor b-filen er helt forskellig for a-filen. very-different.txt
- 2 b-filer, hvor a(0)=0, a(1)=0 er første værdier i a-filen, men a(2) er færste værdi i b-filen:
- B013235
- B244099
- 35 b-filer, hvor a(0)=1 er første værdi i a-filen, men a(1) er første værdi i b-filen: missing-first-2.txt
- 1 b-filer, hvor a(0)=0, a(1)=1 er første værdier i a-filen, men a(2) er færste værdi i b-filen:
- B030123
- 2 b-filer, hvor a(0)=2 er første værdi i a-filen, men a(1) er første værdi i b-filen:
- B054679
- B085420
- 1 b-filer, hvor a(0)=0 er første værdi i b-filen, men a(1) er første værdi i a-filen:
- B124832
- B209873
- 1 b-fil, hvor de to første værdier 1,8 mangler i b-filen:
- B138179
- 1 b-fil, hvor de to første værdier 1,6 mangler i b-filen:
- B180857
- 1 b-fil, hvor første værdi mangler i b-filen:
- B191341
- 1 b-fil, hvor de første 3 værdier mangler i b-filen:
- B192857
Compress stats
xz
real 197m6.429s user 196m7.350s sys 0m32.020s
32,4% af original størrelse
xzcat
real 4m33.938s user 4m31.809s sys 0m2.076s
gzip
real 18m32.684s user 16m51.940s sys 0m12.044s
42,4% af original størrelse
zcat
real 1m36.638s user 1m34.148s sys 0m2.113s
bzip2
real 22m38.687s user 20m30.668s sys 0m10.189s
40,5% af originale størrelse
bzcat
real 10m11.027s user 10m4.175s sys 0m5.752s
matematik/b-file_analyse.txt · Last modified: 2023/10/21 19:19 by 127.0.0.1