Chưa có bác nào trả lời, em xin bật mí!
15 năm để lấp nốt cái khoảng trống có 8% còn lại không chỉ bởi giới hạn do khả năng của công nghệ sinh học phân tử mà cả các nhà IT.
Giải trình tự ADN không đơn giản là tách vòng xoắn ADN từ nhiễm sắc thể, kéo dãn và tách đôi nó ra để chỉ lấy 1 chuỗi đơn rồi cứ thế đọc được từ đầu đến cuối chuỗi trình tự A,T, G, C của các nucleotides.
Đến bây giờ người ta mới chỉ đang đọc được từng đoạn ngắn (phải nói là rất ngắn nếu so chiều dài chung của ADN) và cứ đọc đi, đọc lại các đoạn ngắn đó, rất nhiều chỗ bị đọc trùng lắp. Phần mềm máy tính sẽ hỗ trợ để gắn kết quả của tất cả các đoạn đọc được rồi cho ra hình ảnh của cả cái chuỗi ADN. Đó là 1 chuỗi những phép tính khổng lồ, đòi hỏi không chỉ cách lập trình mà cả năng lực xử lý của máy tính!
Có thể đưa 1 ví dụ bằng hình ảnh tượng trưng khá sát là nhiều người tham gia vào đếm những hòn bi được sơn các mầu xanh, đỏ, tím, vàng (tượng trưng cho 4 nucleotides) trong 1 cái bể. Họ đứng ngay trong bể, dùng tay bốc bi lên để đếm. Mỗi lần bốc do bàn tay nhỏ, bốc nhanh nên không được nhiều và số bi cũng không bằng nhau. Bi đếm xong không bỏ được đi nơi nào khác ngoài thả lại bể, nên bi đếm rồi không chỉ bị người khác mà chính người thả xuống bốc lại. Phần mềm sẽ phải loại những viên bi bị đếm lại để cho chính xác số lượng lượng bi của từng mầu có trong bể. Nhưng cái bể không tròn trịa hay vuông vắn. Sau chỗ rộng rãi thênh thang là đến các ngóc, ngách, khó bốc bi lên và hay bị bốc lại nhiều hơn. Phần mềm tính nhiều sai số hơn. Họ lại phải tạm dừng lại để nghĩ cách bốc bi lên đỡ lặp lại và song song là chỉnh phần mềm, tăng khả năng xử lý của mấy cái siêu máy tính!
Trong giải trình tự ADN là cái vùng gần chỗ giao nhau của nhiễm sắc thể (centromere). Chắc nhiều người không quên là nhiễm sắc thể có hình giống cái nơ, ở 1 đầu nó bắt chéo nhau chứ không thẳng. Gần chỗ đó đọc rất khó và tạo nhiều sai sót. Họ lại bảo ở đó có nhiều cái genes rất quan trọng.
Đó chính là cái 8% mà sau khi kết thúc DA vẫn để lại cho đến tận năm 2022 vừa rồi mới làm được nốt.