ISSN: 2165- 7866
Ашутош Гупта
Дезоксирибонуклеиновая кислота (ДНК) представляет собой физическую среду, в которой закодированы все свойства живых организмов. Понимание ее последовательности является первостепенной задачей молекулярной биологии. Некоторые важные базы данных молекулярной биологии (ERIBL, GenBank, DDJB) разрабатываются по всему миру для накопления последовательностей нуклеотидов (ДНК, РНК) и последовательностей аминокислот белков. Общепризнанно, что их размер в настоящее время увеличивается экспоненциально быстро. Пока они не такие большие, как некоторые другие научные базы данных, их размер составляет сотни ГБ [1]. Для полных геномов эти тексты могут быть очень длинными. Например, человеческий геном содержит три миллиарда символов на двадцати трех парах хромосом. Он содержит всю генетическую субстанцию людей. С ростом числа доступных последовательностей генома необходимо решать проблему хранения и использования баз данных. В результате сжатие генетической информации представляет собой очень важную задачу. Другим фактором, который также следует учитывать, является прогнозирование определенного вида заболевания путем применения поиска шаблона в сжатой области.