Продвинутая работа с файлами

Представим ситуацию - у нас есть несколько наборов данных, которые раскинуты по папкам, причем в папках может быть еще и мусор (картинки со смешными енотами, текстовые документы). Хотелось бы иметь возможность найти нужные файлы для последующей работы с ними. Проблема заключается в том, что Julia реализует только базовую работу с файлами - https://engee.com/helpcenter/stable/ru-en/julia/base/file.html, что явно недостаточно для такой задачи.

В этой публикации я сделаю более умный инструмент для работы с файлами, используя структуру данных, известную как дерево.

Создаем дерево

Сделаем наблюдение, что структура каталогов и файлов поразительно напоминает дерево. Деревья в программировании - это структура данных, описывающая специальный вид графов. У таких графов все узлы, кроме "корневого" имеют одного родителя:

Для таких графов известны оптимальные алгоритмы обхода графа и изменения графа и они зачастую уже реализованы. Моя идея следующая: представить содержимое папки и ее подпапок как дерево, каждый узел которого будет файлом или папкой. Каждый узел будет хранить отдельно путь, имя, расширение, дату и время создания и изменения, а так же признак папки. А что бы организовать древовидную структуру я буду хранить "потомков" этого узла:

using Dates

struct FileTreeNode
    path::String
    name::String
    ext::String
    isdir::Bool
    created::DateTime
    modified::DateTime
    children::Vector{FileTreeNode}
end

Таким образом, я смогу обходить дерево файлов и папок намного проще и быстрее, чем если бы использовал стандартную библиотеку Julia.

Чтобы получить дату и время создания и изменения файла, а также для получения имени, пути и расширения файла я напишу дополнительные функции:

function get_metadata(path::String)
    st = stat(path)
    created = unix2datetime(st.ctime)
    modified = unix2datetime(st.mtime)
    return created, modified
end

function split_name_ext(path::String)
    name = basename(path)
    base, ext = splitext(name)
    return base, ext
end

split_name_ext (generic function with 1 method)

Растим дерево

Необходимые структуры данных и вспомогательные функции созданы, и можно переходить к реализаци дерева структуры каталогов.

Создадим функцию, которая будет получать время создания и изменения файла или папки, имя и расширения для некоторого пути path. Далее, при помощи readdir получим список файлов и папок внутри текущей папки.

Для каждой из обнаруженных папок повторим такую же операцию. То есть наша функция будет вызывать сама себя. Такой прием называется рекурсией.

Добавим к нашей функции еще одно ограничение: глубину поиска. Такое ограничение ограничит уровень вложенности папок для обхода и ускорит построение дерева.

В результате работы этой функции получим узел дерева.

function build_tree(path::String; maxdepth=typemax(Int), depth=0)
    is_dir = isdir(path)

    name, ext = split_name_ext(path)
    created, modified = get_metadata(path)
    if is_dir && depth < maxdepth
        entries = readdir(path; join=true)
        children = [
            build_tree(e; maxdepth, depth=depth+1)
            for e in sort(entries)
        ]
    else
        children = FileTreeNode[]
    end

    return FileTreeNode(path, name, ext, is_dir, created, modified, children)
end

build_tree (generic function with 1 method)

Далее, упростим задачу визуализации дерева с помощью библиотеки AbstractTrees.jl. Определим две новые функции для нашего дерева:

children() - для получения потомков узла дерева
printnode() - для вывода узла на экран

import Pkg
Pkg.add("AbstractTrees")
import AbstractTrees: children, printnode

children(node::FileTreeNode) = node.children

function printnode(io::IO, node::FileTreeNode)

    if node.isdir
        print(io, "📁 ", node.name)
    else
        print(io, "📄 ", node.name, node.ext)
    end
end

   Resolving package versions...
   Installed FiniteDiff ──────────── v2.29.0
   Installed LazyArrays ──────────── v2.9.5
   Installed LineSearch ──────────── v0.1.6
   Installed DiffEqCallbacks ─────── v4.12.0
   Installed SparseMatrixColorings ─ v0.4.26
   Installed DiffEqNoiseProcess ──── v5.27.0
     Project No packages added to or removed from `~/.project/Project.toml`
    Manifest No packages added to or removed from `~/.project/Manifest.toml`

printnode (generic function with 5 methods)

Готово! Давайте проверим, что дерево собирается:

tree = build_tree(@__DIR__,maxdepth=1)
using AbstractTrees: print_tree
print_tree(tree)

📁 FileOps
├─ 📁 .git
├─ 📁 DataDepot
├─ 📄 dirprint.ngscript
├─ 📄 filetree_ops.ngscript
└─ 📄 filetree_ops_1.ipynb

Применяем дерево на практике

Давайте склеим 3 набора данных, расположенных в папке DataDepot.

Сначала, посмотрим что у нас в папке:

tree = build_tree(joinpath(@__DIR__,"DataDepot"),maxdepth=2)
print_tree(tree)

📁 DataDepot
├─ 📁 S1
│  ├─ 📄 data1.csv
│  └─ 📄 trash.rc
├─ 📁 S2
│  ├─ 📄 data2.csv
│  └─ 📄 notsotrash.dc
└─ 📁 S3
   └─ 📄 data3.csv

Затем, получим все *.csv-файлы, обойдя созданное выше дерево:

function find_files_by_ext(node::FileTreeNode, ext::String,acc=String[])
    if !startswith(ext,".")
        ext = "."*ext
    end
    if isequal(node.ext,ext)
        push!(acc, node.path)
        println("$(acc)")
    end
    for c in node.children
        accchild = find_files_by_ext(c, ext)
        if ~isempty(accchild)
            append!(acc,accchild)

        end
    end
    return acc
end

csv_files = find_files_by_ext(tree,"csv")

["/user/work/FileOps/DataDepot/S1/data1.csv"]
["/user/work/FileOps/DataDepot/S2/data2.csv"]
["/user/work/FileOps/DataDepot/S3/data3.csv"]

3-element Vector{String}:
 "/user/work/FileOps/DataDepot/S1/data1.csv"
 "/user/work/FileOps/DataDepot/S2/data2.csv"
 "/user/work/FileOps/DataDepot/S3/data3.csv"

А теперь загрузим их и склеим:

using CSV
df_v = Vector{DataFrame}()
for f in csv_files
    df = CSV.read(joinpath(pwd(),f),DataFrame)
    println("Прочитано $(nrow(df)) строк из файла $f")
    push!(df_v,df)
end
df_v = reduce(vcat,df_v)

Прочитано 10 строк из файла /user/work/FileOps/DataDepot/S1/data1.csv
Прочитано 10 строк из файла /user/work/FileOps/DataDepot/S2/data2.csv
Прочитано 10 строк из файла /user/work/FileOps/DataDepot/S3/data3.csv

Выводы

В данной публикации мы посмотрели на пример применения классических структур данных из программирования для решения практических инженерных задач. В последующих публикациях будут рассмотрены другие приемы программирования, облегчающие задачи технических расчетов.

Row	x1	x2	x3
	Float64	Float64	Float64
1	0.894766	0.73659	0.0567356
2	0.740872	0.422371	0.447714
3	0.657777	0.825997	0.168484
4	0.894087	0.0234383	0.256112
5	0.846665	0.0309255	0.895526
6	0.462759	0.883861	0.8525
7	0.184876	0.452416	0.432112
8	0.678519	0.361901	0.00114721
9	0.0733679	0.152841	0.837117
10	0.537586	0.176129	0.0318991
11	0.832841	0.304872	0.843521
12	0.247643	0.634289	0.639223
13	0.306391	0.074485	0.85542
⋮	⋮	⋮	⋮
19	0.723651	0.0189284	0.845076
20	0.28812	0.946672	0.700205
21	0.816104	0.0117313	0.145698
22	0.294245	0.219064	0.343588
23	0.388212	0.516399	0.235681
24	0.401122	0.496015	0.420165
25	0.129609	0.733128	0.098028
26	0.65969	0.150891	0.102492
27	0.937992	0.976567	0.137387
28	0.843742	0.859898	0.522218
29	0.276489	0.88083	0.271357
30	0.645055	0.911767	0.108152