Python查找物质:配置文件匹配与记录实战
在材料科学和化学领域,经常需要根据物质的特性从大量数据中查找特定物质。本文将介绍如何使用Python高效地根据物质特性从配置文件中匹配并记录SiO₂、Ni等物质名称。
问题背景
假设我们有一个包含多种物质及其特性的配置文件,需要根据给定的特性参数(如化学式、分子量、密度等)来查找匹配的物质,并将结果记录下来。
解决方案设计
1. 配置文件结构设计
首先,我们需要设计一个合理的配置文件格式。这里我们使用JSON格式,因为它易于读写且支持复杂数据结构。
{
"substances": [
{
"name": "二氧化硅",
"formula": "SiO2",
"molecular_weight": 60.08,
"density": 2.65,
"melting_point": 1713
},
{
"name": "镍",
"formula": "Ni",
"molecular_weight": 58.69,
"density": 8.908,
"melting_point": 1455
},
{
"name": "氧化铁",
"formula": "Fe2O3",
"molecular_weight": 159.69,
"density": 5.24,
"melting_point": 1565
}
]
}2. 核心匹配算法
我们将实现一个灵活的匹配函数,支持多种匹配方式:精确匹配、范围匹配和模糊匹配。
import json
from typing import List, Dict, Any, Optional
class SubstanceMatcher:
def __init__(self, config_file: str):
"""初始化物质匹配器"""
with open(config_file, 'r', encoding='utf-8') as f:
self.data = json.load(f)
self.substances = self.data.get('substances', [])
def exact_match(self, criteria: Dict[str, Any]) -> List[Dict[str, Any]]:
"""精确匹配"""
results = []
for substance in self.substances:
match = True
for key, value in criteria.items():
if key in substance and substance[key] != value:
match = False
break
if match:
results.append(substance)
return results
def range_match(self, criteria: Dict[str, tuple]) -> List[Dict[str, Any]]:
"""范围匹配"""
results = []
for substance in self.substances:
match = True
for key, (min_val, max_val) in criteria.items():
if key in substance:
val = substance[key]
if not (min_val <= val <= max_val):
match = False
break
else:
match = False
break
if match:
results.append(substance)
return results
def fuzzy_match(self, field: str, keyword: str) -> List[Dict[str, Any]]:
"""模糊匹配"""
results = []
for substance in self.substances:
if field in substance and keyword.lower() in str(substance[field]).lower():
results.append(substance)
return results
def find_substances(self, **kwargs) -> List[Dict[str, Any]]:
"""综合查找方法"""
# 判断匹配类型
has_range = any(isinstance(v, tuple) for v in kwargs.values())
has_fuzzy = any(k.startswith('fuzzy_') for k in kwargs.keys())
if has_fuzzy:
# 模糊匹配
field = kwargs.pop('fuzzy_field')
keyword = kwargs.pop('fuzzy_keyword')
return self.fuzzy_match(field, keyword)
elif has_range:
# 范围匹配
range_criteria = {k: v for k, v in kwargs.items() if isinstance(v, tuple)}
return self.range_match(range_criteria)
else:
# 精确匹配
return self.exact_match(kwargs)3. 结果记录功能
实现将匹配结果记录到文件的功能,支持多种格式输出。
class ResultRecorder:
@staticmethod
def record_to_txt(results: List[Dict[str, Any]], filename: str):
"""记录结果到文本文件"""
with open(filename, 'w', encoding='utf-8') as f:
f.write("物质查找结果\n")
f.write("="*50 + "\n\n")
for i, substance in enumerate(results, 1):
f.write(f"结果 {i}:\n")
for key, value in substance.items():
f.write(f" {key}: {value}\n")
f.write("\n")
@staticmethod
def record_to_json(results: List[Dict[str, Any]], filename: str):
"""记录结果到JSON文件"""
with open(filename, 'w', encoding='utf-8') as f:
json.dump(results, f, ensure_ascii=False, indent=2)
@staticmethod
def record_to_csv(results: List[Dict[str, Any]], filename: str):
"""记录结果到CSV文件"""
if not results:
return
import csv
with open(filename, 'w', newline='', encoding='utf-8-sig') as f:
writer = csv.DictWriter(f, fieldnames=results[0].keys())
writer.writeheader()
writer.writerows(results)完整应用示例
下面是一个完整的使用示例,演示如何查找SiO₂和Ni等物质。
# 使用示例
def main():
# 初始化匹配器
matcher = SubstanceMatcher('substances.json')
recorder = ResultRecorder()
print("=== 查找SiO2 ===")
# 精确匹配SiO2
sio2_results = matcher.find_substances(formula="SiO2")
print(f"找到 {len(sio2_results)} 个结果:")
for result in sio2_results:
print(f" - {result['name']} ({result['formula']})")
# 记录到不同格式
recorder.record_to_txt(sio2_results, 'sio2_results.txt')
recorder.record_to_json(sio2_results, 'sio2_results.json')
recorder.record_to_csv(sio2_results, 'sio2_results.csv')
print("\n=== 查找镍(Ni) ===")
# 精确匹配镍
ni_results = matcher.find_substances(formula="Ni")
print(f"找到 {len(ni_results)} 个结果:")
for result in ni_results:
print(f" - {result['name']} ({result['formula']})")
print("\n=== 按分子量范围查找 ===")
# 查找分子量在50-70之间的物质
range_results = matcher.find_substances(molecular_weight=(50, 70))
print(f"找到 {len(range_results)} 个结果:")
for result in range_results:
print(f" - {result['name']}: {result['molecular_weight']} g/mol")
print("\n=== 模糊查找 ===")
# 模糊查找名称包含"氧"的物质
fuzzy_results = matcher.find_substances(
fuzzy_field='name',
fuzzy_keyword='氧'
)
print(f"找到 {len(fuzzy_results)} 个结果:")
for result in fuzzy_results:
print(f" - {result['name']} ({result['formula']})")
if __name__ == "__main__":
main()性能优化建议
对于大规模数据,可以考虑以下优化措施:
索引优化:对常用查询字段建立索引
缓存机制:缓存频繁查询结果
数据库集成:使用SQLite或专业数据库替代JSON文件
并行处理:对大数据集使用多线程或多进程处理
扩展功能
可以根据需求进一步扩展功能:
支持更多匹配算法(正则表达式、相似度计算)
添加物质间的反应关系查询
实现物质特性计算功能
添加图形界面或Web接口
通过本文介绍的方法,您可以构建一个灵活高效的化学物质查找系统,满足各种科研和工程需求。